繁中

3D視覺語言動作生成世界模型

資料來源:@_akhaliq

最近的視覺語言動作(VLA)模型依賴於2D輸入,缺乏與更廣泛的3D物理世界的集成。此外,他們通過學習直接映射來進行動作預測

實現原理

感知行動忽視了世界的巨大動態以及行動與動態之間的關係。相比之下,人類被賦予了一個世界模型,可以描繪對未來場景的想像力並計劃相應的行動。
為此,3D-VLA被推薦並引入了一系列新的具體基礎模型,通過生成的世界模型將3D感知,推理和行動無縫連結。
具體來說,3D-VLA構建在基於3D的大型語言模型(LLM)之上,一組交互式標籤通過從現有機器人數據集中提取大量3D相關信息來構建大規模3D體現指令數據集。
對保存數據集的實驗表明,3D-VLA通過從現有機器人數據集中提取大量3D相關信息來構建大規模3D體現指令數據集。我們對保存數據集的實驗表明,3D-VLA

https://arxiv.org/abs/2403.09631

視頻:

返回頂端