3D視覺語言動作生成世界模型

資料來源：@_akhaliq

最近的視覺語言動作（VLA）模型依賴於2D輸入，缺乏與更廣泛的3D物理世界的集成。此外，他們通過學習直接映射來進行動作預測

實現原理

感知行動忽視了世界的巨大動態以及行動與動態之間的關係。相比之下，人類被賦予了一個世界模型，可以描繪對未來場景的想像力並計劃相應的行動。
為此，3D-VLA被推薦並引入了一系列新的具體基礎模型，通過生成的世界模型將3D感知，推理和行動無縫連結。
具體來說，3D-VLA構建在基於3D的大型語言模型（LLM）之上，一組交互式標籤通過從現有機器人數據集中提取大量3D相關信息來構建大規模3D體現指令數據集。
對保存數據集的實驗表明，3D-VLA通過從現有機器人數據集中提取大量3D相關信息來構建大規模3D體現指令數據集。我們對保存數據集的實驗表明，3D-VLA

https://arxiv.org/abs/2403.09631

視頻：