潘多拉：通過自然語言運動和視頻狀態邁向通用世界模型

以下為原文翻譯：

潘多拉，這是邁向共同世界模式（GWM）的一步：
通過跨任何領域生成視頻來模擬世界狀態
允許通過用自然語言表達的動作進行立即控制

使用自然語言即時控制

Pandora在視頻生成過程中接受免費文本操作作為輸入，以動態引導視頻。這與以前的文本轉視頻模型非常不同，後者只允許在視頻開頭出現文本提示。動態控制實現了世界模型的承諾，支持交互式內容生成並增強了穩健的推理和規劃。

世界模型模擬了世界的替代未來。潘多拉讓你掌控未來。在這裡，我們展示了一些反事實的未來--從相同的初始狀態但不同的動作生成的不同視頻。

Pandora可以生成各種常見領域的視頻，如室內/室外、自然/城市、人類/機器人、2D/3D等場景。你可以在潘多拉的盒子畫廊找到更多的視頻。

使用高質量數據進行命令調整使模型能夠學習有效的運動控制並移動到不同的不可見區域。例如，Pandora看到了Coinrun，這是訓練期間唯一的2D遊戲，但可以將學到的動作無縫地應用到其他2D遊戲中。

現有的擴散視頻模型通常會產生固定長度的視頻。通過將視頻模型與Pandora的自回歸主幹集成，可以生成持續時間無限的更長視頻。我們展示了Pandora生成的8秒視頻，儘管我們的訓練視頻有5秒長。

如果您想了解更多信息，可以單擊視頻下方的連結。
感謝您觀看此視頻。如果您喜歡，請訂閱並點讚。謝謝

輸油管：