潘多拉:通过自然语言动作和视频状态迈向通用世界模型
以下内容翻译自原文:
Pandora,这是迈向通用世界模型 (GWM) 的一步:
通过跨任何域生成视频来模拟世界状态
允许通过用自然语言表达的动作进行随时控制
使用自然语言进行即时控制
Pandora 在视频生成过程中接受自由文本操作作为输入,以动态引导视频。这与以前的文本到视频模型有很大不同,以前的文本到视频模型只允许在视频开头出现文本提示。动态控制实现了世界模型的承诺,支持交互式内容生成并增强稳健的推理和规划。
随心所欲地预测另类未来
世界模型模拟世界的替代未来。潘多拉让你掌控未来。在这里,我们展示了一些反事实的未来——从相同的初始状态但不同的动作生成的不同视频。
模拟跨任何领域的世界
Pandora 能够生成各种通用领域的视频,例如室内/室外、自然/城市、人类/机器人、2D/3D 和其他场景。您可以在潘多拉魔盒图库中找到更多视频。
在一个领域学习行动并在另一领域使用
使用高质量数据进行指令调整使模型能够学习有效的动作控制并转移到不同的看不见的领域。例如,Pandora 在训练期间看到了唯一的 2D 游戏 Coinrun,但可以将学到的动作无缝地应用到其他 2D 游戏中。
自回归模型产生更长的视频
现有的扩散视频模型通常生成固定长度的视频。通过将视频模型与 Pandora 自回归骨干网集成,可以生成具有无限持续时间的更长视频。我们展示了 Pandora 生成的 8 秒视频,尽管我们的训练视频长达 5 秒。
如果想详细了解,可以点开视频下方的链接。
谢谢观看本视频。要是喜欢,请订阅、点赞。谢谢