繁中

OpenAI Sora的新文本到視頻模型

Nvidia科學家@DrJimFan如何評價Sora?

1/Sora是一個數據驅動的物理引擎,可以模擬許多世界
2/看似簡單的步驟涉及大量的技術和模擬
3/未來,它將取代所有手工設計的圖形管道。

以下是主要文本:

Sora是一個數據驅動的物理引擎。它是對許多世界的模擬,無論是真實的還是想像的。該模擬器使用一些去噪和梯度數學來學習複雜渲染、「直觀」物理、長期推理和語義的基礎知識。

如果Sora使用虛幻引擎5來訓練大量的合成數據,我不會感到驚訝。一定是!

讓我們分解下面的視頻。提示:「真實的特寫視頻,兩艘海盜船在一杯咖啡中航行時互相打鬥。"

  • 該模擬器實例化了兩個美麗的3D資產:具有不同裝飾的海盜船。Sora必須隱式地解決其潛在空間中的文本到3D問題。
  • 3D對象在航行並避開彼此的路徑時始終保持動畫狀態。
  • 咖啡的流體動力學,甚至船周圍形成的泡沫。流體模擬是計算機圖形學的一個完整的子領域,傳統上需要非常複雜的算法和方程。
  • 照片真實感幾乎就像光線追蹤渲染一樣。
  • 該模擬器考慮到了與海洋相比杯子的尺寸較小,並使用軸移攝影來創造「微小」的大氣。
  • 場景的語義在現實世界中不存在,但引擎仍然實現了我們所期望的正確物理規則。

X原創帖子:https://x.com/DrJimFan/status/1758210245799920123? S=20

視頻:

返回頂端