包括完整的文本到視頻模型訓練過程、數據處理、訓練細節和模型檢查點。
該項目由@YangYou1991團隊開發,這是OpenAI Sora的視頻生成開源替代方案。
只需3天的培訓即可生成2到5秒的512 x512視頻。
Open-Sora採用優於VideoGPT中的VQ-VAE的VAE模型。
該項目還探索了不同的模型架構,包括DiT(擴散變壓器),Latte和該項目提出的STDiT,以找到最佳平衡視頻質量和生成速度的模型架構。
支持使用DiT、Latte和PixArt的官方權重進行推理,允許用戶從現有的高質量模型生成視頻。
學習是一件好事.
GitHub:https://github.com/hpcaitech/Open-Sora
視頻: