北京大学Yuangroup团队发起了一个 Open-Sora计划

旨在复现OpenAI 的Sora模型

Open-Sora计划通过视频VQ-VAE、Denoising Diffusion Transformer和条件编码器等技术组件,来实现Sora模型的功能。

该项目现在支持 :

🚀可变长宽比
✈️可变分辨率
🚅可变持续时间

演示视频:10s视频重建(256x256分辨率)/ 18s视频重建(196x)

Open-Sora计划实现了以下几个关键组件和特性来复现OpenAI的视频生成模型:

1、视频VQ-VAE(Vector Quantized-Variational AutoEncoder):这是一个压缩视频到时间和空间维度的潜在表示的组件。它可以将高分辨率视频压缩成低维度的表示,便于后续的处理和生成。
2、去噪扩散变换器(Denoising Diffusion Transformer):这个组件用于从潜在表示中生成视频,通过逐步减少噪声来恢复视频的详细内容。
3、条件编码器(Condition Encoder):支持多种条件输入,允许模型根据不同的文本描述或其他条件生成视频内容。

此外,项目还实施了几项技术以增强视频生成的灵活性和质量:

1、可变长宽比:通过动态遮罩策略并行批量训练,保持灵活的长宽比。将高分辨率视频调整大小以使最长边为256像素,保持长宽比,然后在右侧和底部用零填充以达到统一的256x256分辨率。

2、可变分辨率:尽管在固定的256x256分辨率上训练,但在推理过程中,使用位置插值使得可以进行可变分辨率采样。这使得注意力基础的扩散模型能够处理更高分辨率的序列。

3、可变持续时间:利用视频VQ-VAE压缩视频到潜在表示,实现多持续时间的视频生成。通过将空间位置插值扩展到时空版本,以处理可变持续时间的视频。

项目地址:https://pku-yuangroup.github.io/Open-Sora-Plan/blog_cn.html
GitHub:https://github.com/PKU-YuanGroup/Open-Sora-Plan

新视频:https://youtu.be/FLbicQlWMs4

了解 Tarogo Cloud Bloger & Shop 的更多信息

立即订阅以继续阅读并访问完整档案。

继续阅读