北京大学Yuangroup团队发起了一个 Open-Sora计划
旨在复现OpenAI 的Sora模型
Open-Sora计划通过视频VQ-VAE、Denoising Diffusion Transformer和条件编码器等技术组件,来实现Sora模型的功能。
该项目现在支持 :
🚀可变长宽比
✈️可变分辨率
🚅可变持续时间
演示视频:10s视频重建(256x256分辨率)/ 18s视频重建(196x)
Open-Sora计划实现了以下几个关键组件和特性来复现OpenAI的视频生成模型:
1、视频VQ-VAE(Vector Quantized-Variational AutoEncoder):这是一个压缩视频到时间和空间维度的潜在表示的组件。它可以将高分辨率视频压缩成低维度的表示,便于后续的处理和生成。
2、去噪扩散变换器(Denoising Diffusion Transformer):这个组件用于从潜在表示中生成视频,通过逐步减少噪声来恢复视频的详细内容。
3、条件编码器(Condition Encoder):支持多种条件输入,允许模型根据不同的文本描述或其他条件生成视频内容。
此外,项目还实施了几项技术以增强视频生成的灵活性和质量:
1、可变长宽比:通过动态遮罩策略并行批量训练,保持灵活的长宽比。将高分辨率视频调整大小以使最长边为256像素,保持长宽比,然后在右侧和底部用零填充以达到统一的256x256分辨率。
2、可变分辨率:尽管在固定的256x256分辨率上训练,但在推理过程中,使用位置插值使得可以进行可变分辨率采样。这使得注意力基础的扩散模型能够处理更高分辨率的序列。
3、可变持续时间:利用视频VQ-VAE压缩视频到潜在表示,实现多持续时间的视频生成。通过将空间位置插值扩展到时空版本,以处理可变持续时间的视频。
项目地址:https://pku-yuangroup.github.io/Open-Sora-Plan/blog_cn.html
GitHub:https://github.com/PKU-YuanGroup/Open-Sora-Plan