北京大学Yuangroup团队发起了一个 Open-Sora计划

北京大学Yuangroup团队发起了一个 Open Sora计划

Watch this video on YouTube

旨在复现OpenAI 的Sora模型

Open-Sora计划通过视频VQ-VAE、Denoising Diffusion Transformer和条件编码器等技术组件，来实现Sora模型的功能。

该项目现在支持：

🚀可变长宽比
✈️可变分辨率
🚅可变持续时间

演示视频：10s视频重建（256×256分辨率）/ 18s视频重建(196x)

Open-Sora计划实现了以下几个关键组件和特性来复现OpenAI的视频生成模型：

1、视频VQ-VAE（Vector Quantized-Variational AutoEncoder）：这是一个压缩视频到时间和空间维度的潜在表示的组件。它可以将高分辨率视频压缩成低维度的表示，便于后续的处理和生成。
2、去噪扩散变换器（Denoising Diffusion Transformer）：这个组件用于从潜在表示中生成视频，通过逐步减少噪声来恢复视频的详细内容。
3、条件编码器（Condition Encoder）：支持多种条件输入，允许模型根据不同的文本描述或其他条件生成视频内容。

此外，项目还实施了几项技术以增强视频生成的灵活性和质量：

1、可变长宽比：通过动态遮罩策略并行批量训练，保持灵活的长宽比。将高分辨率视频调整大小以使最长边为256像素，保持长宽比，然后在右侧和底部用零填充以达到统一的256×256分辨率。

2、可变分辨率：尽管在固定的256×256分辨率上训练，但在推理过程中，使用位置插值使得可以进行可变分辨率采样。这使得注意力基础的扩散模型能够处理更高分辨率的序列。

3、可变持续时间：利用视频VQ-VAE压缩视频到潜在表示，实现多持续时间的视频生成。通过将空间位置插值扩展到时空版本，以处理可变持续时间的视频。

项目地址：https://pku-yuangroup.github.io/Open-Sora-Plan/blog_cn.html
GitHub：https://github.com/PKU-YuanGroup/Open-Sora-Plan

新视频：https://youtu.be/FLbicQlWMs4

北京大学Yuangroup团队发起了一个 Open-Sora计划

该项目现在支持：

此外，项目还实施了几项技术以增强视频生成的灵活性和质量：

谷歌家的好东西：艺术家

一款开源的AI试衣模型，能够精确操控人物的外观和姿势

NoteGen跨端的 Markdown 笔记应用

ETF与ETF联接的区别

精选内容 · 赞助推荐

多语言翻译

分類

热门标签

Donate

Subscribe to Blog via Email

该项目现在支持 ：

此外，项目还实施了几项技术以增强视频生成的灵活性和质量：

分享此文：

谷歌家的好东西：艺术家

一款开源的AI试衣模型，能够精确操控人物的外观和姿势

NoteGen跨端的 Markdown 笔记应用

ETF与ETF联接的区别

精选内容 · 赞助推荐

多语言翻译

分類

热门标签

Donate

Subscribe to Blog via Email

该项目现在支持：