Wan21一款开源的AI 视频生成模型

Watch this video on YouTube

一个基于阿里巴巴开源模型的AI视频生成平台，可以通过简单的文本或图像输入，快速生成高质量的视频。
只需选择输入方式，描述或上传内容，然后点击生成按钮，即可在几秒钟内获得专业质量的视频，并以多种格式下载。

Wan 2.1 是什么？

Wan 2.1 是阿里巴巴团队开源的一款先进的 AI 视频生成模型系列，用于从文本或图片中生成高质量的视频内容
它支持多种任务，不仅包括：
- 文本生成视频（Text-to-Video, T2V）
- 图像生成视频（Image-to-Video, I2V）
- 还包括 视频编辑、文本生成图像（T2I）以及 视频生成音频（V2A）功能
属于开源项目，使用 Apache-2.0 许可证发布，代码与模型权重可在 GitHub、Hugging Face 等平台下载，支持二次开发与部署

性能领先：Wan 2.1 在多个 benchmark 上优于现有的开源模型与一些商业模型，属于 SOTA（state-of-the-art）水平。
硬件友好：T2V-1.3B 模型只需约 8 GB VRAM（如 RTX 3060Ti 等消费级 GPU）即可运行；在 RTX 4090 上生成 5 秒 480p 视频大约用时 4 分钟。
多输入输出模式：兼容文本、图片作为输入，并支持生成 480p、720p，甚至最高 1080p 的视频。
Wan-VAE 框架：采用 3D 变分自编码器（VAE），既保证高效的视频压缩与呈现，又兼顾时间维度的连贯性。
双语文本生成能力：Wan 2.1 是首个可以在生成的视频中准确呈现中英文文本的模型（如广告牌、字幕等）。
多模态兼容性强：不仅支持视频编辑，还可执行文本生成图像(Video-to-Image)及音频生成任务

官网中文版重点提到了多个使用场景，涵盖创意领域至工业应用：

使用流程非常简洁，通常三步完成：选择模式（文本或图片）、输入描述或上传图片、点击“生成”并下载视频（支持 MP4、GIF、WebM）。