Google也弄了一个：一张照片+音频即可生成会说话唱歌的视频的项目

4 4 月, 2024 Tarogo Cloud AI行业应用 AI项目多媒体处理

Google也弄了一个：一张照片+音频即可生成会说话唱歌的视频的项目

Google也弄了一个：一张照片+音频即可生成会说话唱歌的视频的项目

Watch this video on YouTube

Google也弄了一个：一张照片+音频即可生成会说话唱歌的视频的项目

VLOGGER：基于文本和音频驱动，从单张照片生成会说话的人类视频

VLOGGER的独特之处在于：

不需要针对每个人进行训练。
不依赖于面部检测和裁剪。
生成的是完整图像（而不仅仅是面部或嘴唇）。
考虑了一系列广泛的场景（例如，可见的躯干或多样的身份特征），这对于正确合成交流的人类至关重要。

但是看演示视频，效果好像没有阿里的EMO好…

项目地址：https://enriccorona.github.io/vlogger/
论文：https://arxiv.org/abs/2403.08764

在视频翻译方面，VLOGGER可以取一个特定语言的现有视频，并编辑唇部和面部区域以适应新的音频，例如西班牙语。

视频：https://youtu.be/IwiK4e2PKrA

IT趣闻小知识

2023年度最佳手机摄影作品精选

26 10 月, 2024

AI项目 Alphabet

AI手机的新时代即将到来

6 2 月, 2024

AI行业应用 AI项目多媒体处理开源项目文档AI

视频转字幕工具,一键生成高质量 SRT 字幕

2 5 月, 2025

AI项目 OpenAI 开源项目

Open-Sora开源了

7 4 月, 2024

分類