Google也弄了一个:一张照片+音频即可生成会说话唱歌的视频的项目
Google也弄了一个:一张照片+音频即可生成会说话唱歌的视频的项目
VLOGGER:基于文本和音频驱动,从单张照片生成会说话的人类视频
VLOGGER的独特之处在于:
- 不需要针对每个人进行训练。
- 不依赖于面部检测和裁剪。
- 生成的是完整图像(而不仅仅是面部或嘴唇)。
- 考虑了一系列广泛的场景(例如,可见的躯干或多样的身份特征),这对于正确合成交流的人类至关重要。
但是看演示视频,效果好像没有阿里的EMO好...
项目地址:https://enriccorona.github.io/vlogger/
论文:https://arxiv.org/abs/2403.08764
在视频翻译方面,VLOGGER可以取一个特定语言的现有视频,并编辑唇部和面部区域以适应新的音频,例如西班牙语。