谷歌還創建了一個項目,照片+音頻可以生成說話和唱歌的視頻
VLOGGER:從一張照片中生成文本和音頻驅動的說話人視頻
VLOGER的獨特之處在於:
- 沒有必要訓練每個人。
- 不依賴於面部檢測和裁剪。
- 生成的是完整的圖像(不僅僅是臉或嘴唇)。
- 廣泛的場景(例如,考慮了可見的軀幹或多樣化的身份),這對於人類正確合成和交流至關重要。
但看演示視頻,效果似乎不如阿里的EMO……
項目地址:https://enriccorona.github.io/vlogger/
論文:https://arxiv.org/abs/2403.08764
在視頻翻譯方面,VLOGER可以以特定語言拍攝現有視頻,並編輯嘴唇和面部區域以容納新音頻,例如西班牙語。
視頻: