繁中

跳至主要內容

Tarogo General Blogs

海上銀基地
小知識
人工智慧巨頭
關於我們

Tarogo General Blogs

About Us

谷歌還創建了一個項目，照片+音頻可以生成說話和唱歌的視頻

作者: / 4 4 月, 2024

谷歌還創建了一個項目，照片+音頻可以生成說話和唱歌的視頻

VLOGGER：從一張照片中生成文本和音頻驅動的說話人視頻

VLOGER的獨特之處在於：

沒有必要訓練每個人。
不依賴於面部檢測和裁剪。
生成的是完整的圖像（不僅僅是臉或嘴唇）。
廣泛的場景（例如，考慮了可見的軀幹或多樣化的身份），這對於人類正確合成和交流至關重要。

但看演示視頻，效果似乎不如阿里的EMO……

項目地址：https://enriccorona.github.io/vlogger/
論文：https://arxiv.org/abs/2403.08764

在視頻翻譯方面，VLOGER可以以特定語言拍攝現有視頻，並編輯嘴唇和面部區域以容納新音頻，例如西班牙語。

視頻：

Claude 3俳句API發布

3D視覺語言動作生成世界模型

搜尋

Recent Posts

publish-wp-document skill configuration review and release
微信+ PWA +騰訊TRTC：利用人工智慧輔助開發打造親子視頻通話MVP
使用Vibe編碼重建我的WordPress網站
當WiFi開始「看到」人：相機統治時代即將結束
軟體開發人工智慧取代，Synkra AIOS重寫整個流程

Archives

Categories

Copyright © 2026 Tarogo General Blogs | Powered by Astra WordPress Theme

返回頂端