Media2Face能夠基於聲音生成語音同步、富有表現力的3D面部動畫。
它還允許用戶對生成的面部動畫進行更詳細的個性化調整,例如情感調整、「快樂」或「悲傷」。
它還可以理解各種類型的輸入信息(音頻、文本、圖像)並使用這些信息作為生成面部動畫的指南。
實際應用:
- 創建對話場景:例如,根據您編寫的腳本,計算機可以生成角色相互交談的動畫場景。
- 製作風格化的面部動畫:您可以為計算機提供一個表情符號,它可以根據該符號創建動畫。
- 情感歌唱:電腦還可以用不同語言唱歌曲,表達相應的情感。
- 個性化動畫:最令人驚嘆的是,這個項目能夠創建匹配不同種族、年齡和性別的個性化面部動畫。
工作原理:
Media2Face項目的工作原理涉及多項關鍵技術和步驟,使其能夠生成從文本到語音的豐富表情和情感的3D面部動畫。以下是項目的主要工作流程:
- 通用神經參數化面部資產(GNPFA):
面部映射:首先,研究團隊創建了一個特殊工具(稱為GNPFA),其作用就像一個大型面部表情資料庫。該工具將幫助您找到想要的任何表情,並確保每個人的面部動畫都是獨一無二的,不會與其他人混淆。
這個過程實現了表達與身份的脫鉤,即在不同身份之間轉換相同的表達的能力。
- 高質量表情和頭部姿勢提取:
然後,他們用這個工具處理了大量視頻,以提取高質量的表情和頭部運動。這創建了一個巨大的數據集,其中包含各種面部動畫以及相應的情感和風格標籤。
- 多模式引導動畫生成:
擴散模型應用:Media2Face使用擴散模型來動畫GNPFA的底層空間,該空間可以接受來自音頻、文本和圖像的多模式引導。
條件融合:該模型將音頻特徵和CLIP潛在碼作為條件,並將表情潛在碼序列的有噪版本和頭部運動碼(即頭部姿勢)一起進行降噪。
交叉注意機制:條件被隨機掩蔽並通過具有噪音頭部運動代碼的交叉注意進行處理。
- 高保真度和風格多樣性的動畫:
表情和頭部姿勢生成:推理過程中,通過DDIM對頭部運動碼進行採樣,然後將表情潛碼輸入GNPFA解碼器提取表情幾何,結合模型模板生成頭部姿勢參數增強的面部動畫。
- 微調和個性化:
表情和風格微調:通過表情編碼器提取關鍵幀表情潛碼,通過CLIP為每幀提供「快樂」或「悲傷」等風格線索,讓用戶調整動畫的強度和控制範圍。
通過這些技術步驟,Media2Face能夠生成語音同步、富有表現力的3D面部動畫,支持複雜的情感表達和風格變化,為創建虛擬角色和增強數字角色的交互體驗提供強大的工具。
項目和演示:https://sites.google.com/view/media2face
紙張:https://arxiv.org/abs/2401.15687
GitHub:即將推出。
視頻: