Media2Face：文本到語音的3D人臉

Media2Face能夠基於聲音生成語音同步、富有表現力的3D面部動畫。

它還允許用戶對生成的面部動畫進行更詳細的個性化調整，例如情感調整、「快樂」或「悲傷」。

它還可以理解各種類型的輸入信息（音頻、文本、圖像）並使用這些信息作為生成面部動畫的指南。

實際應用：

Media2Face項目的工作原理涉及多項關鍵技術和步驟，使其能夠生成從文本到語音的豐富表情和情感的3D面部動畫。以下是項目的主要工作流程：

面部映射：首先，研究團隊創建了一個特殊工具（稱為GNPFA），其作用就像一個大型面部表情資料庫。該工具將幫助您找到想要的任何表情，並確保每個人的面部動畫都是獨一無二的，不會與其他人混淆。

這個過程實現了表達與身份的脫鉤，即在不同身份之間轉換相同的表達的能力。

然後，他們用這個工具處理了大量視頻，以提取高質量的表情和頭部運動。這創建了一個巨大的數據集，其中包含各種面部動畫以及相應的情感和風格標籤。

擴散模型應用：Media2Face使用擴散模型來動畫GNPFA的底層空間，該空間可以接受來自音頻、文本和圖像的多模式引導。

條件融合：該模型將音頻特徵和CLIP潛在碼作為條件，並將表情潛在碼序列的有噪版本和頭部運動碼（即頭部姿勢）一起進行降噪。

交叉注意機制：條件被隨機掩蔽並通過具有噪音頭部運動代碼的交叉注意進行處理。

表情和頭部姿勢生成：推理過程中，通過DDIM對頭部運動碼進行採樣，然後將表情潛碼輸入GNPFA解碼器提取表情幾何，結合模型模板生成頭部姿勢參數增強的面部動畫。

表情和風格微調：通過表情編碼器提取關鍵幀表情潛碼，通過CLIP為每幀提供「快樂」或「悲傷」等風格線索，讓用戶調整動畫的強度和控制範圍。

通過這些技術步驟，Media2Face能夠生成語音同步、富有表現力的3D面部動畫，支持複雜的情感表達和風格變化，為創建虛擬角色和增強數字角色的交互體驗提供強大的工具。

視頻：