阿里巴巴的EMO：情感肖像栩栩如生

在簡單條件下通過音頻到視頻擴散模型生成充滿情感的肖像視頻

摘要

EMO是一個能夠基於單個參考圖片和說話或唱歌等聲音生成充滿情感的肖像視頻的框架。該方法不僅可以捕捉豐富的面部表情和多樣化的頭部姿勢，還可以根據聲音的長度自由調整視頻的持續時間。

方法

我們的框架分為兩個主要部分。第一個是「幀編碼」階段，通過ReferenceNet從參考圖片和運動幀中提取特徵。然後在「擴散過程」階段，預先訓練的音頻編碼器開始處理聲音數據。我們通過將面部區域面罩與多幀噪音相結合來準確控制面部圖像的生成。此外，我們使用主幹網絡進行噪音去除，並在其中使用了兩種注意機制：參考注意和音頻注意，分別用於保持角色身份的一致性和調節角色動作的自然性。時間模塊的加入讓我們能夠靈活控制動作速度。

項目地址：https://humanaigc.github.io/emote-portrait-alive/

視頻：