該模型具有1.2億個參數,並使用10萬小時的語音數據進行了訓練。
- 關注英語情感演講
- 跨語言語音克隆
- 支持零樣本克隆美國和英國聲音
- 支持長內容的文本到語音
主要特點:
1.情感語音節奏和語氣:MetaVoice-1B專注於英語語音的情感表達,提供流暢自然的語音輸出,無幻覺。
2.跨語言語音克隆:通過微調支持跨語言語音克隆。例如,對於印度人來說,只需1分鐘的訓練數據即可實現成功克隆。
3.零樣本克隆:對於來自美國和英國的聲音,MetaVoice只需30秒的參考音頻即可實現零樣本克隆。
4.長閱讀支持:適合長文本內容的文本到語音。
工作原理:
1.因果GPT預測:MetaVoice使用名為因果GPT的模型來處理文本並生成語音。Causal GPT能夠根據給定文本預測下一個單詞或標記。
在MetaVoice中,該模型用於預測EnCodec令牌的前兩個級別,它們代表語音的初步結構。這種預測考慮了文本內容和音頻樣本,使生成的語音既準確又自然。
2.說話人信息的條件傳輸:為了允許生成的語音模仿特定的說話人,MetaVoice將說話人信息添加到令牌嵌入層。這些信息是通過單獨訓練的說話者驗證網絡獲得的,該網絡能夠識別說話者的特定屬性,例如音調和口音。通過將這些信息融合到模型中,MetaVoice能夠生成與指定說話者的聲音相似的語音輸出。
3.非因果轉換器預測剩餘級別:MetaVoice接下來使用一個小型非因果(編碼器風格)Transformer模型來預測EnCodec代幣的剩餘六個級別。該模型只有大約1000萬個參數,相對較小,但它在預測更詳細的語音部分方面表現出驚人的效率和準確性。由於該模型是非因果關係,因此它可以同時處理多個時間步,加速語音生成過程。
4.多頻段擴散生成波形:通過使用多頻段擴散技術,MetaVoice可以將EnCodec令牌轉換為詳細的波形,即最終的音頻輸出。該方法通過獨立處理不同頻段的音頻信號來提高音質,並生成更清晰、更自然的語音。
DeepGridNet清理背景噪音:生成的語音可能包含一些不希望有的背景噪音,特別是由多頻段擴散過程引入的。為了解決這個問題,MetaVoice使用DeepPaperNet,這是一種專門用於去除背景噪音的網絡。通過這一步,生成的語音變得更加清晰、自然,改善了聽眾的體驗。
型號下載:https://huggingface.co/metavoiceio/metavoice-1B-v0.1
GitHub:https://github.com/metavoiceio/metavoice-src
在線體驗:https://ttsdemo.themetavoice.xyz
視頻: