MetaVoice-1B：高度真實且自然的文本到語音（TTC）轉換模型

該模型具有1.2億個參數，並使用10萬小時的語音數據進行了訓練。

關注英語情感演講
跨語言語音克隆
支持零樣本克隆美國和英國聲音
支持長內容的文本到語音

主要特點：

1.情感語音節奏和語氣：MetaVoice-1B專注於英語語音的情感表達，提供流暢自然的語音輸出，無幻覺。
2.跨語言語音克隆：通過微調支持跨語言語音克隆。例如，對於印度人來說，只需1分鐘的訓練數據即可實現成功克隆。
3.零樣本克隆：對於來自美國和英國的聲音，MetaVoice只需30秒的參考音頻即可實現零樣本克隆。
4.長閱讀支持：適合長文本內容的文本到語音。

工作原理：

1.因果GPT預測：MetaVoice使用名為因果GPT的模型來處理文本並生成語音。Causal GPT能夠根據給定文本預測下一個單詞或標記。
在MetaVoice中，該模型用於預測EnCodec令牌的前兩個級別，它們代表語音的初步結構。這種預測考慮了文本內容和音頻樣本，使生成的語音既準確又自然。
2.說話人信息的條件傳輸：為了允許生成的語音模仿特定的說話人，MetaVoice將說話人信息添加到令牌嵌入層。這些信息是通過單獨訓練的說話者驗證網絡獲得的，該網絡能夠識別說話者的特定屬性，例如音調和口音。通過將這些信息融合到模型中，MetaVoice能夠生成與指定說話者的聲音相似的語音輸出。
3.非因果轉換器預測剩餘級別：MetaVoice接下來使用一個小型非因果（編碼器風格）Transformer模型來預測EnCodec代幣的剩餘六個級別。該模型只有大約1000萬個參數，相對較小，但它在預測更詳細的語音部分方面表現出驚人的效率和準確性。由於該模型是非因果關係，因此它可以同時處理多個時間步，加速語音生成過程。
4.多頻段擴散生成波形：通過使用多頻段擴散技術，MetaVoice可以將EnCodec令牌轉換為詳細的波形，即最終的音頻輸出。該方法通過獨立處理不同頻段的音頻信號來提高音質，並生成更清晰、更自然的語音。
DeepGridNet清理背景噪音：生成的語音可能包含一些不希望有的背景噪音，特別是由多頻段擴散過程引入的。為了解決這個問題，MetaVoice使用DeepPaperNet，這是一種專門用於去除背景噪音的網絡。通過這一步，生成的語音變得更加清晰、自然，改善了聽眾的體驗。

型號下載：https://huggingface.co/metavoiceio/metavoice-1B-v0.1
GitHub：https://github.com/metavoiceio/metavoice-src
在線體驗：https://ttsdemo.themetavoice.xyz

視頻：