繁中

語音到文本的TTC模型

這應該是迄今為止對中國人最好的支持
ChatTTS:專為會話場景設計的文本到語音TTS模型

該模型進行了超過10萬小時的訓練,公開版在HuggingFace上提供了4萬小時的預訓練模型。
專為對話任務設計,可支持多人語音、中英文混合等。
該模型還可以預測和控制細粒度的韻律特徵,例如笑聲、停頓和中斷,還可以進行更細粒度的調整,例如速度、語氣和情緒。

ChatTTC是一種專門為對話場景(例如LLM助理對話任務)設計的文本轉語音模型。它支持英語和中文。最大的模型使用超過100,000小時的中文和英文數據進行培訓。HuggingFace中的開源版本是一個接受了40,000小時培訓的版本,無需SFT。

亮點

對話式TTC:ChatTTC針對對話任務進行了優化,實現自然流暢的文本轉語音,並支持多個說話者。
細粒度控制:該模型可以預測和控制細粒度的韻律特徵,包括笑聲、停頓和插入。
更好的節奏:ChatTTC在節奏上超過了大多數開源TTC模型。還提供預先訓練的模型來支持進一步的研究。

如果您想了解更多信息,可以單擊視頻下方的連結。
感謝您觀看此視頻。如果您喜歡,請訂閱並點讚。謝謝

GitHub:https://github.com/2noise/ChatTTS

輸油管:

返回頂端