語音到文本的TTC模型

這應該是迄今為止對中國人最好的支持
ChatTTS：專為會話場景設計的文本到語音TTS模型

該模型進行了超過10萬小時的訓練，公開版在HuggingFace上提供了4萬小時的預訓練模型。
專為對話任務設計，可支持多人語音、中英文混合等。
該模型還可以預測和控制細粒度的韻律特徵，例如笑聲、停頓和中斷，還可以進行更細粒度的調整，例如速度、語氣和情緒。

ChatTTC是一種專門為對話場景（例如LLM助理對話任務）設計的文本轉語音模型。它支持英語和中文。最大的模型使用超過100，000小時的中文和英文數據進行培訓。HuggingFace中的開源版本是一個接受了40，000小時培訓的版本，無需SFT。

亮點

對話式TTC：ChatTTC針對對話任務進行了優化，實現自然流暢的文本轉語音，並支持多個說話者。
細粒度控制：該模型可以預測和控制細粒度的韻律特徵，包括笑聲、停頓和插入。
更好的節奏：ChatTTC在節奏上超過了大多數開源TTC模型。還提供預先訓練的模型來支持進一步的研究。

如果您想了解更多信息，可以單擊視頻下方的連結。
感謝您觀看此視頻。如果您喜歡，請訂閱並點讚。謝謝

輸油管：