SpeechAlign：使用人工反饋將文本轉換為語音，以增強技術交互的自然度和表現力

復旦大學的一個研究團隊開發了SpeechAlign，這是一個針對文本到語音的核心的創新框架，使生成的語音與人類偏好一致。與優先考慮技術準確性的傳統模型不同，SpeechAlign通過將人類反饋直接融入語音生成中，引入了巨大的轉變。這個反饋循環確保生成的語音在技術上合理並在人類層面上產生共鳴。

SpeechAlign通過從人類反饋中學習的系統方法脫穎而出。它仔細地構建了一個數據集，將首選語音模式或黃金標記與不太首選的合成語音模式放在一起。該比較數據集是疊代細化語音模型的一系列優化過程的基礎。每次疊代都是朝著更好地理解和複製人類聲音偏好模型邁出的一步，使用客觀指標和主觀人類評估來衡量成功。

文本轉語音在技術進步方面取得了巨大進步，反映了人類對像我們一樣說話的機器的追求。
隨著我們進入與數字助理和對話代理互動變得司空見慣的時代，對與人類溝通的自然性和表達性相呼應的語音的需求變得比以往任何時候都更加緊迫。這一挑戰的核心是合成聽起來像人的語音，並符合個人對語音的微妙偏好，例如語氣、速度和情感表達。

SpeechAlign提供了一套全面的評估，範圍從主觀評估（人類聽眾對語音的自然性和質量進行評分）到客觀測量（例如字錯誤率（WER）和說話者相似性（SIM））），展示了其力量。使用SpeechAlign優化模型實現了WER改進，與基線模型相比降低了0.8，說話者相似性得分也得到了增強，達到了0.90大關。這些指標標誌著技術的進步，並表明對人類聲音及其各種細微差別的更接近模仿。

SpeechAlign展示了其在不同模型尺寸和數據集中的多功能性。事實證明，它的方法足夠強大，可以增強較小的模型，並可以將其改進擴展到隱形揚聲器。該功能對於在不同場景中部署文本轉語音技術至關重要，確保SpeechAlign的優勢得到廣泛傳播，並且不限於特定案例或數據集。

總而言之，SpeechAlign研究解決了將合成語音與人類偏好保持一致的關鍵挑戰，而傳統模型一直難以彌合這一差距。這種方法創新地將人類反饋融入到疊代的自我改進策略中。它通過詳細了解人類偏好來微調語音模型，並定量改進WER和SIM等關鍵指標。這些結果凸顯了SpeechAlign在增強合成語音的自然性和表達力方面的有效性。

如果您想了解更多信息，可以單擊視頻下方的連結。
感謝您觀看此視頻。如果您喜歡，請訂閱並點讚。謝謝

快速閱讀： https://marktechpost.com/2024/04/10/speechalign-transforming-speech-synthesis-with-human-feedback-for-enhanced-naturalness-and-expressiveness-in-technological-interactions/
紙張： https://arxiv.org/abs/2404.0560
Github： https://github.com/0nutation/SpeechGPT? tab= readme-over-file

視頻：