StreamVC：實時低延遲語音轉換

以下為原文翻譯：

摘要。Google TreamVC是一種流媒體語音轉換解決方案，可以保留任何源語音的內容和節奏，同時匹配任何目標語音的音質。
與以前的方法不同，StreamVC即使在移動平台上也可以從低延遲的輸入信號生成結果的波形，使其適合通話和視頻會議等實時通信場景，並解決這些場景中的語音匿名等用例。
谷歌的設計利用SoundStream神經音頻編解碼器的架構和訓練策略來實現輕量級、高質量的文本到語音。
谷歌已經證明了因果學習軟語音單元的可行性，以及提供白化基本頻率信息以提高音調穩定性而不泄露源音調信息的有效性。

輪廓
語音轉換是指改變語音信號的風格，同時保留其語言內容。儘管風格涵蓋了言語的許多方面，例如情感、節奏、口音和耳語，但在這部作品中，我們只關注說話者音色的轉變，同時保持語言和非語言信息不變。

早期的語音轉換嘗試依賴於基於CycleGAN或StarGAN的直接轉換想法，或者通過學習特徵展開進行自動編碼。然而，兩者都未能提供高質量的結果。前者會經歷嚴重的偽影，而後者主要依賴於在潛在或架構層面上創建難以調整的信息瓶頸：此類瓶頸太寬可能會導致信息泄露源發言者信息，而瓶頸太窄可能會降低內容保真度。

最近的解決方案集中在這樣一種設計上，其中通過利用來自語音識別系統（稱為後音素圖（PGP）方法）或來自自監督表示學習的預訓練特徵提取網絡來獲得內容信息。具體來說，請使用HuBERT和WavLM。內容信息和學習到的全局說話者嵌入的組合被用作某些聲碼器模型（例如中使用的模型）的輸入和條件，這些聲碼器模型經過訓練以重建音頻波形。

我們的建議遵循與HuBERT相同的設計模式，並使用從HuBERT派生的偽標籤來學習輸出軟語音單元的內容編碼器。我們解決方案的貢獻和新的設計元素如下：

如果您想了解更多信息，可以單擊視頻下方的連結。
感謝您觀看此視頻。如果您喜歡，請訂閱並點讚。謝謝

博客：https://google-research.github.io/seanet/stream_vc/
AR十四：https://arxiv.org/html/2401.03078v1

輸油管：