繁中

Amphion:是一個開源工具包,可以實現語音,語音和歌唱功能。

除了文本轉語音功能外,它還可以將一首歌曲的聲音更改為另一位歌手的聲音。它還支持語音轉換、歌唱合成、文本到音頻、文本到音樂等!

非常強大!

演示視頻:泰勒·斯威夫特演唱中文歌曲

Amphion支持的音頻生成任務跨越廣泛的領域,從文本到音樂,每個領域都有其獨特的應用程式和技術要求。

主要功能:

1.文本轉語音:將文本轉換為口語。
應用:用於製作語音助手、自動語音回復系統、視障人士閱讀文本等。

2.歌聲合成:創建虛擬歌手的聲音,可以從文本或旋律生成歌聲。
應用:用於音樂製作、虛擬偶像創作等

3.聲音轉換:將一個人的聲音改為聽起來像另一個人。
應用:用於娛樂、聲音設計、匿名溝通等

4.歌聲轉換:將一首歌歌手的聲音轉換為另一位歌手的聲音。
應用:用於音樂製作、個性化音樂體驗等。

5.文本到音頻:不僅將文本轉換為語音,還可以轉換為其他類型的音頻,如聲音效果或音樂片段。
應用:用於創建聲音效果,音樂剪輯,音頻故事等.

6.文本到音樂:從文本描述生成音樂。
應用程式:用於自動音樂創作,基於情感或故事情節等創作音樂。

型號支持:該工具包支持多種模型和架構,例如FastSpeech 2、VITS、Vall-E、NaturalSpeech 2等,以執行不同的音頻生成任務。

聲碼器支持:Amphion支持廣泛的神經聲碼器,包括基於GAN的聲碼器(例如,MelGAN、HiFi-GAN)、基於流的聲碼器(例如,WaveGlow)、基於擴散的聲碼器(例如,Diffwave)等。

數據集支持:Amphion統一了開源數據集的數據預處理,並支持AudioCaps、LibriRTS、LJSpeech等多個數據集。

GitHub:https://github.com/open-mmlab/Amphion
紙張: https://arxiv.org/abs/2312.09911
HuggingFace演示: https://huggingface.co/amphion

返回頂端