(請前往SoundCloud觀看視頻)
OpenAI於2019年8月推出了音樂生成模型:點唱機
點唱機能夠根據提供的歌詞、藝術家和流派信息生成多種流派和藝術家風格的完整音樂和聲樂歌曲。
最神奇的是,三年前質量就已經是這樣了……
而且據說《點唱機2》很快就會發行……
大規模音樂數據集訓練
訓練基於120萬首歌曲的大型數據集,並配備了相應的歌詞和元數據。
利用這些豐富的數據資源,點唱機能夠學習和模仿複雜的音樂結構和風格。
主要功能特徵:
1.生成不同的音樂風格:點唱機可以生成各種音樂風格和藝術家風格的音樂,包括模擬初級歌唱的能力。這意味著點唱機不僅可以創作樂器演奏的音樂,還可以生成包含人聲的歌曲。
2.原始音頻輸出:與僅生成音樂符號數據的其他模型不同,點唱機生成原始音頻數據,包括旋律、和聲和歌聲。保持了音樂的高質量,使生成的音樂聽起來更加自然,更接近真實的表演。
3.根據歌詞生成音樂:點唱機可以根據提供的歌詞、藝術家和音樂風格生成新的音樂樣本,這意味著它可以在創意指導下從頭開始創建新的音樂樣本,即使是在訓練期間未見過的歌詞。
4.歌詞與旋律同步:點唱機不僅可以生成音樂,還可以生成與音樂同步的歌詞,實現音樂與歌詞的協同創作。
5.風格和藝術家模仿:它可以根據指定的藝術家和音樂風格生成音樂,允許用戶引導生成過程生成與特定風格或主題相匹配的音樂。
技術原理詳情:
1. VQ-VAE:點唱機使用一種名為VQ-VAE(載體量化變量AutoEncoder)的技術將音頻數據壓縮為低維表示,同時保留音樂的重要特徵,例如音調、音色和音量。
2. Transformer模型:基於VQ-VAE,點唱機使用Transformer模型來生成新的音樂代碼。然後將這些代碼解碼回原始音頻以生成新的音樂片段。Transformer模型可以處理長期依賴問題,適合音樂等需要長期記憶的數據。
3.分層結構:點唱機採用三層VQ-VAE結構,每層對應不同的壓縮率和音頻細節級別,使模型能夠學習不同級別的音樂結構。
4.條件生成:點唱機模型可以根據藝術家、風格和歌詞等信息條件生成音樂。這是通過在訓練過程中使用此信息作為額外輸入來實現的,允許生成的音樂反映指定的特徵。
5.自動歌詞對齊:面對歌詞數據缺乏準確對齊的挑戰,點唱機採用啟發式方法來估計歌詞與音頻之間的對應關係,並使用先進的歌詞對齊技術來提高準確性。
項目地址:https://openai.com/research/jukebox
論文:https://cdn.openai.com/papers/jukebox.pdf
GitHub:https://github.com/openai/jukebox
視頻: