繁中

M2 UGen:多模式音樂理解和生成模型

由騰訊和新加坡國立大學開發的M2UGen可以理解各種音樂,包括風格,演奏的樂器,表達的情感等,並進行音樂問答。

它還可以從文本、圖像、視頻和音頻生成各種音樂,還可以理解生成的音樂並根據文本描述編輯音樂。

M2 UGen的主要功能:

  • 音樂問答:M2 UGen能夠理解不同類型的音樂,包括其風格、使用的樂器、表達的情緒和情感等。&根據提出的問題,該模型能夠理解和回答與音樂相關的查詢。
  • 文本轉音樂生成:用戶可以輸入文本,模型根據該文本生成相應的音樂。
  • 圖像到音樂生成:該模型能夠根據提供的圖像內容生成匹配的音樂。
    - 視頻轉音樂生成:模型根據視頻內容,可以理解視頻的主要內容並生成相應的音樂。
  • 音樂編輯:用戶可以編輯生成的音樂,例如更換樂器、調整節奏等,並且只需要通過文本來描述。

M2 UGen使用多種編碼器,包括用於音樂理解的MERT、用於圖像理解的ViT和用於視頻理解的ViViT,以及作為音樂生成模型(音樂解碼器)的MusicGen/AudioLDM 2模型。

此外,該型號還結合了適配器和LLaMA 2型號。

工作原理:

1.多模式輸入處理:M2 UGen能夠處理各種類型的輸入,包括文本、圖像、視頻和音頻。

它使用特定的編碼器來理解不同的輸入模式。例如,MERT模型用於處理音樂輸入,ViT模型用於處理圖像輸入,ViViT模型用於處理視頻輸入。

2.音樂理解:利用LLaMA 2模型,M2 UGen能夠理解音樂的各個方面,例如風格、樂器使用和情感表達。它能夠回答與音樂相關的問題,其中涉及對音樂內容的深入理解。

3.音樂生成:M2 UGen不僅可以理解音樂,還可以根據不同的輸入生成音樂。它探索了如何使用AudioLDM 2和MusicGen等模型來基於文本、圖像或視頻輸入生成音樂。

4.數據集生成和訓練:為了訓練M2 UGen,開發人員使用MU-LLaMA和MPT-7 B模型來生成大量多模式音樂配對數據集。這些數據集幫助M2 UGen學習如何從不同的輸入中提取信息並生成相應的音樂。

項目和演示: https://crypto-code.github.io/M2UGen-Demo/
紙張: https://arxiv.org/abs/2311.11255
GitHub:https://github.com/shansongliu/M2UGen

返回頂端