NVIDIA 发布一款音乐生成模型Fugatto

NVIDIA 发布了一款音乐生成人工智能模型:Fugatto。通过简单的文本提示或音频输入,用户可以创作全新的声音景观或修改已有的声音元素。例如,用户可以通过文字提示创作音乐片段、调整语音的口音与情绪、添加或删除乐器,甚至生成从未听过的独特声音效果。

🎯 核心定位

  • 多模态输入:支持纯文本提示,也可以接入已有音频,如歌曲片段或人声,引导其生成新音频或转换原始音频 。
  • 跨任务能力:能实现多种音频工作,如文本转音乐(Text‑to‑Audio,TTA)、文本转语音(TTS)、歌声合成(SVS),以及对现有音频的编辑、增强、拼接等 。
  • 自由组合指令:通过名为 ComposableART 的推理技术,用户可以组合、插值或否定不同文本提示(例如“法语口音 + 悲伤情绪”),从而精细控制生成结果 。

🌱 创新亮点

  1. Emergent(涌现)能力
    模型能够合成平常不会自然出现的声音组合,如“唱歌的狗”“萨克斯吼叫”等,体现其创造性
  2. 大规模、多任务学习
    类似于语言领域基础模型,Fugatto 在庞大音频和文本配对数据集上训练,具备出乎意料的通才能力
  3. ComposableART 推理技术
    推理过程中能够灵活组合多个指令,而非在训练时就固定,这提高了生成的控制自由度

🎛️ 应用场景展望

  • 音乐制作:快速生成旋律、配器;在已有作品上添加或删减乐器;尝试不同风格。
  • 广告 / 语言教学:使用各种口音、调性合成语音;定制情感表达。
  • 游戏音效设计:根据游戏剧情动态生成或转换音效素材。
  • 创意开发:构思奇特声音(如“机器人的低频脉冲 + 高音电子啁啾”),助力艺术创作 。

🧪 示例演示 Highlights

  • 给定提示“deep thunderous bass pulse combined with intermittent high-pitched digital chirps…”,Fugatto 能生成工业风格的电子音效
  • 输入已有歌曲片段并提示“add drums and synthesizers”,它会自动加入鼓和合成器元素 。
  • 给定语音并提示情感变化(如从“calm”到“angry”),可生成带有该情绪转变的语音版本 。
  • 混合提示“saxophone howl + dog barking + electronic music”,即可创作出前所未有的声音融合

✅ 技术组合结构

  • Text encoder:ByT5 语言模型,用于处理自由文本指令
  • Audio encoder:基于 mel-spectrogram 的 Transformer 编码器,可处理输入音频
  • 生成器:结合文本和音频上下文,输出新的音频,推理时利用 ComposableART 实现组合控制

🧠 社区声音和挑战

  • 🔹 Reddit 上有用户称:“Fugatto 是一个技术突破,但示例音质仍显“muffled”,缺乏 groove 感”
  • 🔹 一些人认为它更像是“创造性的 mash‑up remix”而非真正人类创作的替代。
  • 🔹 总体来看,目前版本定位研究原型,并非成熟的商业产品。

📝 总结

Fugatto 是一个令人振奋的 通用音频 foundation 模型,能够理解自由文本指令并生成或转换多种音频类型。其创意、灵活的特性和组合能力,使其在音乐制作、语音合成、创意设计等领域具有非常广阔的潜力。然而,目前阶段仍是实验性质,真实音质和创作精度还有进一步打磨提升空间。

消息来自:https://fugatto.github.io/
油管:https://youtu.be/JhWrcE23TWA

退出移动版