NVIDIA 发布一款音乐生成模型Fugatto

作者： Tarogo Cloud / 23 6 月, 2025

NVIDIA 发布了一款音乐生成人工智能模型：Fugatto。通过简单的文本提示或音频输入，用户可以创作全新的声音景观或修改已有的声音元素。例如，用户可以通过文字提示创作音乐片段、调整语音的口音与情绪、添加或删除乐器，甚至生成从未听过的独特声音效果。

🎯 核心定位

多模态输入：支持纯文本提示，也可以接入已有音频，如歌曲片段或人声，引导其生成新音频或转换原始音频。
跨任务能力：能实现多种音频工作，如文本转音乐（Text‑to‑Audio，TTA）、文本转语音（TTS）、歌声合成（SVS），以及对现有音频的编辑、增强、拼接等。
自由组合指令：通过名为 ComposableART 的推理技术，用户可以组合、插值或否定不同文本提示（例如“法语口音 + 悲伤情绪”），从而精细控制生成结果。

🌱 创新亮点

Emergent（涌现）能力
模型能够合成平常不会自然出现的声音组合，如“唱歌的狗”“萨克斯吼叫”等，体现其创造性
大规模、多任务学习
类似于语言领域基础模型，Fugatto 在庞大音频和文本配对数据集上训练，具备出乎意料的通才能力
ComposableART 推理技术
推理过程中能够灵活组合多个指令，而非在训练时就固定，这提高了生成的控制自由度

🎛️ 应用场景展望

音乐制作：快速生成旋律、配器；在已有作品上添加或删减乐器；尝试不同风格。
广告 / 语言教学：使用各种口音、调性合成语音；定制情感表达。
游戏音效设计：根据游戏剧情动态生成或转换音效素材。
创意开发：构思奇特声音（如“机器人的低频脉冲 + 高音电子啁啾”），助力艺术创作。

🧪 示例演示 Highlights

给定提示“deep thunderous bass pulse combined with intermittent high-pitched digital chirps…”，Fugatto 能生成工业风格的电子音效
输入已有歌曲片段并提示“add drums and synthesizers”，它会自动加入鼓和合成器元素。
给定语音并提示情感变化（如从“calm”到“angry”），可生成带有该情绪转变的语音版本。
混合提示“saxophone howl + dog barking + electronic music”，即可创作出前所未有的声音融合

✅ 技术组合结构

Text encoder：ByT5 语言模型，用于处理自由文本指令
Audio encoder：基于 mel-spectrogram 的 Transformer 编码器，可处理输入音频
生成器：结合文本和音频上下文，输出新的音频，推理时利用 ComposableART 实现组合控制

🧠 社区声音和挑战

🔹 Reddit 上有用户称：“Fugatto 是一个技术突破，但示例音质仍显“muffled”，缺乏 groove 感”
🔹 一些人认为它更像是“创造性的 mash‑up remix”而非真正人类创作的替代。
🔹 总体来看，目前版本定位研究原型，并非成熟的商业产品。

📝 总结

Fugatto 是一个令人振奋的 通用音频 foundation 模型，能够理解自由文本指令并生成或转换多种音频类型。其创意、灵活的特性和组合能力，使其在音乐制作、语音合成、创意设计等领域具有非常广阔的潜力。然而，目前阶段仍是实验性质，真实音质和创作精度还有进一步打磨提升空间。

消息来自：https://fugatto.github.io/
油管：https://youtu.be/JhWrcE23TWA

退出移动版