Stability AI发布Stable Audio AudioSparx 1.0 音乐模型

  • 高效生成长格式音频:根据文字提示,快速生成长达95秒的44.1kHz立体声音乐和声音。
  • 可变长度的音频输出:实现对生成音频的内容和长度进行精细控制,支持可变长度的音频输出。
  • 立体声音频渲染:能够渲染立体声信号,提供丰富和深度的音频体验。
  • 快速推理时间:在A100 GPU上仅需8秒即可生成长达95秒的立体声音频,显示出极高的计算效率。
  • 结构化音乐生成:不像其他工具那样随机制作,这个工具能够根据你的文字提示,制作出有明确结构的音乐,比如有开头、中间发展和结尾,让音乐听起来更有感觉。
  • 性能优于 AudioLDM2 和 MusicGen——请查看论文中的指标。

解决的问题:

提高了长格式音频的生成效率,克服了固定大小输出的限制,允许生成可变长度的音频。
通过潜在扩散模型和时间条件化,实现了对生成音频长度的精细控制,同时保持了计算效率。

论文: https://arxiv.org/abs/2402.04825
代码: https://github.com/Stability-AI/stable-audio-tools
指标: https://github.com/Stability-AI/stable-audio-metrics
演示: https://stability-ai.github.io/stable-audio-demo/

视频:https://youtu.be/sS5StIkOeaw

了解 Tarogo Cloud Bloger & Shop 的更多信息

立即订阅以继续阅读并访问完整档案。

继续阅读