Stability AI发布Stable Audio AudioSparx 1.0 音乐模型

1 3 月, 2024 Tarogo Cloud AI项目

Stability AI发布Stable Audio AudioSparx 1 0 音乐模型

Stability AI发布Stable Audio AudioSparx 1 0 音乐模型

Watch this video on YouTube

高效生成长格式音频：根据文字提示，快速生成长达95秒的44.1kHz立体声音乐和声音。
可变长度的音频输出：实现对生成音频的内容和长度进行精细控制，支持可变长度的音频输出。
立体声音频渲染：能够渲染立体声信号，提供丰富和深度的音频体验。
快速推理时间：在A100 GPU上仅需8秒即可生成长达95秒的立体声音频，显示出极高的计算效率。
结构化音乐生成：不像其他工具那样随机制作，这个工具能够根据你的文字提示，制作出有明确结构的音乐，比如有开头、中间发展和结尾，让音乐听起来更有感觉。
性能优于 AudioLDM2 和 MusicGen——请查看论文中的指标。

解决的问题：

提高了长格式音频的生成效率，克服了固定大小输出的限制，允许生成可变长度的音频。
通过潜在扩散模型和时间条件化，实现了对生成音频长度的精细控制，同时保持了计算效率。

论文： https://arxiv.org/abs/2402.04825
代码： https://github.com/Stability-AI/stable-audio-tools
指标： https://github.com/Stability-AI/stable-audio-metrics
演示： https://stability-ai.github.io/stable-audio-demo/

视频：https://youtu.be/sS5StIkOeaw

AI巨头 AI行业应用 AI项目 Claude 多媒体处理开源项目

Claude iOS 和 Android App 迎来新界面

21 1 月, 2025

AI项目开源项目

P2P 开源的远程桌面控制工具

3 8 月, 2025

AI巨头 AI行业应用 OpenAI 机器人

使用 OpenAI Agents 实现的客户服务用例演示

4 7 月, 2025

Chat2DB：AI驱动的数据开发和分析平台

23 5 月, 2024

分類