Hertz-dev:首个会话音频开源模型
全双工实时语音交互 120毫秒超低延迟
Hertz-dev 是由 Standard Intelligence 公司开发的首个会话音频开源模型。hertz-dev 是一个全双工、仅支持音频的 Transformer 基础模型。
它的主要功能是用于生成对话音频,也就是模拟人类对话的语音生成。支持全双工音频,它可以同时接收和生成音频,就像电话或实时对话一样,不需要等待说完一句话才能回复。
🧠 项目概述
Hertz-dev 是一个拥有 85 亿参数的 Transformer 模型,专为对话音频生成而设计。它在 2000 万小时高质量语音数据上进行训练,具备出色的语音建模能力,包括自然的停顿、情感语调等特征。其理论延迟为 80 毫秒,实测在单张 RTX 4090 显卡上约为 120 毫秒,显著优于现有开源模型的响应速度。
🔧 技术架构
Hertz-dev 包含以下关键组件:
-
Hertz-codec:一个高效的音频自动编码器,将 16kHz 的单声道语音压缩为 8Hz 的潜在表示,码率约为 1kbps,压缩效率优于 Soundstream 和 Encodec 等方案。
-
Hertz-vae:一个拥有 18 亿参数的变分自编码器(VAE),用于生成连贯的语音输出,支持最长 17 分钟的上下文记忆,适合长时间对话。
-
Hertz-lm:一个 66 亿参数的 Transformer 模型,部分初始化自预训练语言模型,专注于对话流畅性和上下文理解。
🚀 使用方式
项目提供了多种推理方式:
-
通过
inference.ipynb
生成单声道或双声道语音输出。 -
使用
inference_client.py
和inference_server.py
实现实时麦克风交互(目前在 Ubuntu 服务器和 macOS 客户端上测试)。 -
利用
inference_client_webrtc.py
,结合 Streamlit 和 WebRTC,在浏览器中进行实时语音交互。
所有模型权重会自动下载至 ./ckpt
目录,也可从 ckpt.si.inc 获取。
📚 应用场景
Hertz-dev 作为基础模型,未经过强化学习或指令微调,适合以下场景的二次开发:
-
实时语音助手
-
多语种语音翻译
-
游戏中的非玩家角色(NPC)语音交互
-
客户服务语音机器人
-
语音情感识别与生成
🔗 项目链接
GitHub:https://github.com/Standard-Intelligence/hertz-dev
油管:https://youtu.be/cfMPmAg1UYA