Hertz-dev：首个会话音频开源模型

全双工实时语音交互 120毫秒超低延迟
Hertz-dev 是由 Standard Intelligence 公司开发的首个会话音频开源模型。hertz-dev 是一个全双工、仅支持音频的 Transformer 基础模型。
它的主要功能是用于生成对话音频，也就是模拟人类对话的语音生成。支持全双工音频，它可以同时接收和生成音频，就像电话或实时对话一样，不需要等待说完一句话才能回复。

🧠 项目概述

Hertz-dev 是一个拥有 85 亿参数的 Transformer 模型，专为对话音频生成而设计。它在 2000 万小时高质量语音数据上进行训练，具备出色的语音建模能力，包括自然的停顿、情感语调等特征。其理论延迟为 80 毫秒，实测在单张 RTX 4090 显卡上约为 120 毫秒，显著优于现有开源模型的响应速度。

🔧 技术架构

Hertz-dev 包含以下关键组件：

Hertz-codec：一个高效的音频自动编码器，将 16kHz 的单声道语音压缩为 8Hz 的潜在表示，码率约为 1kbps，压缩效率优于 Soundstream 和 Encodec 等方案。
Hertz-vae：一个拥有 18 亿参数的变分自编码器（VAE），用于生成连贯的语音输出，支持最长 17 分钟的上下文记忆，适合长时间对话。
Hertz-lm：一个 66 亿参数的 Transformer 模型，部分初始化自预训练语言模型，专注于对话流畅性和上下文理解。

🚀 使用方式

项目提供了多种推理方式：

通过 inference.ipynb 生成单声道或双声道语音输出。
使用 inference_client.py 和 inference_server.py 实现实时麦克风交互（目前在 Ubuntu 服务器和 macOS 客户端上测试）。
利用 inference_client_webrtc.py，结合 Streamlit 和 WebRTC，在浏览器中进行实时语音交互。

所有模型权重会自动下载至 ./ckpt 目录，也可从 ckpt.si.inc 获取。

📚 应用场景

Hertz-dev 作为基础模型，未经过强化学习或指令微调，适合以下场景的二次开发：

实时语音助手
多语种语音翻译
游戏中的非玩家角色（NPC）语音交互
客户服务语音机器人
语音情感识别与生成

🔗 项目链接

GitHub：https://github.com/Standard-Intelligence/hertz-dev
油管：https://youtu.be/cfMPmAg1UYA

🧠 项目概述

🔧 技术架构

🚀 使用方式

📚 应用场景

🔗 项目链接

分享到：

相关文章