Hertz-dev:首个会话音频开源模型

https://youtu.be/cfMPmAg1UYA

全双工实时语音交互 120毫秒超低延迟
Hertz-dev 是由 Standard Intelligence 公司开发的首个会话音频开源模型。hertz-dev 是一个全双工、仅支持音频的 Transformer 基础模型。
它的主要功能是用于生成对话音频,也就是模拟人类对话的语音生成。支持全双工音频,它可以同时接收和生成音频,就像电话或实时对话一样,不需要等待说完一句话才能回复。

🧠 项目概述

Hertz-dev 是一个拥有 85 亿参数的 Transformer 模型,专为对话音频生成而设计。它在 2000 万小时高质量语音数据上进行训练,具备出色的语音建模能力,包括自然的停顿、情感语调等特征。其理论延迟为 80 毫秒,实测在单张 RTX 4090 显卡上约为 120 毫秒,显著优于现有开源模型的响应速度。

🔧 技术架构

Hertz-dev 包含以下关键组件:

  • Hertz-codec:一个高效的音频自动编码器,将 16kHz 的单声道语音压缩为 8Hz 的潜在表示,码率约为 1kbps,压缩效率优于 Soundstream 和 Encodec 等方案。

  • Hertz-vae:一个拥有 18 亿参数的变分自编码器(VAE),用于生成连贯的语音输出,支持最长 17 分钟的上下文记忆,适合长时间对话。

  • Hertz-lm:一个 66 亿参数的 Transformer 模型,部分初始化自预训练语言模型,专注于对话流畅性和上下文理解。

🚀 使用方式

项目提供了多种推理方式:

  • 通过 inference.ipynb 生成单声道或双声道语音输出。

  • 使用 inference_client.pyinference_server.py 实现实时麦克风交互(目前在 Ubuntu 服务器和 macOS 客户端上测试)。

  • 利用 inference_client_webrtc.py,结合 Streamlit 和 WebRTC,在浏览器中进行实时语音交互。

所有模型权重会自动下载至 ./ckpt 目录,也可从 ckpt.si.inc 获取。

📚 应用场景

Hertz-dev 作为基础模型,未经过强化学习或指令微调,适合以下场景的二次开发:

  • 实时语音助手

  • 多语种语音翻译

  • 游戏中的非玩家角色(NPC)语音交互

  • 客户服务语音机器人

  • 语音情感识别与生成

🔗 项目链接

GitHub:https://github.com/Standard-Intelligence/hertz-dev
油管:https://youtu.be/cfMPmAg1UYA

了解 Tarogo Cloud Bloger & Shop 的更多信息

立即订阅以继续阅读并访问完整档案。

继续阅读

退出移动版