致力于提供多模态、多语言、高性能的语音理解能力
项目简介
SenseVoice 是 FunAudioLLM 项目中负责“语音理解”的基础模型,具备以下主要能力:自动语音识别(ASR)、语种识别(LID)、语音情绪识别(SER)以及音频事件检测(AED)等
该项目由阿里巴巴 Tongyi Speech Team 推出,目标是通过语音技术与大语言模型(LLMs)结合,推动人机之间的自然语音交互
核心亮点
- 高精度多语言语音识别
- 使用超过 400,000 小时的训练数据,支持 50 多种语言。
- 在中文、粤语场景上识别性能优于 OpenAI 的 Whisper 模型
- 丰富的“富文本”能力
- 具备准确的语音情绪识别(emotion recognition),性能甚至超过当前最先进模型。
- 支持音频事件检测,包括笑声、掌声、咳嗽、打喷嚏、背景音乐等常见人机交互声音
- 高效推理性能
- SenseVoice-Small 是一个非自回归的端到端实现,延迟极低。处理 10 秒音频仅需约 70 ms,速度比 Whisper-Large 快约 15 倍
- 便于微调
- 提供 finetune 脚本和策略,方便用户在特定业务场景中处理少量样本、尾部样本等问题
- 服务部署友好
- 支持多并发请求,提供包括 Python、C++、HTML、Java、C# 等多平台客户端支持
- 版本更新与扩展
- 2024 年 7 月,SenseVoice-Small 正式开源,支持中、英、粤、日、韩等语言,并支持 ONNX、libtorch 导出与 Python 运行时。
- 同期推出的还有 CosyVoice —— 用于多语言、带音色与情绪控制的自然语音生成模型,以及一个名为 FunASR 的语音处理工具集
应用场景与整体架构
项目隶属于 FunAudioLLM 框架,该框架涵盖两个基础模型:
- SenseVoice:用于“语音理解”,覆盖 ASR、情绪识别、音频事件检测等;
- CosyVoice:用于“语音生成”,支持多语言、多音色、情绪控制、零样本语音克隆等功能
通过将这两项能力与大型语言模型结合,能实现以下丰富的交互形式:
- 语音到语音翻译(Speech-to-Speech Translation)
- 情感语音聊天(Emotional Voice Chat)
- 互动播客(Interactive Podcast)
- 富表达的有声书朗读(Expressive Audiobook Narration)
使用平台与接口支持
- GitHub 提供了完整的训练、推理与微调代码,包括 Python 实现和不同格式导出流程(ONNX、libtorch 等)
- sherpa-onnx 框架也整合支持 SenseVoice 模型,并提供多语言识别能力(中、粤、英、日、韩)及丰富 API(Python, C++, C#, Go, Java, JS, Swift, Dart 等)与多平台支持(Linux、macOS、Windows、Android、iOS)
总结一览表
模型 / 框架 | 功能亮点 | 应用场景举例 |
---|---|---|
SenseVoice | 多语言 ASR、情绪识别、音频事件检测;高精度、低延迟(70 ms) | 实时语音识别、情绪感知、交互背景声音监测 |
CosyVoice | 多语种、音色与情绪控制,自然语音生成,支持零样本语音克隆 | 高拟人语音生成、有声内容、跨语言播报 |
FunASR | 多功能工具集:VAD、标点恢复、语言模型、说话人识别等 | 全方位语音识别处理,支持复杂多说话人场景 |
平台支持 | ONNX / libtorch 导出;API 支持丰富;支持 sherpa-onnx 多设备端部署 | 灵活集成到各种应用(如服务器、移动端、Web 前端) |
最后
SenseVoice 是一个强大的语音理解模型,具备多语言、高精度、低延迟以及广泛应用能力,适用于实时交互场景。它是 FunAudioLLM 框架中的核心组成,与 CosyVoice 模型一起,共同推动实现自然、情绪感知丰富的语音人机交互体验。