SenseVoice开源的语音理解基础模型

致力于提供多模态、多语言、高性能的语音理解能力

项目简介

SenseVoice 是 FunAudioLLM 项目中负责“语音理解”的基础模型,具备以下主要能力:自动语音识别(ASR)、语种识别(LID)、语音情绪识别(SER)以及音频事件检测(AED)等

该项目由阿里巴巴 Tongyi Speech Team 推出,目标是通过语音技术与大语言模型(LLMs)结合,推动人机之间的自然语音交互

核心亮点

  1. 高精度多语言语音识别
    • 使用超过 400,000 小时的训练数据,支持 50 多种语言。
    • 在中文、粤语场景上识别性能优于 OpenAI 的 Whisper 模型
  2. 丰富的“富文本”能力
    • 具备准确的语音情绪识别(emotion recognition),性能甚至超过当前最先进模型。
    • 支持音频事件检测,包括笑声、掌声、咳嗽、打喷嚏、背景音乐等常见人机交互声音
  3. 高效推理性能
    • SenseVoice-Small 是一个非自回归的端到端实现,延迟极低。处理 10 秒音频仅需约 70 ms,速度比 Whisper-Large 快约 15 倍
  4. 便于微调
    • 提供 finetune 脚本和策略,方便用户在特定业务场景中处理少量样本、尾部样本等问题
  5. 服务部署友好
    • 支持多并发请求,提供包括 Python、C++、HTML、Java、C# 等多平台客户端支持
  6. 版本更新与扩展
    • 2024 年 7 月,SenseVoice-Small 正式开源,支持中、英、粤、日、韩等语言,并支持 ONNX、libtorch 导出与 Python 运行时。
    • 同期推出的还有 CosyVoice —— 用于多语言、带音色与情绪控制的自然语音生成模型,以及一个名为 FunASR 的语音处理工具集

应用场景与整体架构

项目隶属于 FunAudioLLM 框架,该框架涵盖两个基础模型:

  • SenseVoice:用于“语音理解”,覆盖 ASR、情绪识别、音频事件检测等;
  • CosyVoice:用于“语音生成”,支持多语言、多音色、情绪控制、零样本语音克隆等功能

通过将这两项能力与大型语言模型结合,能实现以下丰富的交互形式:

  • 语音到语音翻译(Speech-to-Speech Translation)
  • 情感语音聊天(Emotional Voice Chat)
  • 互动播客(Interactive Podcast)
  • 富表达的有声书朗读(Expressive Audiobook Narration)

使用平台与接口支持

  • GitHub 提供了完整的训练、推理与微调代码,包括 Python 实现和不同格式导出流程(ONNX、libtorch 等)
  • sherpa-onnx 框架也整合支持 SenseVoice 模型,并提供多语言识别能力(中、粤、英、日、韩)及丰富 API(Python, C++, C#, Go, Java, JS, Swift, Dart 等)与多平台支持(Linux、macOS、Windows、Android、iOS)

总结一览表

模型 / 框架功能亮点应用场景举例
SenseVoice多语言 ASR、情绪识别、音频事件检测;高精度、低延迟(70 ms)实时语音识别、情绪感知、交互背景声音监测
CosyVoice多语种、音色与情绪控制,自然语音生成,支持零样本语音克隆高拟人语音生成、有声内容、跨语言播报
FunASR多功能工具集:VAD、标点恢复、语言模型、说话人识别等全方位语音识别处理,支持复杂多说话人场景
平台支持ONNX / libtorch 导出;API 支持丰富;支持 sherpa-onnx 多设备端部署灵活集成到各种应用(如服务器、移动端、Web 前端)

最后

SenseVoice 是一个强大的语音理解模型,具备多语言、高精度、低延迟以及广泛应用能力,适用于实时交互场景。它是 FunAudioLLM 框架中的核心组成,与 CosyVoice 模型一起,共同推动实现自然、情绪感知丰富的语音人机交互体验。

Github:https://github.com/FunAudioLLM/SenseVoice

油管:https://youtu.be/T5ttpzEtLOw