SenseVoice的開源基本語音理解模型

致力於提供多模式、多語言、高性能語音理解能力

項目信息

SenseVoice 它是FunAudioLLM項目中負責「語音理解」的基本模型。它具有以下主要功能：自動語音識別（ASB）、語言識別（LID）、語音情感識別（BER）和音頻事件檢測（AED）。

該項目由阿里巴巴通益語音團隊發起，旨在通過將語音技術與大型語言模型（LLM）相結合，促進人與計算機之間的自然語音交互

高精度多語言語音識別
- 使用超過400，000小時的訓練數據，並支持50多種語言。
- 在中文和粵語場景下的識別性能優於OpenAI的Whisper模型
豐富的「富文本」功能
- 它具有準確的語音情感識別，其性能甚至超過了目前最先進的機型。
- 支持音頻事件檢測，包括笑聲、掌聲、咳嗽、打噴嚏、背景音樂和其他常見的人機互動聲音
高效的推理性能
- SenseVoice-Small是一種非自回歸端到端實現，延遲極低。處理10秒音頻只需約70 ms，比Whisper-Large快約15倍
輕鬆微調
- 提供微調腳本和策略，方便用戶在特定業務場景下處理樣本數量少、尾樣本等問題
友好的服務部署
- 支持多個並發請求並在多個平台上提供客戶端支持，包括Python、C++、HTML、Java、C#等
版本更新和擴展
- 2024年7月，SenseVoice-Small正式開源，支持中文、英語、廣東、日本、韓國等語言，並支持ONNX、libtorch輸出和Python運行時。
- 同時推出的還有CosyVoice，一種用於多語言、音色和情感控制的自然語音生成模型，以及名為FunASB的語音處理工具集

項目隸屬於 FunAudioLLM 框架，涵蓋兩個基本模型：

通過將這兩種功能與大型語言模型相結合，可以實現以下豐富的交互形式：

GitHub提供完整的培訓、推理和微調代碼，包括不同格式（ONNX、libtorch等）的Python實現和輸出流程
sherpa-onnx框架還集成並支持SenseVoice模型，並提供多語言識別能力（中文、廣東、英語、日本、韓國）、豐富的API（Python、C++、C#、Go、Java、JS、Swift、Dart等）和多平台支持（Linux、macOS、Windows、Android、iOS）

模型/框架	功能亮點	應用場景示例
SenseVoice	多語言ASB、情感識別、音頻事件檢測;高精度、低延遲（70 ms）	實時語音識別、情感感知、交互式背景聲監測
舒適之聲	多語言、音色和情感控制、自然語音生成、支持零樣本語音克隆	高度擬人化的語音生成、音頻內容、跨語言廣播
FunASB	多功能工具集：VAR、標點符號恢復、語言模型、說話人識別等	全方位語音識別處理支持複雜多說話人場景
平台支持	ONNX / libtorch導出;豐富的API支持;支持sherpa-onnx多設備部署	靈活集成到各種應用（例如伺服器、移動終端、Web前端）

SenseVoice 它是一個強大的語音理解模型，具有多語言、高精度、低延遲、廣泛的應用能力，適合實時交互場景。是 FunAudioLLM 框架的核心組件，以及 舒適之聲 這些模型共同促進了自然、情感豐富的語音人機互動體驗的實現。

輸油管：