致力於提供多模式、多語言、高性能語音理解能力
項目信息
SenseVoice 它是FunAudioLLM項目中負責「語音理解」的基本模型。它具有以下主要功能:自動語音識別(ASB)、語言識別(LID)、語音情感識別(BER)和音頻事件檢測(AED)。
該項目由阿里巴巴通益語音團隊發起,旨在通過將語音技術與大型語言模型(LLM)相結合,促進人與計算機之間的自然語音交互
核心亮點
- 高精度多語言語音識別
- 使用超過400,000小時的訓練數據,並支持50多種語言。
- 在中文和粵語場景下的識別性能優於OpenAI的Whisper模型
- 豐富的「富文本」功能
- 它具有準確的語音情感識別,其性能甚至超過了目前最先進的機型。
- 支持音頻事件檢測,包括笑聲、掌聲、咳嗽、打噴嚏、背景音樂和其他常見的人機互動聲音
- 高效的推理性能
- SenseVoice-Small是一種非自回歸端到端實現,延遲極低。處理10秒音頻只需約70 ms,比Whisper-Large快約15倍
- 輕鬆微調
- 提供微調腳本和策略,方便用戶在特定業務場景下處理樣本數量少、尾樣本等問題
- 友好的服務部署
- 支持多個並發請求並在多個平台上提供客戶端支持,包括Python、C++、HTML、Java、C#等
- 版本更新和擴展
- 2024年7月,SenseVoice-Small正式開源,支持中文、英語、廣東、日本、韓國等語言,並支持ONNX、libtorch輸出和Python運行時。
- 同時推出的還有CosyVoice,一種用於多語言、音色和情感控制的自然語音生成模型,以及名為FunASB的語音處理工具集
應用場景和整體架構
項目隸屬於 FunAudioLLM 框架,涵蓋兩個基本模型:
- SenseVoice:用於「語音理解」,涵蓋ASB、情感識別、音頻事件檢測等;
- 舒適之聲:用於「語音生成」,支持多語言、多音色、情感控制、零樣本語音克隆等功能
通過將這兩種功能與大型語言模型相結合,可以實現以下豐富的交互形式:
- 語音翻譯
- 情感語音聊天
- 互動播客
- 富有表現力的有聲讀物敘述
使用平台和界面支持
- GitHub提供完整的培訓、推理和微調代碼,包括不同格式(ONNX、libtorch等)的Python實現和輸出流程
- sherpa-onnx框架還集成並支持SenseVoice模型,並提供多語言識別能力(中文、廣東、英語、日本、韓國)、豐富的API(Python、C++、C#、Go、Java、JS、Swift、Dart等)和多平台支持(Linux、macOS、Windows、Android、iOS)
摘要列表
| 模型/框架 | 功能亮點 | 應用場景示例 |
|---|---|---|
| SenseVoice | 多語言ASB、情感識別、音頻事件檢測;高精度、低延遲(70 ms) | 實時語音識別、情感感知、交互式背景聲監測 |
| 舒適之聲 | 多語言、音色和情感控制、自然語音生成、支持零樣本語音克隆 | 高度擬人化的語音生成、音頻內容、跨語言廣播 |
| FunASB | 多功能工具集:VAR、標點符號恢復、語言模型、說話人識別等 | 全方位語音識別處理支持複雜多說話人場景 |
| 平台支持 | ONNX / libtorch導出;豐富的API支持;支持sherpa-onnx多設備部署 | 靈活集成到各種應用(例如伺服器、移動終端、Web前端) |
最後
SenseVoice 它是一個強大的語音理解模型,具有多語言、高精度、低延遲、廣泛的應用能力,適合實時交互場景。是 FunAudioLLM 框架的核心組件,以及 舒適之聲 這些模型共同促進了自然、情感豐富的語音人機互動體驗的實現。
Github:https://github.com/FunAudioLLM/SenseVoice
輸油管: