繁中

SenseVoice的開源基本語音理解模型

致力於提供多模式、多語言、高性能語音理解能力

項目信息

SenseVoice 它是FunAudioLLM項目中負責「語音理解」的基本模型。它具有以下主要功能:自動語音識別(ASB)、語言識別(LID)、語音情感識別(BER)和音頻事件檢測(AED)。

該項目由阿里巴巴通益語音團隊發起,旨在通過將語音技術與大型語言模型(LLM)相結合,促進人與計算機之間的自然語音交互

核心亮點

  1. 高精度多語言語音識別
    • 使用超過400,000小時的訓練數據,並支持50多種語言。
    • 在中文和粵語場景下的識別性能優於OpenAI的Whisper模型
  2. 豐富的「富文本」功能
    • 它具有準確的語音情感識別,其性能甚至超過了目前最先進的機型。
    • 支持音頻事件檢測,包括笑聲、掌聲、咳嗽、打噴嚏、背景音樂和其他常見的人機互動聲音
  3. 高效的推理性能
    • SenseVoice-Small是一種非自回歸端到端實現,延遲極低。處理10秒音頻只需約70 ms,比Whisper-Large快約15倍
  4. 輕鬆微調
    • 提供微調腳本和策略,方便用戶在特定業務場景下處理樣本數量少、尾樣本等問題
  5. 友好的服務部署
    • 支持多個並發請求並在多個平台上提供客戶端支持,包括Python、C++、HTML、Java、C#等
  6. 版本更新和擴展
    • 2024年7月,SenseVoice-Small正式開源,支持中文、英語、廣東、日本、韓國等語言,並支持ONNX、libtorch輸出和Python運行時。
    • 同時推出的還有CosyVoice,一種用於多語言、音色和情感控制的自然語音生成模型,以及名為FunASB的語音處理工具集

應用場景和整體架構

項目隸屬於 FunAudioLLM 框架,涵蓋兩個基本模型:

  • SenseVoice:用於「語音理解」,涵蓋ASB、情感識別、音頻事件檢測等;
  • 舒適之聲:用於「語音生成」,支持多語言、多音色、情感控制、零樣本語音克隆等功能

通過將這兩種功能與大型語言模型相結合,可以實現以下豐富的交互形式:

  • 語音翻譯
  • 情感語音聊天
  • 互動播客
  • 富有表現力的有聲讀物敘述

使用平台和界面支持

  • GitHub提供完整的培訓、推理和微調代碼,包括不同格式(ONNX、libtorch等)的Python實現和輸出流程
  • sherpa-onnx框架還集成並支持SenseVoice模型,並提供多語言識別能力(中文、廣東、英語、日本、韓國)、豐富的API(Python、C++、C#、Go、Java、JS、Swift、Dart等)和多平台支持(Linux、macOS、Windows、Android、iOS)

摘要列表

模型/框架功能亮點應用場景示例
SenseVoice多語言ASB、情感識別、音頻事件檢測;高精度、低延遲(70 ms)實時語音識別、情感感知、交互式背景聲監測
舒適之聲多語言、音色和情感控制、自然語音生成、支持零樣本語音克隆高度擬人化的語音生成、音頻內容、跨語言廣播
FunASB多功能工具集:VAR、標點符號恢復、語言模型、說話人識別等全方位語音識別處理支持複雜多說話人場景
平台支持ONNX / libtorch導出;豐富的API支持;支持sherpa-onnx多設備部署靈活集成到各種應用(例如伺服器、移動終端、Web前端)

最後

SenseVoice 它是一個強大的語音理解模型,具有多語言、高精度、低延遲、廣泛的應用能力,適合實時交互場景。是 FunAudioLLM 框架的核心組件,以及 舒適之聲 這些模型共同促進了自然、情感豐富的語音人機互動體驗的實現。

Github:https://github.com/FunAudioLLM/SenseVoice

輸油管:

返回頂端