概述
- 耳語是一種 自動語音識別(ASB) 由OpenAI公開開源的模型。
- 它不僅將語音轉換為相應語言的文本(語音識別),而且還具有 多語言+翻譯能力 (e.g.將非英語語言的語音翻譯成英語文本)。
- 它是一個端到端的模型,可以完成多個任務(識別、翻譯、語言判斷等)具有統一的框架,而不是傳統語音系統中的多個模塊。
技術原理和結構
以下是Whisper的技術詳細信息(更深入的部分,如果您了解它的作用,您可以跳過)。
模型架構
- Whisper是一個基於 變形金剛(編碼器-解碼器)。
- 輸入是音頻(首先預處理為聲學特徵,例如梅爾頻譜圖),然後由編碼器表示為內部特徵;解碼器根據這些特徵逐步預測文本輸出。
- 解碼器還可以將特殊標記插入到輸出中,以指示模型想要執行哪些任務(識別、翻譯、語言識別、時間戳等)。
訓練數據
- 低語者是經過訓練的 大規模、多樣化的音頻+文本對 ,根據OpenAI的數據,用於訓練的數據量高達 680,000小時 (包括多種語言、各種環境噪音、口音等)
- 這種訓練方法使模型在遇到具有不同口音、背景噪音和不同語言混合的場景(即,更能適應各種複雜情況)
多任務多語言功能
Whisper是一個「多任務模式」:
- 它不僅可以進行語音識別(將語音轉換為文本),還可以進行語音翻譯(將語音從一種語言翻譯為英語文本)
- 它還可以執行輔助任務,例如語言識別(確定正在使用的語言)。
- 它在許多語言中都是零攻擊:它沒有經過某些語言的專門訓練,但仍然可以識別或翻譯。
優點和局限性
耳語,雖然強大,有其優點和一些局限性要注意。
優點:
- 魯棒 :由於使用了非常大規模和多樣化的數據訓練,它更適合噪音、口音、說話者差異等。
- 多語言+翻譯能力:不限於英語,可以識別或翻譯多種語言。
- 開源可用性:OpenAI提供模型權重和推理代碼,開發人員可以將其用於各種語音處理應用程式。
- 一體化設計:與需要多個模塊(聲學模型、語言模型、翻譯模型、對齊模型等)的傳統解決方案相比,Whisper提供了更簡潔的端到端解決方案要拼接。
限制和挑戰
- 延遲/速度:對於實時或近實時語音識別場景(例如電話和實時字幕),Whisper的默認版本可能不夠快,需要特殊優化或簡化。
- 資源消耗/模型大小:大型型號體積大,需要很高的圖形處理器/中央處理器/內存。
- 「幻覺」/錯誤輸出:模型可以「編造」文本(即,輸出語音中實際上沒有說出的單詞),特別是如果語音不清楚或無聲。這在現實生活中被稱為「幻覺」問題。
- 語言/方言差異:訓練中樣本稀疏的語言或方言的識別準確率可能不高。
- 版權/隱私風險:在某些情況下,使用語音模型處理敏感語音數據時應考慮隱私和合規性。
應用場景
Whisper可用於許多語音相關應用,例如:
- 演講轉文本(會議紀要、採訪記錄轉錄)
- 視頻/音頻字幕生成
- 多語言語音翻譯
- 語音交互系統中的語音助理/語音識別模塊
- 輔助工具(例如,適合聽力受損者的語音轉文本顯示)
- 媒體/媒體檔案/媒體內容檢索中的自動轉錄
事實上,已經有很多第三方項目正在基於Whisper製作應用程式或擴展,例如實時轉錄服務、Web服務打包、加速推理版本等。
GitHub:https://github.com/openai/whisper
管材: