繁中

OpenAI的開源語音識別、文本到文本和翻譯工具

作者: / 13 10 月, 2025

概述

耳語是一種 自動語音識別（ASB） 由OpenAI公開開源的模型。
它不僅將語音轉換為相應語言的文本（語音識別），而且還具有 多語言+翻譯能力 (e.g.將非英語語言的語音翻譯成英語文本）。
它是一個端到端的模型，可以完成多個任務（識別、翻譯、語言判斷等）具有統一的框架，而不是傳統語音系統中的多個模塊。

技術原理和結構

以下是Whisper的技術詳細信息（更深入的部分，如果您了解它的作用，您可以跳過）。

模型架構

Whisper是一個基於 變形金剛（編碼器-解碼器）。
輸入是音頻（首先預處理為聲學特徵，例如梅爾頻譜圖），然後由編碼器表示為內部特徵;解碼器根據這些特徵逐步預測文本輸出。
解碼器還可以將特殊標記插入到輸出中，以指示模型想要執行哪些任務（識別、翻譯、語言識別、時間戳等）。

訓練數據

低語者是經過訓練的 大規模、多樣化的音頻+文本對 ，根據OpenAI的數據，用於訓練的數據量高達 680，000小時 （包括多種語言、各種環境噪音、口音等）
這種訓練方法使模型在遇到具有不同口音、背景噪音和不同語言混合的場景（即，更能適應各種複雜情況）

多任務多語言功能

Whisper是一個「多任務模式」：

它不僅可以進行語音識別（將語音轉換為文本），還可以進行語音翻譯（將語音從一種語言翻譯為英語文本）
它還可以執行輔助任務，例如語言識別（確定正在使用的語言）。
它在許多語言中都是零攻擊：它沒有經過某些語言的專門訓練，但仍然可以識別或翻譯。

優點和局限性

耳語，雖然強大，有其優點和一些局限性要注意。

優點：

魯棒：由於使用了非常大規模和多樣化的數據訓練，它更適合噪音、口音、說話者差異等。
多語言+翻譯能力：不限於英語，可以識別或翻譯多種語言。
開源可用性：OpenAI提供模型權重和推理代碼，開發人員可以將其用於各種語音處理應用程式。
一體化設計：與需要多個模塊（聲學模型、語言模型、翻譯模型、對齊模型等）的傳統解決方案相比，Whisper提供了更簡潔的端到端解決方案要拼接。

限制和挑戰

延遲/速度：對於實時或近實時語音識別場景（例如電話和實時字幕），Whisper的默認版本可能不夠快，需要特殊優化或簡化。
資源消耗/模型大小：大型型號體積大，需要很高的圖形處理器/中央處理器/內存。
「幻覺」/錯誤輸出：模型可以「編造」文本（即，輸出語音中實際上沒有說出的單詞），特別是如果語音不清楚或無聲。這在現實生活中被稱為「幻覺」問題。
語言/方言差異：訓練中樣本稀疏的語言或方言的識別準確率可能不高。
版權/隱私風險：在某些情況下，使用語音模型處理敏感語音數據時應考慮隱私和合規性。

應用場景

Whisper可用於許多語音相關應用，例如：

演講轉文本（會議紀要、採訪記錄轉錄）
視頻/音頻字幕生成
多語言語音翻譯
語音交互系統中的語音助理/語音識別模塊
輔助工具（例如，適合聽力受損者的語音轉文本顯示）
媒體/媒體檔案/媒體內容檢索中的自動轉錄

事實上，已經有很多第三方項目正在基於Whisper製作應用程式或擴展，例如實時轉錄服務、Web服務打包、加速推理版本等。

GitHub：https://github.com/openai/whisper

管材：