繁中

Whisper Web圖形處理器:使用OpenAI Whisper進行實時瀏覽器內語音識別

以下內容摘自原文翻譯:

直接在網絡瀏覽器中實現實時語音識別長期以來一直是一個備受追捧的里程碑。由Hugging Face工程師(暱稱「Xenova」)開發的Whisper Web圖形處理器是一項突破性技術,使用OpenAI的Whisper模型在瀏覽器中實現實時語音識別。這一非凡的發展是與人工智慧驅動的網絡應用程式交互的巨大轉變。

Whisper WebGPU的核心是Whisper-base模型,這是一個為網絡推理精心優化的7300萬參數語音識別模型。Whisper-base的模型大小約為200 MB,設計輕巧但功能強大,是實時應用的理想選擇。下載模型後,它將被緩存以備將來使用,確保後續交互快速無縫。

Whisper Web圖形處理器的真正創新在於其完全在用戶瀏覽器中運行的能力。該模型利用Hugging Face Transformers.js和ONNX DeliverWeb在本地執行所有計算,而無需將數據發送到伺服器。這增強了隱私並啟用功能,即使設備離線也是如此。用戶可以在初始模型加載後斷開與網際網路的連接,並受益於Whisper強大的語音識別功能。

Whisper WebPU脫穎而出的一個關鍵方面是其對ONNX(開放神經網絡交換)權重的使用。ONNX是一種人工智慧模型的開源格式,允許在不同框架中訓練的模型無縫共享和使用。Xenova在名為「onnx」的專用子文件夾中使用ONNX權重構建存儲庫的方法為未來的網絡就緒模型樹立了先例。隨著WebML(網絡機器學習)技術的成熟,這種臨時解決方案預計將繼續發展,並有望在未來實現更簡化的集成。

Whisper Webpu不僅涉及設備上處理;它們還涉及設備上處理。這是關於以非凡的多功能性來做到這一點。該模型支持100種語言的多語言轉錄,使其成為語音識別的通用工具。無論是轉錄、翻譯還是輔助應用程式,Whisper Webpu都為網絡帶來了前所未有的實時功能。

簡而言之,Xenova的Whisper Web圖形處理器是思考和利用網絡人工智慧的範式轉變。其實時瀏覽器內語音識別功能、對100種語言的支持以及使用ONNX和Transformers.js的強大框架為基於Web的人工智慧應用程式設定了新標準。

如果您想了解更多信息,可以單擊視頻下方的連結。
感謝您觀看此視頻。如果您喜歡,請訂閱並點讚。謝謝

完整閱讀: https://marktechpost.com/2024/06/08/whisper-webgpu-real-time-in-browser-speech-recognition-with-openai-whisper/
項目: https://huggingface.co/spaces/Xenova/realtime-whisper-webgpu
GitHub: https://github.com/xenova/transformers.js/tree/v3/examples/webgpu-whisper
X連接:https://x.com/Marktechpost/status/1799469927876980919

輸油管:

返回頂端