繁中

Speakr的開源AI音頻轉錄工具

作者: / 2 8 月, 2025

Speakr可以生成簡潔的摘要和標題，並通過聊天界面與內容互動。它提供多種功能，包括音頻上傳、瀏覽器錄製、轉錄、說話人識別、AI摘要和標題生成、互動聊天等。由murtaza-nasir維護：

項目概述

Speakr是一個「自託管智能語音採集應用程式」，主要用途包括：

自動將錄音（例如會議、講座、採訪）轉換為文本
支持自動識別發言者揚聲器日記化，並且可以手動命名
生成轉錄內容的摘要和標題
內置互動聊天界面，可以詢問有關錄音內容的問題
支持多種音頻格式（MP3，WAV，M4A，AMR等）

核心特徵

📋錄製和上傳

支持瀏覽器的錄音（麥克風、系統音頻或兩者兼而有之）
支持拖放或「黑洞」目錄自動識別和處理文件

自動轉錄和說話人識別

使用OpenAI Whisper API或本地兼容的模型進行語音轉錄
與ASB服務（例如WhisperX）結合使用時，您可以自動區分多個說話者上傳後，可以生成SPEAKE 01、SPEAKE 02等標籤，並支持人工智慧輔助命名和個人說話者身份保存。

自動生成摘要/標題

使用LLM（例如GPT系列）為每個轉錄生成摘要和標題

💬智能聊天互動

內置聊天界面允許您與錄製的內容「交談」：提出問題並讓AI在文本中找到答案

刪除編輯和格式支持

支持在線編輯轉錄文本、摘要和演講者信息
Markdown支持改善了內容美觀和結構

🧑‍💻可自定义与部署

提供Docker容器（Dockerfile、Docker-compose）、. dev配置模板指南（ASB/Whisper）
支持自託管Whisper模型或調用OpenAI/OpenRouter/Azure等API

最新更新（v0.4.1，2025 - 07 - 19）

新UI界面
安全共享功能：您可以設置權限以公開錄音/摘要並隨時撤回連結
增強的錄音體驗（移動優化、雙音頻可視化）
支持AMR音頻格式
實現轉錄文本的在線編輯並以Markdown格式撰寫摘要（[GitHub][2]）

適合人群使用場景

用戶	場景
辦公室工作人員/團隊主持人	會議記錄和採訪的彙編
學生/講師	課程筆記和講座管理
記者、內容創作者	面試內容的組織和快速總結
隱私敏感用戶	無需第三方雲平台即可在本地部署

快速開始建議

準備具有容器支持的伺服器或VPS
克隆項目並根據部署指南進行配置 . inf 和 docker-compose.yml
根據預算選擇接口：
- 免費自助託管：使用WhisperX ASB+本地LLM
- 雲服務：使用OpenAI Whisper和GPT接口
運行後，打開Web界面上傳錄音並體驗轉錄、摘要和聊天功能

社區反饋摘錄

Reddit用戶「享樂主義」總結道：

「Speaker Diarization：.自動檢測不同的揚聲器.

總結

Speakr是一款功能齊全、界面現代、注重隱私的自託管語音採集工具，適合需要轉錄、摘要生成和智能交互的用戶。無論是課堂、會議還是面試，它都可以提供高效、結構化的成績單和人工智慧驅動的互動體驗。

Github：https://github.com/murtaza-nasir/speakr

輸油管：