Speakr可以生成簡潔的摘要和標題,並通過聊天界面與內容互動。它提供多種功能,包括音頻上傳、瀏覽器錄製、轉錄、說話人識別、AI摘要和標題生成、互動聊天等。由murtaza-nasir維護:
項目概述
Speakr是一個「自託管智能語音採集應用程式」,主要用途包括:
- 自動將錄音(例如會議、講座、採訪)轉換為文本
- 支持自動識別發言者揚聲器日記化,並且可以手動命名
- 生成轉錄內容的摘要和標題
- 內置互動聊天界面,可以詢問有關錄音內容的問題
- 支持多種音頻格式(MP3,WAV,M4A,AMR等)
核心特徵
📋錄製和上傳
- 支持瀏覽器的錄音(麥克風、系統音頻或兩者兼而有之)
- 支持拖放或「黑洞」目錄自動識別和處理文件
自動轉錄和說話人識別
- 使用OpenAI Whisper API或本地兼容的模型進行語音轉錄
- 與ASB服務(例如WhisperX)結合使用時,您可以自動區分多個說話者上傳後,可以生成SPEAKE 01、SPEAKE 02等標籤,並支持人工智慧輔助命名和個人說話者身份保存。
自動生成摘要/標題
- 使用LLM(例如GPT系列)為每個轉錄生成摘要和標題
💬智能聊天互動
- 內置聊天界面允許您與錄製的內容「交談」:提出問題並讓AI在文本中找到答案
刪除編輯和格式支持
- 支持在線編輯轉錄文本、摘要和演講者信息
- Markdown支持改善了內容美觀和結構
🧑💻可自定义与部署
- 提供Docker容器(Dockerfile、Docker-compose)、. dev配置模板指南(ASB/Whisper)
- 支持自託管Whisper模型或調用OpenAI/OpenRouter/Azure等API
最新更新(v0.4.1,2025 - 07 - 19)
- 新UI界面
- 安全共享功能:您可以設置權限以公開錄音/摘要並隨時撤回連結
- 增強的錄音體驗(移動優化、雙音頻可視化)
- 支持AMR音頻格式
- 實現轉錄文本的在線編輯並以Markdown格式撰寫摘要([GitHub][2])
適合人群使用場景
| 用戶 | 場景 |
|---|---|
| 辦公室工作人員/團隊主持人 | 會議記錄和採訪的彙編 |
| 學生/講師 | 課程筆記和講座管理 |
| 記者、內容創作者 | 面試內容的組織和快速總結 |
| 隱私敏感用戶 | 無需第三方雲平台即可在本地部署 |
快速開始建議
- 準備具有容器支持的伺服器或VPS
- 克隆項目並根據部署指南進行配置
. inf和docker-compose.yml - 根據預算選擇接口:
- 免費自助託管:使用WhisperX ASB+本地LLM
- 雲服務:使用OpenAI Whisper和GPT接口
- 運行後,打開Web界面上傳錄音並體驗轉錄、摘要和聊天功能
社區反饋摘錄
Reddit用戶「享樂主義」總結道:
「Speaker Diarization:.自動檢測不同的揚聲器.
總結
Speakr是一款功能齊全、界面現代、注重隱私的自託管語音採集工具,適合需要轉錄、摘要生成和智能交互的用戶。無論是課堂、會議還是面試,它都可以提供高效、結構化的成績單和人工智慧驅動的互動體驗。
Github:https://github.com/murtaza-nasir/speakr
輸油管: