繁中

Speakr的開源AI音頻轉錄工具

Speakr可以生成簡潔的摘要和標題,並通過聊天界面與內容互動。它提供多種功能,包括音頻上傳、瀏覽器錄製、轉錄、說話人識別、AI摘要和標題生成、互動聊天等。由murtaza-nasir維護:

項目概述

Speakr是一個「自託管智能語音採集應用程式」,主要用途包括:

  • 自動將錄音(例如會議、講座、採訪)轉換為文本
  • 支持自動識別發言者揚聲器日記化,並且可以手動命名
  • 生成轉錄內容的摘要和標題
  • 內置互動聊天界面,可以詢問有關錄音內容的問題
  • 支持多種音頻格式(MP3,WAV,M4A,AMR等)

核心特徵

📋錄製和上傳

  • 支持瀏覽器的錄音(麥克風、系統音頻或兩者兼而有之)
  • 支持拖放或「黑洞」目錄自動識別和處理文件

自動轉錄和說話人識別

  • 使用OpenAI Whisper API或本地兼容的模型進行語音轉錄
  • 與ASB服務(例如WhisperX)結合使用時,您可以自動區分多個說話者上傳後,可以生成SPEAKE 01、SPEAKE 02等標籤,並支持人工智慧輔助命名和個人說話者身份保存。

自動生成摘要/標題

  • 使用LLM(例如GPT系列)為每個轉錄生成摘要和標題

💬智能聊天互動

  • 內置聊天界面允許您與錄製的內容「交談」:提出問題並讓AI在文本中找到答案

刪除編輯和格式支持

  • 支持在線編輯轉錄文本、摘要和演講者信息
  • Markdown支持改善了內容美觀和結構

🧑‍💻可自定义与部署

  • 提供Docker容器(Dockerfile、Docker-compose)、. dev配置模板指南(ASB/Whisper)
  • 支持自託管Whisper模型或調用OpenAI/OpenRouter/Azure等API

最新更新(v0.4.1,2025 - 07 - 19)

  • 新UI界面
  • 安全共享功能:您可以設置權限以公開錄音/摘要並隨時撤回連結
  • 增強的錄音體驗(移動優化、雙音頻可視化)
  • 支持AMR音頻格式
  • 實現轉錄文本的在線編輯並以Markdown格式撰寫摘要([GitHub][2])

適合人群使用場景

用戶場景
辦公室工作人員/團隊主持人會議記錄和採訪的彙編
學生/講師課程筆記和講座管理
記者、內容創作者面試內容的組織和快速總結
隱私敏感用戶無需第三方雲平台即可在本地部署

快速開始建議

  1. 準備具有容器支持的伺服器或VPS
  2. 克隆項目並根據部署指南進行配置 . inf 和 docker-compose.yml
  3. 根據預算選擇接口:
    • 免費自助託管:使用WhisperX ASB+本地LLM
    • 雲服務:使用OpenAI Whisper和GPT接口
  4. 運行後,打開Web界面上傳錄音並體驗轉錄、摘要和聊天功能

社區反饋摘錄

Reddit用戶「享樂主義」總結道:

「Speaker Diarization:.自動檢測不同的揚聲器.

總結

Speakr是一款功能齊全、界面現代、注重隱私的自託管語音採集工具,適合需要轉錄、摘要生成和智能交互的用戶。無論是課堂、會議還是面試,它都可以提供高效、結構化的成績單和人工智慧驅動的互動體驗。

Github:https://github.com/murtaza-nasir/speakr

輸油管:

返回頂端