Speakr开源的AI音频转录工具

https://youtu.be/qEcP8NWVzPU

Speakr,可以生成简明的摘要和标题,并通过聊天界面与内容进行交互。提供了多种功能,包括音频上传、浏览器录音、转录、说话人识别、AI摘要与标题生成、交互式聊天等。由 murtaza‑nasir 维护:

🎙️ 项目概述

Speakr 是一个「自托管的智能语音笔记应用」,主要用途包括:

  • 将录音(如会议、讲座、访谈)自动转成文本
  • 支持自动分辨说话人(speaker diarization),并可手动命名
  • 为转录内容生成摘要和标题
  • 内建可交互聊天界面,可针对录音内容提出问题
  • 支持多音频格式(MP3, WAV, M4A, AMR 等)

⭐ 核心特性

📋 录音与上传

  • 可浏览器录音(麦克风、系统音频或两者)
  • 支持拖拽或“黑洞”目录自动识别文件并处理

🗣️ 自动转录与说话人识别

  • 使用 OpenAI Whisper API 或本地兼容模型进行语音转写
  • 若结合 ASR 服务(例如 WhisperX),可自动区分多个说话人,上传后即可生成 SPEAKER 01、SPEAKER 02 等标签,并支持 AI 辅助命名和保存个人说话人身份

📝 自动生成摘要/标题

  • 利用 LLM(例如 GPT 系列)为每段转录内容生成摘要和标题

💬 智能聊天交互

  • 内建聊天界面,可与录音内容“对话”:提出问题,让 AI 在文本中寻找答案

🛠️ 编辑与格式化支持

  • 支持在线编辑转录文本、摘要、讲者信息
  • 有 Markdown 支持,提高内容美观性和结构化

🧑‍💻 可自定义与部署

  • 提供 Docker 容器(Dockerfile、docker-compose)、.env 配置模板指南(ASR/Whisper)
  • 支持自托管 Whisper 模型或调用 OpenAI/OpenRouter/Azure 等 API

🆕 最新更新(v0.4.1, 2025‑07‑19)

  • 全新 UI 界面
  • 安全共享功能:可设权限公开录音/摘要,并可随时撤回链接
  • 增强录音体验(移动端优化、双音频可视化)
  • 支持 AMR 音频格式
  • 实现转录文本在线编辑与 Markdown 格式编写摘要([GitHub][2])

🛠️ 适合人群 & 使用场景

使用者场景
上班族 / 团队主持会议记录、访谈整理
学生/讲师课程笔记、讲座管理
记者、内容创作者访谈内容整理、快速摘要
隐私敏感用户本地部署,无需第三方云平台

🚀 快速入门建议

  1. 准备一个具备容器支持的服务器或 VPS
  2. 克隆项目并根据部署指南配置 .env 和 docker-compose.yml
  3. 根据预算选用接口:
    • 免费自托管:使用 WhisperX ASR + 本地 LLM
    • 云端服务:使用 OpenAI Whisper 和 GPT 接口
  4. 运行后打开网页界面上传录音,体验转录、摘要、聊天功能

🧭 社区反馈摘录

Reddit 用户“hedonihilistic”总结说:

“Speaker Diarization: … automatically detect different speakers … You can easily rename them … Reprocess Button: …”([Reddit][3])

✅ 总结

Speakr 是一款功能完整、界面现代并强调隐私的自托管语音笔记工具,适合需要转录、生成总结和智能交互的用户。无论是课堂、会议还是访谈,都能提供高效、结构化的文字记录和 AI 驱动的交互体验。

Github:https://github.com/murtaza-nasir/speakr

油管:https://youtu.be/qEcP8NWVzPU

退出移动版