Speakr开源的AI音频转录工具

作者： Tarogo Cloud / 2 8 月, 2025

https://youtu.be/qEcP8NWVzPU

Speakr，可以生成简明的摘要和标题，并通过聊天界面与内容进行交互。提供了多种功能，包括音频上传、浏览器录音、转录、说话人识别、AI摘要与标题生成、交互式聊天等。由 murtaza‑nasir 维护：

🎙️ 项目概述

Speakr 是一个「自托管的智能语音笔记应用」，主要用途包括：

将录音（如会议、讲座、访谈）自动转成文本
支持自动分辨说话人（speaker diarization），并可手动命名
为转录内容生成摘要和标题
内建可交互聊天界面，可针对录音内容提出问题
支持多音频格式（MP3, WAV, M4A, AMR 等）

⭐ 核心特性

📋 录音与上传

可浏览器录音（麦克风、系统音频或两者）
支持拖拽或“黑洞”目录自动识别文件并处理

🗣️ 自动转录与说话人识别

使用 OpenAI Whisper API 或本地兼容模型进行语音转写
若结合 ASR 服务（例如 WhisperX），可自动区分多个说话人，上传后即可生成 SPEAKER 01、SPEAKER 02 等标签，并支持 AI 辅助命名和保存个人说话人身份

📝 自动生成摘要／标题

利用 LLM（例如 GPT 系列）为每段转录内容生成摘要和标题

💬 智能聊天交互

内建聊天界面，可与录音内容“对话”：提出问题，让 AI 在文本中寻找答案

🛠️ 编辑与格式化支持

支持在线编辑转录文本、摘要、讲者信息
有 Markdown 支持，提高内容美观性和结构化

🧑‍💻 可自定义与部署

提供 Docker 容器（Dockerfile、docker-compose）、.env 配置模板指南（ASR/Whisper）
支持自托管 Whisper 模型或调用 OpenAI/OpenRouter/Azure 等 API

🆕 最新更新（v0.4.1, 2025‑07‑19）

全新 UI 界面
安全共享功能：可设权限公开录音/摘要，并可随时撤回链接
增强录音体验（移动端优化、双音频可视化）
支持 AMR 音频格式
实现转录文本在线编辑与 Markdown 格式编写摘要([GitHub][2])

🛠️ 适合人群 & 使用场景

使用者	场景
上班族 / 团队主持	会议记录、访谈整理
学生／讲师	课程笔记、讲座管理
记者、内容创作者	访谈内容整理、快速摘要
隐私敏感用户	本地部署，无需第三方云平台

🚀 快速入门建议

准备一个具备容器支持的服务器或 VPS
克隆项目并根据部署指南配置 .env 和 docker-compose.yml
根据预算选用接口：
- 免费自托管：使用 WhisperX ASR + 本地 LLM
- 云端服务：使用 OpenAI Whisper 和 GPT 接口
运行后打开网页界面上传录音，体验转录、摘要、聊天功能

🧭 社区反馈摘录

Reddit 用户“hedonihilistic”总结说：

“Speaker Diarization: … automatically detect different speakers … You can easily rename them … Reprocess Button: …”([Reddit][3])

✅ 总结

Speakr 是一款功能完整、界面现代并强调隐私的自托管语音笔记工具，适合需要转录、生成总结和智能交互的用户。无论是课堂、会议还是访谈，都能提供高效、结构化的文字记录和 AI 驱动的交互体验。

Github：https://github.com/murtaza-nasir/speakr

油管：https://youtu.be/qEcP8NWVzPU