Speakr,可以生成简明的摘要和标题,并通过聊天界面与内容进行交互。提供了多种功能,包括音频上传、浏览器录音、转录、说话人识别、AI摘要与标题生成、交互式聊天等。由 murtaza‑nasir 维护:
🎙️ 项目概述
Speakr 是一个「自托管的智能语音笔记应用」,主要用途包括:
- 将录音(如会议、讲座、访谈)自动转成文本
- 支持自动分辨说话人(speaker diarization),并可手动命名
- 为转录内容生成摘要和标题
- 内建可交互聊天界面,可针对录音内容提出问题
- 支持多音频格式(MP3, WAV, M4A, AMR 等)
⭐ 核心特性
📋 录音与上传
- 可浏览器录音(麦克风、系统音频或两者)
- 支持拖拽或“黑洞”目录自动识别文件并处理
🗣️ 自动转录与说话人识别
- 使用 OpenAI Whisper API 或本地兼容模型进行语音转写
- 若结合 ASR 服务(例如 WhisperX),可自动区分多个说话人,上传后即可生成 SPEAKER 01、SPEAKER 02 等标签,并支持 AI 辅助命名和保存个人说话人身份
📝 自动生成摘要/标题
- 利用 LLM(例如 GPT 系列)为每段转录内容生成摘要和标题
💬 智能聊天交互
- 内建聊天界面,可与录音内容“对话”:提出问题,让 AI 在文本中寻找答案
🛠️ 编辑与格式化支持
- 支持在线编辑转录文本、摘要、讲者信息
- 有 Markdown 支持,提高内容美观性和结构化
🧑💻 可自定义与部署
- 提供 Docker 容器(Dockerfile、docker-compose)、.env 配置模板指南(ASR/Whisper)
- 支持自托管 Whisper 模型或调用 OpenAI/OpenRouter/Azure 等 API
🆕 最新更新(v0.4.1, 2025‑07‑19)
- 全新 UI 界面
- 安全共享功能:可设权限公开录音/摘要,并可随时撤回链接
- 增强录音体验(移动端优化、双音频可视化)
- 支持 AMR 音频格式
- 实现转录文本在线编辑与 Markdown 格式编写摘要([GitHub][2])
🛠️ 适合人群 & 使用场景
使用者 | 场景 |
---|---|
上班族 / 团队主持 | 会议记录、访谈整理 |
学生/讲师 | 课程笔记、讲座管理 |
记者、内容创作者 | 访谈内容整理、快速摘要 |
隐私敏感用户 | 本地部署,无需第三方云平台 |
🚀 快速入门建议
- 准备一个具备容器支持的服务器或 VPS
- 克隆项目并根据部署指南配置
.env
和docker-compose.yml
- 根据预算选用接口:
- 免费自托管:使用 WhisperX ASR + 本地 LLM
- 云端服务:使用 OpenAI Whisper 和 GPT 接口
- 运行后打开网页界面上传录音,体验转录、摘要、聊天功能
🧭 社区反馈摘录
Reddit 用户“hedonihilistic”总结说:
“Speaker Diarization: … automatically detect different speakers … You can easily rename them … Reprocess Button: …”([Reddit][3])
✅ 总结
Speakr 是一款功能完整、界面现代并强调隐私的自托管语音笔记工具,适合需要转录、生成总结和智能交互的用户。无论是课堂、会议还是访谈,都能提供高效、结构化的文字记录和 AI 驱动的交互体验。