xiaozhi-esp32 :基于MCP的聊天机器人,小智 AI 聊天机器人作为一个语音交互入口,利用 Qwen / DeepSeek 等大模型的 AI 能力,通过 MCP 协议实现多端控制
这个项目 xiaozhi‑esp32 是由“虾哥”发起并维护的开源工程,运行在低成本的 ESP32 系列芯片(如 ESP32‑C3/S3/P4)上,用来打造一个语音交互式 AI 聊天机器人
🛠 核心功能一览
- 离线唤醒 & 实时对话
使用 ESP-SR 实现本地唤醒,流式语音识别(ASR)上传至云端大语言模型(如 Qwen、DeepSeek),接收 LLM 回复后通过 TTS 发声 - 多协议通信
支持 WebSocket 或 MQTT+UDP,搞定远程消息控制与设备交互 - 音频处理
使用 OPUS 编解码提升语音传输效率 - 声纹识别
可分辨多个人的声音,实现身份化互动 。 - 显示与交互
支持 OLED/LCD 显示,展示表情、电量等信息,同时支持摄像头拍照及图像识别功能(最新版本已加入) - 硬件兼容性超广
已验证支持 70+ 种 ESP32 开发板,包括 S3、P4 系列及各种屏幕、通讯模组、感测模块等 - MCP 协议控制智能硬件
能通过 MCP 控制音量、灯光、电机、GPIO 等外设,也可通过云端命令控制 PC、智能家居等 。 - 多语言支持
中文、英文、日文等语种兼容,适合全球用户
🚀 最新进展
- v1.7.6(2025 年 6 月 24 日)
增加 MCP 作为默认协议、支持摄像头拍照、优化内存和支持更多板卡平台。 - 社区正在持续扩展,例如 UNIHIKER K10、Waveshare、M5Stack、DeepSeek 等设备的加持,部分也已实现 Home Assistant 适配
⚡ 使用途径
- 直接刷固件:GitHub 或 xiaozhi.me 提供预编译 bin,适用于常见板卡,用户只需 Wi‑Fi 配置即可体验基础功能。
- 自行编译:搭建 ESP‑IDF 环境(Linux 推荐),调整 sdkconfig,选择适用的固件版本(如 bread、ml307 等),自行编译并烧录。
- 高级开发:可根据说明文档添加新硬件自定义板卡,或通过 MCP 实现新功能拓展。
🔧 适合人群
- DIY 爱好者与 Maker 社区
- 想把大语言模型带入智能硬件的学生或创新者
- 对语音交互、边缘推理、远程控制有需求的开发者
总体来说,xiaozhi‑esp32 是一个高度集成、社区活跃、功能丰富的开源项目,适合喜欢手作且希望落地 AI 功能的开发者深入探索。
Github:https://github.com/78/xiaozhi-esp32
油管:https://youtu.be/qGZCfu79xlM
一个英文版的油管介绍:https://www.youtube.com/watch?v=xGqHJC4fuDo