基于MCP的聊天机器人，小智 AI 聊天机器人入口

作者： Tarogo Cloud / 24 7 月, 2025

https://youtu.be/qGZCfu79xlM

xiaozhi-esp32 ：基于MCP的聊天机器人，小智 AI 聊天机器人作为一个语音交互入口，利用 Qwen / DeepSeek 等大模型的 AI 能力，通过 MCP 协议实现多端控制

这个项目 xiaozhi‑esp32 是由“虾哥”发起并维护的开源工程，运行在低成本的 ESP32 系列芯片（如 ESP32‑C3/S3/P4）上，用来打造一个语音交互式 AI 聊天机器人

🛠 核心功能一览

离线唤醒 & 实时对话
使用 ESP-SR 实现本地唤醒，流式语音识别（ASR）上传至云端大语言模型（如 Qwen、DeepSeek），接收 LLM 回复后通过 TTS 发声
多协议通信
支持 WebSocket 或 MQTT+UDP，搞定远程消息控制与设备交互
音频处理
使用 OPUS 编解码提升语音传输效率
声纹识别
可分辨多个人的声音，实现身份化互动。
显示与交互
支持 OLED/LCD 显示，展示表情、电量等信息，同时支持摄像头拍照及图像识别功能（最新版本已加入）
硬件兼容性超广
已验证支持 70+ 种 ESP32 开发板，包括 S3、P4 系列及各种屏幕、通讯模组、感测模块等
MCP 协议控制智能硬件
能通过 MCP 控制音量、灯光、电机、GPIO 等外设，也可通过云端命令控制 PC、智能家居等。
多语言支持
中文、英文、日文等语种兼容，适合全球用户

🚀 最新进展

v1.7.6（2025 年 6 月 24 日）
增加 MCP 作为默认协议、支持摄像头拍照、优化内存和支持更多板卡平台。
社区正在持续扩展，例如 UNIHIKER K10、Waveshare、M5Stack、DeepSeek 等设备的加持，部分也已实现 Home Assistant 适配

⚡ 使用途径

直接刷固件：GitHub 或 xiaozhi.me 提供预编译 bin，适用于常见板卡，用户只需 Wi‑Fi 配置即可体验基础功能。
自行编译：搭建 ESP‑IDF 环境（Linux 推荐），调整 sdkconfig，选择适用的固件版本（如 bread、ml307 等），自行编译并烧录。
高级开发：可根据说明文档添加新硬件自定义板卡，或通过 MCP 实现新功能拓展。

🔧 适合人群

DIY 爱好者与 Maker 社区
想把大语言模型带入智能硬件的学生或创新者
对语音交互、边缘推理、远程控制有需求的开发者

总体来说，xiaozhi‑esp32 是一个高度集成、社区活跃、功能丰富的开源项目，适合喜欢手作且希望落地 AI 功能的开发者深入探索。

Github：https://github.com/78/xiaozhi-esp32

油管：https://youtu.be/qGZCfu79xlM

一个英文版的油管介绍：https://www.youtube.com/watch?v=xGqHJC4fuDo