基于MCP的聊天机器人,小智 AI 聊天机器人入口

https://youtu.be/qGZCfu79xlM

xiaozhi-esp32 :基于MCP的聊天机器人,小智 AI 聊天机器人作为一个语音交互入口,利用 Qwen / DeepSeek 等大模型的 AI 能力,通过 MCP 协议实现多端控制

这个项目 xiaozhi‑esp32 是由“虾哥”发起并维护的开源工程,运行在低成本的 ESP32 系列芯片(如 ESP32‑C3/S3/P4)上,用来打造一个语音交互式 AI 聊天机器人

🛠 核心功能一览

  • 离线唤醒 & 实时对话
    使用 ESP-SR 实现本地唤醒,流式语音识别(ASR)上传至云端大语言模型(如 Qwen、DeepSeek),接收 LLM 回复后通过 TTS 发声
  • 多协议通信
    支持 WebSocket 或 MQTT+UDP,搞定远程消息控制与设备交互
  • 音频处理
    使用 OPUS 编解码提升语音传输效率
  • 声纹识别
    可分辨多个人的声音,实现身份化互动 。
  • 显示与交互
    支持 OLED/LCD 显示,展示表情、电量等信息,同时支持摄像头拍照及图像识别功能(最新版本已加入)
  • 硬件兼容性超广
    已验证支持 70+ 种 ESP32 开发板,包括 S3、P4 系列及各种屏幕、通讯模组、感测模块等
  • MCP 协议控制智能硬件
    能通过 MCP 控制音量、灯光、电机、GPIO 等外设,也可通过云端命令控制 PC、智能家居等 。
  • 多语言支持
    中文、英文、日文等语种兼容,适合全球用户

🚀 最新进展

  • v1.7.6(2025 年 6 月 24 日)
    增加 MCP 作为默认协议、支持摄像头拍照、优化内存和支持更多板卡平台。
  • 社区正在持续扩展,例如 UNIHIKER K10、Waveshare、M5Stack、DeepSeek 等设备的加持,部分也已实现 Home Assistant 适配

⚡ 使用途径

  1. 直接刷固件:GitHub 或 xiaozhi.me 提供预编译 bin,适用于常见板卡,用户只需 Wi‑Fi 配置即可体验基础功能。
  2. 自行编译:搭建 ESP‑IDF 环境(Linux 推荐),调整 sdkconfig,选择适用的固件版本(如 bread、ml307 等),自行编译并烧录。
  3. 高级开发:可根据说明文档添加新硬件自定义板卡,或通过 MCP 实现新功能拓展。

🔧 适合人群

  • DIY 爱好者与 Maker 社区
  • 想把大语言模型带入智能硬件的学生或创新者
  • 对语音交互、边缘推理、远程控制有需求的开发者

总体来说,xiaozhi‑esp32 是一个高度集成、社区活跃、功能丰富的开源项目,适合喜欢手作且希望落地 AI 功能的开发者深入探索。

Github:https://github.com/78/xiaozhi-esp32

油管:https://youtu.be/qGZCfu79xlM

一个英文版的油管介绍:https://www.youtube.com/watch?v=xGqHJC4fuDo

滚动至顶部