人工智慧數字人可以通過語音對話、表情控制和身體動作與數字人互動。它在配備NVIDIA 3060圖形卡的筆記本電腦上實時運行。
項目定位
EdgePersona是一個開源項目,其目標是創建一個完全本地運行、隱私安全的智能數字人類系統。該系統具有語音對話、多模式動作響應等功能。它可以在普通筆記本電腦上運行,不需要聯網來確保用戶數據的隱私。
核心功能
- 100%本地化運營:所有模型推理和語音處理均在本地完成,無需連接網際網路,確保隱私和安全
- 輕便高效:硬體要求低,一般配備NVIDIA圖形處理器(內存大於6 GB)的筆記本電腦都可以運行實時代碼
- 多模式交互:支持語音對話、角色面部表情和身體動作反應等交互方式。
- 可定製角色:通過YML個人資料定義角色的個性、語氣和動作風格。
- 多種型號支持:兼容Ollama、HuggingFace和GGUF等本地模型格式
技術架構概述
EdgePersona基於Python開發,其核心模塊包括:
- 語音識別(ASR)、文本轉語音模塊(TTC)
- 對話引擎(dialogue.py)、內存模塊(memory.py)
- 運動控制器(player.py,robot.py) 等
- 支持調用本地LLM(例如Olama協議伺服器)進行自然語言生成
該系統集成了多個開源組件,例如Live 2D、Olama、本地TTC(例如Kokoro TTC)等。
如何使用
- 克隆倉庫並創建Python虛擬環境。
- 安裝依賴關係:
pip安裝-r要求.文本 - 配置角色和語音參數(修改YML、tts.py、模型路徑等)
- 開始程式:
python main.py您可以運行數字人機互動界面
使用場景示例
- 想建立一個離線語音助理、適應個人隱私需求;
- 想在筆記本電腦或低調設備上運行數字人類應用程式;
- 需要一個可以自定義角色聲音、動作和對話風格的系統;
- 追求無需依賴雲服務準備運行AI Avatar。
優點和局限性
| 優勢 | 限制/注意點 |
|---|---|
| 完全離線,沒有網絡依賴,隱私和安全 | 對圖形卡內存有要求,例如英偉達' 6 GB |
| 重量輕,適合普通筆記本電腦 | 對話生成的質量受到您加載的本地LLM模型的限制 |
| 支持角色風格深度定製 | 配置和型號準備需要一定的技術基礎 |
| 支持主流模型格式 | 多模式動作和場景互動仍在開發中 |
總結
EdgePersona是一個開源項目,致力於促進數字人「回歸本地化」。它放棄了對雲的依賴,使用本地模型和本地推理來實現數字人和用戶之間的私人和定製的交互體驗。如果您擁有一台配備NVIDIA圖形處理器的設備,並且想要構建一個離線運行、深度可定製的虛擬角色或語音助理,EdgePersona是一個非常有潛力的起點。
Github:https://github.com/zc-maker/EdgePersona
輸油管: