繁中

Private-ASB:本地部署的智能語音助理

一站式語音識別、分離和總結解決方案!

集成自動語音識別(ASB)、說話者分離、SRT字幕編輯和基於LLM的摘要功能。該項目使用Gradio提供直觀且易於使用的用戶界面

Private-ASB是一個本地部署的工具,基於開源項目FunTrap的修改,該工具集成了自動語音識別(ASB)、說話者分離、SRT字幕編輯和基於大型語言模型(LLM)的摘要功能。

主要功能:

  1. 自動語音識別(ASB):

    • 支持視頻和音頻輸入,輸出文本和SRT字幕。
  2. 揚聲器分離(SD):

    • 識別和區分多揚聲器音頻/視頻中的不同揚聲器。
  3. SRT字幕編輯器:

    • 允許用戶使用自定義名稱替換發言者標識。
  4. 基於LLM的總結:

    • 使用基於GPT的模型來總結ASB結果並支持自定義API配置。
  5. 部署選項:

    • 為生產環境提供輕量級Docker容器和用於開發/測試的Python環境。

系統要求:

  • 部署方式:

    • Docker(用於基於容器的部署)
    • Python 3.9+(用於手動部署)
  • 依賴性:

    • 看到 requirements.txt 證件

部署步驟:

  1. Docker部署:

    • 構建Docker鏡像:

      docker Build -t audio-handler:最新。
    • 使用Docker Compose部署:

      版本:「3.8」
      
      服務:
      音頻處理器:
       圖片:音頻處理器:最新
       容器名稱:音頻處理器
       港口:
       - 「7860:7860」
       卷:
       - ./. dev:/app/. dev
       工作_目錄:/app
       重新啟動:不間斷

      然後運行:

      docker-compose up -d

      Glradio界面將通過以下方式提供 http://localhost:7860 訪問

  2. Python部署:

    • 設置環境:

      git克隆https://github.com/MotorBottle/Private-ASR.git
      CD音頻處理器
      蟒蛇3-m venv .venv
      source .venv/bin/activate
      pip安裝--no-ache-目錄-r要求.文本
    • 確保安裝了FFmpeg:

      sudo apt-get更新
      sudo apt-get start-y ffmpeg
    • 運行應用程式:

      Python funclip/launch.py--聽

      Glradio界面將通過以下方式提供 http://localhost:7860 訪問

環境配置:

所有憑據和API配置都可以存儲在 .env 在文件中。例如:

用戶名=電機
密碼=admin
OpenAI_API_Key=您的_openai_key
OPNAI_API_ASE = your-custom-api.com

使用方法:

  1. 上傳音頻或視頻文件。
  2. 執行ASB識別或說話者分離。
  3. 在生成的SRT標題中編輯發言者姓名。
  4. 使用LLM總結功能分析和總結ASB文本。

貢獻和許可證:

該項目是在麻省理工學院許可下發布的。歡迎捐款!

有關更多信息,請訪問該項目的GitHub頁面:

Github:https://github.com/MotorBottle/Private-ASR

輸油管:

返回頂端