一站式語音識別、分離和總結解決方案!
集成自動語音識別(ASB)、說話者分離、SRT字幕編輯和基於LLM的摘要功能。該項目使用Gradio提供直觀且易於使用的用戶界面
Private-ASB是一個本地部署的工具,基於開源項目FunTrap的修改,該工具集成了自動語音識別(ASB)、說話者分離、SRT字幕編輯和基於大型語言模型(LLM)的摘要功能。
主要功能:
-
自動語音識別(ASB):
- 支持視頻和音頻輸入,輸出文本和SRT字幕。
-
揚聲器分離(SD):
- 識別和區分多揚聲器音頻/視頻中的不同揚聲器。
-
SRT字幕編輯器:
- 允許用戶使用自定義名稱替換發言者標識。
-
基於LLM的總結:
- 使用基於GPT的模型來總結ASB結果並支持自定義API配置。
-
部署選項:
- 為生產環境提供輕量級Docker容器和用於開發/測試的Python環境。
系統要求:
-
部署方式:
- Docker(用於基於容器的部署)
- Python 3.9+(用於手動部署)
-
依賴性:
- 看到
requirements.txt證件
- 看到
部署步驟:
-
Docker部署:
-
構建Docker鏡像:
docker Build -t audio-handler:最新。 -
使用Docker Compose部署:
版本:「3.8」 服務: 音頻處理器: 圖片:音頻處理器:最新 容器名稱:音頻處理器 港口: - 「7860:7860」 卷: - ./. dev:/app/. dev 工作_目錄:/app 重新啟動:不間斷然後運行:
docker-compose up -dGlradio界面將通過以下方式提供
http://localhost:7860訪問
-
-
Python部署:
-
設置環境:
git克隆https://github.com/MotorBottle/Private-ASR.git CD音頻處理器 蟒蛇3-m venv .venv source .venv/bin/activate pip安裝--no-ache-目錄-r要求.文本 -
確保安裝了FFmpeg:
sudo apt-get更新 sudo apt-get start-y ffmpeg -
運行應用程式:
Python funclip/launch.py--聽Glradio界面將通過以下方式提供
http://localhost:7860訪問
-
環境配置:
所有憑據和API配置都可以存儲在 .env 在文件中。例如:
用戶名=電機
密碼=admin
OpenAI_API_Key=您的_openai_key
OPNAI_API_ASE = your-custom-api.com
使用方法:
- 上傳音頻或視頻文件。
- 執行ASB識別或說話者分離。
- 在生成的SRT標題中編輯發言者姓名。
- 使用LLM總結功能分析和總結ASB文本。
貢獻和許可證:
該項目是在麻省理工學院許可下發布的。歡迎捐款!
有關更多信息,請訪問該項目的GitHub頁面:
Github:https://github.com/MotorBottle/Private-ASR
輸油管: