繁中

幾個開源人工智慧項目概述

作者: / 16 1 月, 2025

Ebook2Audiobook開源項目

電子書自動轉換為有聲讀物支持語音克隆、多種語言

ebook 2audiobook XTTC是一個開源項目，旨在將電子書自動轉換為有聲讀物，並支持多種語言、語音克隆和章節信息生成。該項目結合Calibre（電子書轉換工具）和Coqui XTTC（文本到語音引擎），通過簡單的命令或Web界面完成轉換，方便用戶將電子書轉換為音頻文件，適合日常圖書聆聽需求或個性化有聲讀物製作。

Github：https://github.com/DrewThomasson/ebook2audiobookXTTS

Hertz-dev：第一個會話音頻開源模型

全速實時語音交互120毫秒超低延遲

Hertz-dev是由Standard Intelligence開發的第一個會話音頻開源模型。hertz-dev是全雙工、僅音頻的Transformer基本模型。

其主要功能是生成對話音頻，即模擬人類對話的語音生成。支持全速音頻，可以像打電話或實時對話一樣同時接收和生成音頻，無需等待句子說完再回復。

GitHub：https://github.com/Standard-Intelligence/hertz-dev

軟體名稱：小濱AI Mattu

軟體功能：AI圖像處理

支持平台：Windows
軟體簡介：一款免費開源AI圖像處理工具。其主要功能包括一鍵圖像搭建、身份證照片製作和圖像格式轉換。

您可以通過拖動、粘貼圖片或連結來進行單獨或批量的遮蔽。能夠高效處理各種格式的圖像，包括jpg、png、gif、webp和bmp。

您還可以使用該軟體製作符合不同規格的身份照片並進行二次編輯。

原文：https://matting.20133075.xyz/

網站功能：人工智慧化身動作

網站名稱：Discopixel
使用人工智慧技術提供有趣的面部動畫和視頻的賀卡服務。
只需上傳一張照片並分享一些有趣的事實即可生成個性化的音樂視頻。
該網站目前正在準備下一次發布，可以添加到等待列表中。

原文：https://discopixel.app/

輸油管：