VITA开源版视频+语音模型

项目功能:开源版视频+语音模型
项目简介:一个开源的多模态大语言模型,旨在实现实时的视觉和语音交互。

能够同时处理视频、图像、文本和音频数据,通过减少交互延迟、增强语音处理能力和改进多模态理解,达到了接近GPT-4o的水平。

以下是来自原站的说明:

VITA-1.5 ,它包含了一系列的進步:

顯著降低交互延遲。端對端語音交互時延從約4秒縮短至1.5秒,實現近即時交互,大幅提升使用者體驗。

增強的多模式效能。 MME 、 MMBench和MathVista等多模式基準測試的平均效能從59.8顯著提高到70.8 。

語音處理的改進。語音處理能力提升到了一個新的水平,ASR WER(單字錯誤率,測試其他)從18.4降低到7.5 。此外,我們以端對端TTS模組取代了VITA-1.0的獨立TTS模組,該模組接受LLM的嵌入作為輸入。

漸進式培訓策略。透過這種方式,語音的添加對其他多模態表現(視覺語言)影響很小。平均影像理解性能僅從 71.3 下降到 70.8。

项目:https://github.com/VITA-MLLM/VITA

油管:https://youtu.be/B_yQMQ-W46M

了解 Tarogo Cloud Bloger & Shop 的更多信息

立即订阅以继续阅读并访问完整档案。

继续阅读