VITA开源版视频+语音模型

Revolutionary Open Source AI Achieves Shocking Performance

Watch this video on YouTube

项目功能：开源版视频+语音模型
项目简介：一个开源的多模态大语言模型，旨在实现实时的视觉和语音交互。

能够同时处理视频、图像、文本和音频数据，通过减少交互延迟、增强语音处理能力和改进多模态理解，达到了接近GPT-4o的水平。

以下是来自原站的说明：

VITA-1.5 ，它包含了一系列的進步：

顯著降低交互延遲。端對端語音交互時延從約4秒縮短至1.5秒，實現近即時交互，大幅提升使用者體驗。

增強的多模式效能。 MME 、 MMBench和MathVista等多模式基準測試的平均效能從59.8顯著提高到70.8 。

語音處理的改進。語音處理能力提升到了一個新的水平，ASR WER（單字錯誤率，測試其他）從18.4降低到7.5 。此外，我們以端對端TTS模組取代了VITA-1.0的獨立TTS模組，該模組接受LLM的嵌入作為輸入。

漸進式培訓策略。透過這種方式，語音的添加對其他多模態表現（視覺語言）影響很小。平均影像理解性能僅從 71.3 下降到 70.8。