VitA開源視頻+語音模型

項目功能：開源視頻+語音模型
項目簡介：一個開源多模式大型語言模型，旨在實現實時視覺和語音交互。

通過減少交互延遲、增強語音處理能力和改善多模式理解，同時處理視頻、圖像、文本和音頻數據的能力達到了接近GPT-4 o的水平。

以下是原站的解釋：

VitA-1.5，其中包括一系列改進：

顯著減少交互延遲。端到端語音交互延遲從約4秒縮短至1.5秒，實現了近即時交互，大大改善了用戶體驗。

增強多模式效率。ME、MMBench和MathVista等多模式基準的平均性能從59.8顯著提高到70.8。

語音處理的改進。語音處理能力提升到一個新水平，ASB WER（單字錯誤率，測試其他）從18.4降低到7.5。此外，我們還用端到端RTS模塊替換了VITA-1.0的獨立RTS模塊，該模塊接受LLM的嵌入作為輸入。

漸進式培訓策略。這樣，語音的添加對其他多模式表示（視覺語言）的影響很小。平均圖像理解性能僅從71.3下降到70.8。

輸油管：