項目功能:開源視頻+語音模型
項目簡介:一個開源多模式大型語言模型,旨在實現實時視覺和語音交互。
通過減少交互延遲、增強語音處理能力和改善多模式理解,同時處理視頻、圖像、文本和音頻數據的能力達到了接近GPT-4 o的水平。
以下是原站的解釋:
VitA-1.5,其中包括一系列改進:
顯著減少交互延遲。端到端語音交互延遲從約4秒縮短至1.5秒,實現了近即時交互,大大改善了用戶體驗。
增強多模式效率。ME、MMBench和MathVista等多模式基準的平均性能從59.8顯著提高到70.8。
語音處理的改進。語音處理能力提升到一個新水平,ASB WER(單字錯誤率,測試其他)從18.4降低到7.5。此外,我們還用端到端RTS模塊替換了VITA-1.0的獨立RTS模塊,該模塊接受LLM的嵌入作為輸入。
漸進式培訓策略。這樣,語音的添加對其他多模式表示(視覺語言)的影響很小。平均圖像理解性能僅從71.3下降到70.8。
項目:https://github.com/VITA-MLLM/VITA
輸油管: