糾正多模式大型語言模型「幻覺」的大型方法。
啄木鳥不依賴於再訓練模型或使用特定的數據集,而是以不需要訓練的方式解決這個問題。這是一個後處理步驟,可以應用於任何現有的多模式大型語言模型。
在POPE基準測試中,與基線MiniGPT-4和mPLUG-Owl相比,準確率提高了30.66%/24.33%。
擁抱臉:https://huggingface.co/papers/2310.16045
紙張: https://arxiv.org/abs/2310.16045
GitHub:https://github.com/BradyFU/Woodpecker
演示: https://60d1b7c6f5408b81d1.gradio.live
工作原理:
Woodpecker提供了一種全面有效的方法來解決多模態大型語言模型中的幻覺,而無需昂貴的再培訓或使用特定的數據集。
啄木鳥是一個五個階段的過程,每個階段都有自己特定的算法和技術。例如,在視覺知識驗證階段,可以使用卷積神經網絡(CNN)進行圖像分類;在關鍵概念提取階段,可以使用TF-IDF或Word 2 Vec等算法。
1.關鍵概念提取:通過命名實體識別(NER)或關鍵詞提取等自然語言處理技術從生成的文本中提取關鍵概念。
2.提問:識別出關鍵概念後,啄木鳥會自動生成旨在驗證這些概念是否在視覺內容中準確表示的問題。
3.視覺知識驗證:這一步使用圖像識別或物體檢測算法來回答之前提出的問題。這些算法通常基於深度學習,並在大量圖像數據上進行了訓練。
4.可視化報表生成:根據可視化驗證的結果生成一組報表。這些聲明用於描述圖像內容和文本內容之間的關係。
5.幻覺糾正:最後,這些視覺陳述用於糾正生成的文本。如果文本中的一條信息與圖像不匹配,則會進行修改或刪除。
核心技術:
從核心上講,啄木鳥的操作涉及三個不同的人工智慧模型的集成,這些模型經過精心組織以解決幻覺。這三款型號分別是GPT-3.5 Turbo、Grounding DINO和BLIP-2-FlanT 5,它們在評估中發揮著關鍵作用。
1. GPT-3.5渦輪GPT-3.5渦輪
這是一個大型自回歸語言模型,主要用於生成和理解自然語言文本。在啄木鳥中,它可以用於關鍵概念提取和問題構建階段。
2.接地DINO恐龍接地
DINO是自我監督視覺表示學習的模型。在啄木鳥中,它可能會在視覺知識驗證階段使用,以確保生成的文本與圖像內容一致。
3,BLIP-2-FlanT5
這是一個可以處理文本和圖像的多模式學習模型。在啄木鳥中,它可以用於視覺主張生成和幻覺糾正階段。
這三個模型精心審查和識別幻覺,為需要糾正的模型提供精確指導,引導其輸出與訓練數據保持一致。
通過這種多模型集成方法,Woodpecker能夠更全面地解決多模態大型語言模型中的幻覺,提供更準確和一致的輸出。
