評估ChatGPT-4 Vision性能的研究人員發現,該模型在基於文本的放射學考試問題上表現良好,但難以準確回答與圖像相關的問題。研究結果發表在《放射學》雜誌上。
Chat GPT-4 Vision是可以解釋文本和圖像的大型語言模型的第一個版本。
查德·克洛奇科,醫學博士,Henry Ford Health的肌肉骨骼放射科醫生和人工智慧(AI)研究員表示:「ChatGPT-4在協助放射科醫生完成簡化面向患者的放射學報告和確定適當的成像檢查協議等任務方面表現出了希望。「密西根州底特律。「憑藉其圖像處理功能,GPT-4 Vision可以在放射學領域實現新的潛在應用。"
在這項研究中,Klochko博士的團隊使用了美國放射學院診斷放射學培訓考試的退休問題,這是一系列用于衡量放射科住院醫師進步的測試。在排除重複的問題後,研究人員使用了13個領域的377個問題,包括195個純文本問題和182個包含圖像的問題。
GPT-4 Vision正確回答了377個問題中的246個,總分為65.3%。該模型正確回答了195個純文本查詢中的81.5%(159)和182個帶有圖像的問題中的47.8%(87)。
「純文本問題81.5%的準確率反映了該模型前身的表現,」他說。「基於文本的問題的這種一致性可能表明該模型對放射學有一定程度的文本理解。"
泌尿生殖器放射科是唯一一個GPT-4 Vision在圖像問題(15例病例中的10例)上表現優於純文本問題(57%或4例)的子專業。對於所有其他亞專業,該模型在純文本問題上表現更好。
該模型在胸部和泌尿生殖亞專業的基於圖像的問題上表現最佳,分別正確回答了69%和67%的包含圖像的問題。該模型在核醫學領域包含圖像的問題上表現最低,僅正確回答了10個問題中的2個。
該研究還評估了各種提示對GPT-4 Vision性能的影響。
原文:您正在接受放射學檢查。問題的圖像將被上傳。選擇每個問題的正確答案。
基本:從以下退休放射學考試問題中選擇最佳答案。
簡短解釋:這是一個退役的放射學考試問題,旨在衡量您的醫學知識。選擇最好的回覆信,不要提供任何答案理由。
詳情:您是委員會認證的診斷放射科醫生,正在參加考試。仔細評估每個問題,如果問題還包含圖像,請仔細評估圖像以回答問題。您的答案必須包括最佳答案的選擇。未能提供答案選項將被視為不正確。
想法:您正在參加退休委員會考試以進行研究。根據提供的圖像,逐步思考提供的問題。
儘管該模型在基本提示下正確回答了265個問題中的183個,但它拒絕回答120個問題,其中大部分包含圖像。
克洛奇科博士說:「當我們第一次探索該模型時,拒絕回答問題是我們從未見過的。」
短命令提示的準確率最低(62.6%)。
在基於文本的問題上,思維鏈提示比長指南高6.1%,比基本提示高6.8%,比原始提示風格高8.9%。沒有證據表明任何兩個提示在基於圖像的問題上表現不同。
克洛奇科博士說:「我們的研究表明,在解釋圖像結果時存在幻覺反應的證據。」「我們注意到該模型中存在一種令人擔憂的趨勢,即根據不正確的圖像解釋提供正確的診斷,這可能會產生重大的臨床影響。"
克洛奇科博士表示,他的研究結果凸顯了需要更專業和嚴格的評估方法來評估大型語言模型在放射學任務中的表現。
他說:「鑑於當前準確解釋關鍵放射圖像和幻覺反應趨勢的挑戰,GPT-4 Vision在放射學等關鍵信息領域的適用性在目前的狀態下是有限的。」
欲了解更多內容,可以點擊視頻下方的連結
感謝您觀看此視頻。如果您喜歡,請訂閱並點讚。謝謝
原文:https://medicalxpress.com/news/2024-09-vision-based-chatgpt-deficits-radiologic.html
更多信息:GPT-4和Vision在基於文本和圖像的ACN診斷放射學培訓考試問題上的表現,放射學(2024)。
期刊信息:放射學
輸油管: