臨床推理、多模式理解和長文本處理方面有了很大的改進。
研究人員使用了14個醫療基準來測試Med-Gemini的能力。
結果發現,它在所有10個基準測試上都取得了最佳性能,遠遠超過了之前最強的GPT-4型號。
例如,在流行的醫學問答測試MedQA上,Med-Gemini的準確率達到了91.1%,比之前的最佳模型高出了4.6%。
Med-Gemini不僅擅長文本任務,還擅長理解醫學圖像、視頻和心電圖等多模態數據。它可以閱讀醫學圖像並回答相關問題。您還可以觀看醫學教學視頻並掌握手術程式。
此外,Med-Gemini還可以快速閱讀冗長的病歷,識別關鍵信息,並總結患者的主要健康狀況。在一些現實生活中的醫療任務中,例如病歷摘要、轉診信撰寫,它的表現甚至超過了人類醫生。
各種醫療應用的優異性能給人工智慧帶來了巨大的挑戰,需要先進的推理、獲取最新的醫療知識以及理解複雜的多模式數據。雙子座模型在多模式和長上下文推理方面具有強大的通用能力,為醫學領域提供了令人興奮的可能性。
在Gemini的這些核心優勢的基礎上,我們推出了Med-Gemini,這是一個強大的多模式模型系列,專門用於醫學,能夠無縫使用網絡搜索,並且可以用於使用自定義編碼器有效地針對新型模式。
Med-Gemini在14項醫療基準上進行了評估,在其中10項上建立了新的最先進(SoTA)性能,並在每個可以直接比較的基準上超越了GPT-4型號系列,通常是為了獲得廣泛的利潤。
在流行的MedQA(USMLE)基準測試中,Med-Gemini模型使用新穎的不確定性引導搜索策略來實現91.1%的SoTA性能。在包括NEJM Image Challenges和MMMU(健康與醫學)在內的七個多模式基準中,Med-Gemini的平均比較優勢比GPT-4V提高了44.5%。
SoTA在從長期去識別健康記錄和醫療視頻問答中進行大海撈針檢索任務方面的性能證明了Med-Gemini長上下文能力的有效性,超越了之前僅使用上下文學習的定製方法。最後,Med-Gemini的表現展示了其在現實世界中的實用性,在醫學文本摘要等任務方面超越了人類專家,同時展示了多模式醫學對話、醫學研究和教育的巨大潛力。
總體而言,我們的結果為Med-Gemini的潛力提供了令人信服的證據,儘管在實際部署到這個安全關鍵領域之前,進一步嚴格的評估至關重要。
如果您想了解更多信息,可以單擊視頻下方的連結。
感謝您觀看此視頻。如果您喜歡,請訂閱並點讚。謝謝
論文地址:https://arxiv.org/abs/2404.18416
視頻: