基于视觉的 ChatGPT 在解释放射图像方面显示出缺陷

评估 ChatGPT-4 Vision 性能的研究人员发现,该模型在基于文本的放射学考试问题上表现良好,但很难准确回答与图像相关的问题。该研究结果发表在《放射学》杂志上。

Chat GPT-4 Vision 是第一个可以解释文本和图像的大型语言模型版本。

Henry Ford Health 肌肉骨骼放射科医生和人工智能(AI) 研究员 Chad Klochko 医学博士表示:“ChatGPT-4 在协助放射科医生完成诸如简化面向患者的放射学报告和确定适当的成像检查方案等任务方面表现出了希望。”密歇根州底特律。 “凭借图像处理功能,GPT-4 Vision 可以在放射学领域实现新的潜在应用。”

在这项研究中,Klochko 博士的研究团队使用了美国放射学院诊断放射学培训考试中的退役问题,这是一系列用于衡量放射科住院医师进展情况的测试。排除重复项后,研究人员使用了 13 个领域的 377 个问题,其中 195 个纯文本问题和 182 个包含图像的问题。

GPT-4 Vision 正确回答了 377 个问题中的 246 个问题,总分达到 65.3%。该模型正确回答了 195 个纯文本查询中的 81.5% (159) 和 182 个带有图像的问题中的 47.8% (87)。

“纯文本问题的 81.5% 准确率反映了该模型前身的表现,”他说。 “这种基于文本的问题的一致性可能表明该模型在放射学方面具有一定程度的文本理解能力。”

泌尿生殖放射学是唯一一个 GPT-4 Vision 在图像问题(15 例中的 10 例)上比纯文本问题(57% 或 7 例中的 4 例)表现更好的亚专业。该模型在所有其他子专业的纯文本问题上表现更好。

该模型在胸部和泌尿生殖亚专科的基于图像的问题上表现最佳,分别正确回答了 69% 和 67% 的包含图像的问题。该模型在核医学领域包含图像的问题上表现最低,仅正确回答了 10 个问题中的 2 个问题。

该研究还评估了各种提示对 GPT-4 Vision 性能的影响。

原文:您正在参加放射科考试。问题的图像将被上传。选择每个问题的正确答案。
基本:在以下退休放射科考试问题中选择一个最佳答案。
简短说明:这是一个退休放射科考试问题,旨在衡量您的医学知识。选择一个最佳答案字母,不要提供任何答案的推理。
详细说明:您是一名经过委员会认证的诊断放射科医生,正在接受考试。仔细评估每个问题,如果问题还包含图像,请仔细评估该图像以便回答问题。您的回答必须包含一个最佳答案选择。未能提供答案选项将被视为不正确。
思路:您正在参加退休委员会考试以进行研究。根据所提供的图像,逐步思考所提供的问题。
尽管该模型在基本提示下正确回答了 265 个问题中的 183 个问题,但它拒绝回答 120 个问题,其中大部分包含图像。

“拒绝回答问题的现象是我们在最初探索该模型时从未见过的,”克洛奇科博士说。

简短的指令提示产生的准确率最低 (62.6%)。

在基于文本的问题上,思维链提示比长指导高出 6.1%,比基础提示高出 6.8%,比原始提示风格高出 8.9%。没有证据表明任何两个提示在基于图像的问题上的表现存在差异。

“我们的研究表明,在解释图像结果时存在幻觉反应的证据,”克洛奇科博士说。 “我们注意到该模型有一种令人担忧的趋势,即根据不正确的图像解释提供正确的诊断,这可能具有重大的临床意义。”

Klochko 博士表示,他的研究结果强调需要更专业、更严格的评估方法来评估大型语言模型在放射学任务中的表现。

他说:“鉴于当前在准确解释关键放射图像方面面临的挑战以及幻觉反应的趋势,GPT-4 Vision 在放射学等信息关键领域的适用性在目前状态下受到限制。”

更多内容,可以点开视频下方的链接
谢谢观看本视频。要是喜欢,请订阅、点赞。谢谢

原文:https://medicalxpress.com/news/2024-09-vision-based-chatgpt-deficits-radiologic.html
更多信息: GPT-4 与视觉在基于文本和图像的 ACR 诊断放射学培训考试问题上的性能,放射学(2024)。
期刊信息:放射学

油管:https://youtu.be/P4-m9OLubkM

了解 Tarogo Cloud Bloger & Shop 的更多信息

立即订阅以继续阅读并访问完整档案。

继续阅读