研究发现,领先的AI模型很难从患者书面描述中识别遗传状况
以下内容翻译自原文:
美国国立卫生研究院 (NIH) 的研究人员发现,虽然人工智能 (AI) 工具可以根据教科书般的遗传疾病描述做出准确的诊断,但在分析患者撰写的有关自身健康状况的总结时,这些工具的准确度明显较低。
《美国人类遗传学杂志》报道的这些发现表明,需要改进这些人工智能工具,然后才能将其应用于医疗保健环境,以帮助进行诊断和回答患者的问题。
研究人员研究了一种称为大型语言模型的人工智能,该模型是根据大量基于文本的数据进行训练的。这些模型有可能在医学上非常有帮助,因为它们能够分析和回答问题,并且界面通常用户友好。
该研究的资深作者、美国国立卫生研究院国家人类基因组研究所 (NHGRI) 的临床主任本·所罗门 (Ben Solomon) 医学博士说:“我们可能并不总是这样认为,但医学的很多内容都是基于文字的。”
“例如,电子健康记录以及医生和患者之间的对话都是由单词组成的。大型语言模型对于人工智能来说是一个巨大的飞跃,能够以临床有用的方式分析单词可能会带来难以置信的变革。”
研究人员测试了 10 种不同的大型语言模型,其中包括两个最新版本的 ChatGPT。研究人员根据医学教科书和其他参考资料设计了有关 63 种不同遗传状况的问题。其中包括一些众所周知的疾病,如镰状细胞性贫血、囊性纤维化和马凡综合征,以及许多罕见的遗传疾病。
这些病症在不同的患者中可能以多种方式出现,研究人员旨在捕捉一些最常见的可能症状。
他们为每种病症选择了三到五种症状,并以标准格式提出问题,“我有 X、Y 和 Z 症状。最可能的遗传病症是什么?”
当提出这些问题时,大型语言模型指出正确基因诊断的能力差异很大,初始准确率在 21% 到 90% 之间。性能最好的模型是 GPT-4,它是 ChatGPT 的最新版本之一。
模型的成功通常与其规模相对应,即模型训练的数据量。最小的模型有数十亿个参数可供提取,而最大的模型则有超过一万亿个参数。
对于许多性能较低的模型,研究人员能够在后续实验中提高准确性,总体而言,这些模型仍然比非人工智能技术(包括标准的谷歌搜索)提供更准确的响应。
研究人员以各种方式优化和测试模型,包括用更通用的语言替换医学术语。例如,问题不是说孩子患有“大头畸形”,而是说孩子有“大头”,更贴切地反映患者或护理人员如何向医生描述症状。
总体而言,当医学描述被删除时,模型的准确性会下降。然而,使用通用语言时,十分之七的模型仍然比谷歌搜索更准确。
领导这项研究的 NHGRI 学士后研究员肯德尔·弗拉哈蒂 (Kendall Flaharty) 表示:“重要的是,没有医学知识的人也能使用这些工具。”
“世界上临床遗传学家并不多,在一些州和国家,人们无法接触到这些专家。人工智能工具可以帮助人们得到一些问题的答案,而无需等待数年的预约。”
为了利用来自真实患者的信息来测试大语言模型的功效,研究人员要求 NIH 临床中心的患者提供有关其自身遗传状况和症状的简短描述。这些描述从一句话到几段不等,与教科书般的问题相比,风格和内容也更加多样。
当提供真实患者的这些描述时,表现最好的模型只有 21% 的时间做出准确的诊断。许多模型的表现要差得多,甚至准确率低至 1%。
研究人员预计患者撰写的摘要更具挑战性,因为 NIH 临床中心的患者通常患有极其罕见的病症。因此,模型可能没有足够的有关这些情况的信息来进行诊断。
然而,当研究人员针对 NIH 患者中发现的相同极其罕见的遗传状况编写标准化问题时,准确性得到了提高。这表明模型很难解释患者记录的可变措辞和格式,这可能是因为模型是根据教科书和其他参考材料进行训练的,而这些材料往往更加简洁和标准化。
“为了使这些模型将来在临床上有用,我们需要更多的数据,并且这些数据需要反映患者的多样性,”所罗门博士说。
“我们不仅需要代表所有已知的医疗状况,还需要代表年龄、种族、性别、文化背景等的变化,以便数据捕获患者经历的多样性。然后这些模型可以学习不同的人可能如何交谈关于他们的条件。”
除了展示需要改进的领域之外,这项研究还强调了当前大型语言模型的局限性,以及人工智能应用于医疗保健时持续需要人类监督。
“这些技术已经在临床环境中推广,”所罗门博士补充道。 “最大的问题不再是临床医生是否会使用人工智能,而是临床医生应该在哪里以及如何使用人工智能,以及我们不应该在哪里使用人工智能来为患者提供最好的护理。”
如果想详细了解,可以点开视频下方的链接。
谢谢观看本视频。要是喜欢,请订阅、点赞。谢谢
原文:https://medicalxpress.com/news/2024-08-ai-struggle-genetic-conditions-patient.html
More information: Evaluating Large Language Models on Medical, Lay Language, and Self-Reported Descriptions of Genetic Conditions, The American Journal of Human Genetics (2024). DOI: 10.1016/j.ajhg.2024.07.011. www.cell.com/ajhg/fulltext/S0002-9297(24)00255-6
Journal information: American Journal of Human Genetics