首页 > 资讯 > 健康 > 正文
2023-07-20 09:28

人工智能在临床推理研究中接近住院医生和医学生

作者:Amy Norton HealthDay记者

(每日健康)

2023年7月19日星期三(HealthDay新闻)——两项研究表明,聊天机器人可能拥有医生诊断和治疗健康问题所需的一些推理技能——尽管没有人预测聊天机器人会取代穿着实验室外套的人类。

在一项研究中,研究人员发现,在正确的提示下,ChatGPT在撰写患者病史方面与住院医生不相上下。这是对病人当前健康问题过程的总结,从最初的症状或伤害到持续的问题。

医生用它来诊断和制定治疗方案。

记录良好的病史比简单地抄写对病人的采访要复杂得多。这项研究的首席研究员阿什温·纳亚克(Ashwin Nayak)博士解释说,这需要一种综合信息、提取相关要点并将其整合成叙述的能力。

“这需要医科学生和住院医生多年的学习,”纳亚克说,他是加州斯坦福大学(Stanford University)医学临床助理教授。

然而,他的团队发现,ChatGPT在这方面的表现与一组住院医生(正在接受培训的医生)差不多。问题是,提示必须足够好:当提示缺乏细节时,聊天机器人的表现明显低于标准。

ChatGPT是由人工智能(AI)技术驱动的,它可以进行类似人类的对话——对人们提出的任何问题都能立即做出回应。这些反应是基于聊天机器人对大量数据的“预训练”,包括从互联网上收集的信息。

这项技术于去年11月推出,根据投资银行瑞银(UBS)的一份报告,在两个月内,它的月用户达到了创纪录的1亿。

据报道,ChatGPT在SAT大学入学考试中取得高分,甚至通过了美国医疗执照考试,这也成为了头条新闻。

然而,专家警告说,聊天机器人不应该成为任何人获取医疗信息的首选。

研究指出了这项技术的前景和局限性。首先,其信息的准确性在很大程度上取决于用户给出的提示。一般来说,问题越具体,回答越可靠。

例如,最近一项针对乳腺癌的研究发现,ChatGPT经常对研究人员提出的问题给出恰当的答案。但如果这个问题是广泛而复杂的——“我如何预防乳腺癌?”聊天机器人不可靠,每次重复问题都会给出不同的答案。

还有一个证据充分的问题是“幻觉”。也就是说,聊天机器人有时倾向于编造一些东西,尤其是当提示是关于一个复杂的主题时。

纳亚克的研究证实了这一点,该研究于7月17日在网上发表。

研究人员将ChatGPT与四位资深住院医生进行了比较,让他们根据对假想病人的“采访”来撰写病史。30名主治医生(住院医师的主管)对结果的详细程度、简洁性和组织性进行了评分。

研究人员使用了三种不同的提示来设置聊天机器人的任务,结果差异很大。用最不详细的提示——“阅读下面的病人访谈并写一份病史。不要使用缩写或首字母缩略词”——聊天机器人表现不佳。只有10%的报告被认为是可以接受的。

需要更详细的提示才能将该技术的接受率提高到43%,与居民的接受率相当。此外,当提示“质量”较低时,聊天机器人更容易产生幻觉,比如虚构病人的年龄或性别。

“令人担忧的是,在现实世界中,人们不会设计出‘最佳’的提示,”耶鲁大学医学院(Yale School of Medicine)教授加里·格罗斯(Cary Gross)博士说。他与人合著了一篇评论文章,与研究结果一起发表。

格罗斯说,人工智能作为一种工具,在帮助医疗专业人员进行诊断和其他关键任务方面具有“巨大”的潜力。但这些问题仍然需要解决。

格罗斯说:“这还没有准备好进入黄金时段。”

在第二项研究中,斯坦福大学的另一个研究小组发现,最新型号的ChatGPT(截至2023年4月)在期末考试中需要“临床推理”的问题上表现优于医科学生。临床推理是指综合假设患者的症状和病史信息,并提出可能的诊断的能力。

格罗斯再次表示,这一研究结果的含义尚不清楚,但没有人认为聊天机器人能比人类成为更好的医生。

他说,一个广泛的问题是如何将人工智能纳入医学教育和培训。

虽然这些研究是以医生为中心的,但纳亚克和格罗斯都表示,他们为公众提供了类似的结论:简而言之,提示很重要,幻觉是真实的。

“你可能会发现准确的信息,也可能会发现无意捏造的信息,”格罗斯说。“我不建议任何人以此为依据做出医疗决定。”

聊天机器人的主要吸引力之一是会话性质。但纳亚克说,这也是一个潜在的陷阱。

他说:“他们听起来像是对这门学科有着丰富的知识的人。”

但如果你对严重的医疗问题有疑问,纳亚克说,把它们带到你的人类卫生保健提供者那里。