研究人员使用强大的深度学习模型从电子健康记录中提取重要数据,以帮助进行个性化医疗。
电子健康记录 (EHR) 需要一位新的公共关系经理。十年前,美国政府通过了一项法律,强烈鼓励采用电子健康记录来改善和简化护理。
这些现已数字化的记录中的大量信息可用于回答超出临床试验范围的非常具体的问题:对于这种身高和体重的患者,这种药物的正确剂量是多少?具有特定基因组特征的患者呢?
不幸的是,大多数可以回答这些问题的数据都被困在医生的笔记中,充满了行话和缩写。使用当前技术,计算机很难理解这些注释——提取信息需要训练多个机器学习模型。为一家医院训练的模型在其他医院也不能很好地工作,并且训练每个模型都需要领域专家来标记大量数据,这是一个耗时且昂贵的过程。
一个理想的系统将使用一个单一模型,该模型可以提取多种类型的信息,在多家医院运行良好,并从少量标记数据中学习。但是怎么办?
麻省理工学院计算机科学与人工智能实验室 (CSAIL) 的研究人员由电气工程和计算机科学博士研究生 Monica Agrawal 领导,他们认为,要理清数据,他们需要调用更大的东西:大型语言模型。为了提取重要的医疗信息,他们使用了一个非常大的 GPT-3 样式模型来执行诸如扩展超载的行话和首字母缩略词以及提取药物治疗方案等任务。
例如,系统接受一个输入,在本例中是临床笔记,“提示”模型关于笔记的问题,例如“扩展这个缩写,CTA”。系统返回诸如“听诊清晰”之类的输出,而不是说 CT 血管造影。该团队表示,提取这些干净数据的目的是最终实现更个性化的临床建议。
可以理解,医疗数据是一种很难自由导航的资源。由于数据使用限制,使用公共资源测试大型模型的性能存在大量繁文缛节,因此该团队决定自己拼凑。他们使用一组简短的、公开可用的临床片段拼凑了一个小数据集,以评估大型语言模型的提取性能。
“开发一个单一的通用临床自然语言处理系统来解决每个人的需求并且对健康数据集中的巨大变化具有鲁棒性是一项挑战。因此,直到今天,大多数临床笔记都没有用于下游分析或电子健康记录中的实时决策支持。这些大型语言模型方法可能会改变临床自然语言处理,”麻省理工学院电气工程和计算机科学教授、CSAIL 和医学工程与科学研究所的首席研究员 David Sontag 说,他也是一篇关于这项工作的论文的指导作者,将在自然语言处理经验方法会议上发表。
“研究团队在零样本临床信息提取方面的进步使扩展成为可能。即使你有数百个不同的用例,也没问题——你可以用几分钟的时间构建每个模型,而不必为该特定任务标记大量数据。”
例如,在根本没有任何标签的情况下,研究人员发现这些模型在扩展超载首字母缩略词时可以达到 86% 的准确率,并且该团队开发了其他方法将准确率进一步提高到 90%,而且仍然不需要标签。
被在 EHR 中
一段时间以来,专家们一直在稳步构建大型语言模型 (LLM),但它们凭借 GPT-3 广泛覆盖 的句子补全能力一跃成为主流。这些 LLM 接受了来自互联网的大量文本的训练,以完成句子并预测下一个最有可能的单词。
虽然以前的较小模型(如早期的 GPT 迭代或 BERT)在提取医疗数据方面取得了良好的性能,但它们仍然需要大量的手动数据标记工作。
例如,注释“pt will dc vanco due to n/v”表示该患者 (pt) 正在服用抗生素万古霉素 (vanco),但恶心和呕吐 (n/v) 严重到足以让护理团队停止(dc) 药物。
该团队的研究避免了为每个任务训练单独的机器学习模型的现状(从记录中提取药物、副作用、消除常见缩写的歧义等)。除了扩大缩写外,他们还调查了其他四项任务,包括这些模型是否可以解析临床试验并提取细节丰富的药物治疗方案。
“之前的工作表明,这些模型对提示的精确措辞很敏感。我们的部分技术贡献是一种格式化提示的方法,以便模型以正确的格式为您提供输出,”CSAIL 博士生和该论文的作者 Hunter Lang 说。
“对于这些提取问题,有结构化的输出空间。输出空间不仅仅是一个字符串。它可以是一个列表。它可以是原始输入的引述。因此,结构不仅仅是自由文本。我们的部分研究贡献是鼓励模型为您提供具有正确结构的输出。这大大减少了后处理时间。”
该方法不能应用于医院开箱即用的健康数据:这需要通过开放的互联网将私人患者信息发送给像 OpenAI 这样的 LLM 提供商。作者表明,可以通过将模型提炼成一个可以在现场使用的较小模型来解决这个问题。
模型——有时就像人类一样——并不总是受制于真相。潜在问题可能如下所示:假设您要询问某人服药的原因。如果没有适当的护栏和检查,如果注释中没有明确提及任何内容,该模型可能只会输出该药物的最常见原因。这导致团队努力迫使模型从数据中提取更多的引述,减少自由文本。
该团队未来的工作包括扩展到英语以外的语言,创建额外的方法来量化模型中的不确定性,以及使用开源模型得出类似的结果。
“与一般领域文本相比,隐藏在非结构化临床笔记中的临床信息面临着独特的挑战,这主要是由于大量使用首字母缩略词,以及不同医疗机构使用的不一致的文本模式,”微软 AI 负责人兼 AI 前执行董事 Sadid Hasan 说在 CVS Health,他没有参与这项研究。
“为此,这项工作提出了一个有趣的范例,利用通用领域大型语言模型的力量来完成几个重要的零样本/少样本临床 NLP 任务。具体来说,为生成更多结构化输出而提出的 LLM 引导提示设计可以通过迭代利用模型生成的伪标签进一步开发更小的可部署模型。”
“人工智能在过去五年中加速发展,以至于这些大型模型可以预测情境化建议,并在各个领域带来好处,例如建议新药配方、理解非结构化文本、代码推荐或创作受启发的艺术作品任何数量的人类艺术家或风格,”Parminder Bhatia 说,他曾是 AWS Health AI 的机器学习负责人,目前是 AWS AI 实验室利用大型语言模型的低代码应用程序机器学习负责人。