麻省理工学院 | 大型语言模型有助于解读临床记录

一个理想的系统应该使用一个单一的模型，它可以提取多种类型的信息，在多家医院都能很好地工作，并从少量的标记数据中学习。但如何?麻省理工学院计算机科学和人工智能实验室(CSAIL)的研究人员由电气工程和计算机科学博士候选人Monica Agrawal领导，他们认为要理清这些数据，他们需要用到更大的东西:大型语言模型。为了获取这些重要的医学信息，他们使用了一个非常大的GPT-3风格的模型来完成一些任务，比如扩展过多的术语和首字母缩略词，提取药物治疗方案。

例如，系统接受一个输入(在本例中是一个临床病历)，用一个关于病历的问题“提示”模型，例如“展开这个缩写，C-T-A”。系统返回一个输出，例如“听诊清晰”，而不是说，一个CT血管造影。该团队表示，提取这些干净数据的目的是最终实现更个性化的临床建议。

可以理解的是，医疗数据是一种很难自由导航的资源。由于数据使用的限制，在使用公共资源测试大型模型的性能方面存在大量的繁文缛节，因此该团队决定收集自己的数据。

“开发一个单一的通用临床自然语言处理系统是一项挑战，它将解决每个人的需求，并对健康数据集的巨大变化具有健壮性。因此，直到今天，大多数临床记录还没有用于下游分析或电子健康记录中的实时决策支持。这些大型语言模型方法可能会潜在地改变临床自然语言处理，”David Sontag说，他是麻省理工学院电气工程和计算机科学教授，CSAIL和医学工程与科学研究所的首席研究员，也是一篇关于这项工作的论文的监督作者，这篇论文将在自然语言处理的经验方法会议上发表。“研究团队在零镜头临床信息提取方面的进步使缩放成为可能。即使你有数百个不同的用例，也没有问题——你可以用几分钟的工作构建每个模型，而不是为特定的任务标记大量的数据。”

例如，在没有任何标签的情况下，研究人员发现这些模型在扩展超负荷的首字母缩略词时可以达到86%的准确率，该团队开发了额外的方法，在不需要任何标签的情况下将准确率进一步提高到90%。

被关在电子病历里

一段时间以来，专家们一直在稳步建立大型语言模型(llm)，但随着GPT-3完成句子的能力得到广泛覆盖，它们突然成为主流。这些llm接受来自互联网的大量文本的训练，以完成句子并预测下一个最有可能出现的单词。

虽然以前的较小模型(如早期的GPT迭代或BERT)在提取医疗数据方面取得了良好的性能，但它们仍然需要大量的手工数据标记工作。

例如，一个注释，“pt will dc vanco due to n/v”意味着该患者(pt)正在服用抗生素万古霉素(vanco)，但出现恶心和呕吐(n/v)严重到护理团队停止(dc)药物。该团队的研究避免了为每个任务训练单独的机器学习模型的现状(从记录中提取药物、副作用、消除常见缩写的歧义等)。除了扩展缩写之外，他们还调查了其他四项任务，包括模型是否能够分析临床试验并提取细节丰富的药物方案。

“之前的研究表明，这些模型对提示语的精确措辞非常敏感。我们的部分技术贡献是格式化提示，以便模型以正确的格式提供输出，”CSAIL博士生、论文作者Hunter Lang说。“对于这些提取问题，有结构化的输出空间。输出空间不仅仅是一个字符串。它可以是一个列表。它可以是原始输入的引用。所以有更多的结构，而不仅仅是免费的文本。我们的部分研究贡献是鼓励模型提供具有正确结构的输出。这大大缩短了后期处理时间。”

这种方法不能应用于医院的开箱即用的健康数据:这需要通过开放的互联网将患者的私人信息发送到像OpenAI这样的LLM提供商。作者表明，通过将模型提炼成一个可以在现场使用的更小的模型，可以解决这个问题。

模型——有时就像人类一样——并不总是对真相感恩戴德。潜在的问题可能是这样的:假设你在询问某人服药的原因。如果没有适当的保护和检查，模型可能只输出最常见的服药原因，如果在注释中没有明确提到的话。这导致该团队努力迫使模型从数据中提取更多的引用，减少自由文本。

该团队未来的工作包括扩展到英语以外的语言，创建更多的方法来量化模型中的不确定性，并在开源模型中获得类似的结果。

微软人工智能主管、CVS health人工智能前执行董事Sadid Hasan说:“与一般领域文本相比，隐藏在非结构化临床笔记中的临床信息面临独特的挑战，这主要是由于大量使用首字母缩略词，以及不同医疗机构使用的不一致的文本模式。”“为此，这项工作提出了一个有趣的范式，即利用通用领域大型语言模型的力量来完成几个重要的零次/少次临床NLP任务。具体来说，提出的llm引导提示设计可以生成更结构化的输出，通过迭代利用模型生成的伪标签，可以进一步开发更小的可部署模型。”

“人工智能在过去五年中加速发展，这些大型模型可以预测情境化推荐，并在多个领域产生连锁效应，比如建议新的药物配方、理解非结构化文本、代码推荐或创作受任何数量的人类艺术家或风格启发的艺术作品。”帕敏德·巴蒂亚说，他曾是AWS Health AI的机器学习主管，目前是AWS AI实验室利用大型语言模型进行低代码应用的ML主管。“(该团队)最近推出的这些大型模型的其中一个应用是Amazon CodeWhisperer，这是一个由ml支持的编码伙伴，可以帮助开发人员构建应用程序。”

作为MIT Abdul Latif Jameel健康机器学习诊所的一部分，Agrawal、Sontag和Lang与MIT助理教授、CSAIL首席研究员Yoon Kim以及来自明斯特大学的访问博士生Stefan Hegselmann共同撰写了这篇论文。第一作者Agrawal的研究得到了武田奖学金、麻省理工德什潘德技术创新中心和MLA@CSAIL倡议的支持。