从ACL 2021中看NLP在医疗领域应用的发展,附资源下载

作者/文龙

今年早些时候,微软宣布以 197 亿美元收购云计算和人工智能软件领导者 Nuance,该公司提供支持电子健康档案的 AI 集成软件,这标志着这家科技巨头加大了在医疗卫生领域的扩张。

电子健康档案具有文本丰富、数据复杂的特性,非常适合 AI 的一个分支——自然语言处理(NLP)。NLP 允许计算机理解非结构化的书面或口头数据,它对提高病历可用性的应用前景激发了医疗卫生领域的商业兴趣。

尽管目前在医疗卫生领域运用 NLP 技术实现自动化仍需要几年的时间,但这一方向在过去五年中无论是在业界还是在学界都取得了广泛的关注。

根据今年 3 月 John Snow Labs 的一份调查报告显示,在受访的医疗公司中有 36% 计划在 2021 年底之前部署 NLP 技术。有行业分析师指出:「NLP 本身不能产生太大影响,但当与诸如计算机视觉等其他前沿算法结合时,可以简化许多流程,发现潜在模式或潜在条件,从而加快做出正确的决策。」

在 ACL 2021 中,NLP 在医疗领域的应用也成为了接收论文中的一大主题,共有 14 篇文章(9 篇 long paper,5 篇 short paper),整理如下。

命名实体识别

A Neural Transition-based Joint Model for Disease Named Entity Recognition and Normalization

摘要:从生物医学文本中识别疾病实体,然后将它们标准化,为许多下游应用提供了巨大的机会。尽管基于多任务学习框架的神经联合模型已经达到了最先进的性能,但由于单独的解码过程,它存在边界不一致问题。此外,它忽略了词汇表中每个概念的丰富信息,这对于实体规范化非常重要。在这项工作中,我们提出了一种基于神经转换的联合模型来缓解这两个问题。在两个公开可用的数据集上进行的实验结果表明了所提出方法的有效性。

论文链接:dx.doi.org/10.18653/v1…

An End-to-End Progressive Multi-Task Learning Framework for Medical Named Entity Recognition and Normalization

摘要:医学命名实体识别(NER)和归一化(NEN)是构建知识图谱和构建 QA 系统的基础,但来自 NER 的错误预测将直接影响 NEN 的结果。因此,NER 模块是整个系统的关键。为了克服现有模型的缺点并利用两个广义表示,我们设计了一个端到端的渐进式多任务学习模型,以有效的方式联合建模 NER 和 NEN。两个公开可用的医学文献数据集的实证结果证明了我们的方法优于九种传统的方法。

渐进式任务可以通过增量任务设置减少错误传播以提高性能。利用上下文特征来丰富NER提取的实体mention的语义信息。将知识库中的标准实体引入到NER模块中,以正确提取相应的实体。

论文链接:dx.doi.org/10.18653/v1…

Fine-grained Information Extraction from Biomedical Literature based on Knowledge-enriched Abstract Meaning Representation

摘要:从科学文献中提取生物医学信息提出了两个独特而重要的挑战。首先,科学论文中的句子通常在知识点之间具有更广泛的上下文。另外,科学实体的理解细粒度迫切需要特定领域的背景知识。在本文中,我们提出了一种新的生物医学信息提取模型来应对这两个挑战,并从英文研究论文中提取实体。在 GENIA 2011 数据集上的实验表明,抽象含义表示和外部知识分别贡献了 1.8% 和 3.0% 的绝对 F 分数增益。为了评估我们的方法对涉及特定主题的现实世界问题的影响,我们还为 COVID-19 科学文献的实体提取创建了一个新的本体和带注释的语料库,它可以作为生物医学信息提取的新基准。

使用边缘条件图注意力网络为生物医学信息提取任务构建抽象含义表示(AMR)图。从外部知识库构建句子级知识图谱,并用它来丰富 AMR 图。

论文链接:dx.doi.org/10.18653/v1…

关系抽取

Joint Biomedical Entity and Relation Extraction with Knowledge-Enhanced Collective Inference

摘要:从生物医学文本中提取信息需要更广泛的领域知识。然而,先前的许多提取信息的方法在推理过程中没有利用任何外部知识。受人类如何查找相关信息以理解科学文本的启发,我们提出了一种新颖的框架,利用外部知识进行联合实体和关系提取,称为 KECI(知识增强集体推理)。在两个不同的基准数据集上进行实验,结果表明该框架非常有效。

给定输入文本,KECI 首先构造一个初始跨度图,表示其对文本的初始理解;然后,使用实体链接形成一个知识图,包含文本中提到的实体的相关背景知识;为了做出最终预测,KECI 使用注意力机制将初始跨度图和知识图融合成更精细的图,并通过使用图卷积网络将全局关系信息集成到本地表示中。

论文链接:dx.doi.org/10.18653/v1…

Entity Enhancement for Implicit Discourse Relation Classification in the Biomedical Domain

摘要:隐式话语关系分类是一项具有挑战性的任务,特别是当文本域不同于标准训练语料库域时。我们在这里处理生物医学领域的隐式话语关系分类任务,结果表明实体信息可用于改进话语关系参数表示。

论文链接:dx.doi.org/10.18653/v1…

决策支持系统

Competence-based Multimodal Curriculum Learning for Medical Report Generation

摘要:医学报告生成任务的目标是生成长而连贯的医学图像描述,与一般的图像字幕任务不同,医学报告生成对于数据驱动的神经模型更具挑战性。这主要是由于1)严重的数据偏差和2)有限的医学数据。为了减轻数据偏差并充分利用可用数据,我们提出了一个基于能力的多模式课程式学习框架(CMCL),模拟放射科医师的学习过程,逐步优化模型。在公共 IU-Xray 和 MIMIC-CXR 数据集上的实验表明,CMCL 可以合并到现有模型中以提高其性能。

首先,CMCL 估计每个训练实例的难度,评估当前模型的能力;接着,CMCL 考虑当前模型能力选择最合适的训练实例批次。通过以上两个步骤的迭代,CMCL 可以逐步提高模型的性能。

论文链接:dx.doi.org/10.18653/v1…

Writing by Memorizing: Hierarchical Retrieval-based Medical Report Generation

摘要:医学报告生成是医学图像分析中最具挑战性的任务之一。尽管现有方法已经取得了可喜的结果,但它们要么需要一个预定义的模板数据库来检索句子,要么忽略医疗报告生成的层次性。为了解决这些问题,我们提出了 MedWriter,它结合了一种新颖的分层检索机制,可以自动提取报告和句子级模板,以生成临床准确的报告。我们分别在自动评估数据集 Open-I 和人工评估数据集 MIMIC-CXR 上验证了我们模型的有效性。

MedWriter 首先使用 VLR 模块来检索给定图像的最相关报告;接着,引入 LLR 模块来根据之前生成的描述检索相关的句子,保证了生成的句子之间的逻辑连贯性;最后,语言解码器融合图像特征和检索到的报告和句子的特征,生成有意义的医学报告。

论文链接:dx.doi.org/10.18653/v1…

Attentive Multiview Text Representation for Differential Diagnosis

摘要:我们提出了一种文本表示方法,可以通过有效的数据融合和注意力策略来组合相同输入的不同视图(表示)以进行排名。我们的模型可以应用于鉴别诊断问题,该问题旨在使用来自未确诊疾病网络的数据找到与患者临床描述相匹配的最可能的疾病。论文链接:dx.doi.org/10.18653/v1…

自动问答系统

A Gradually Soft Multi-Task and Data-Augmented Approach to Medical Question Understanding

摘要:医学问答系统的用户经常提交冗长而详细的问题,使得在答案检索中很难达到高召回率。为了缓解这个问题,我们提出了一种新的多任务学习 (MTL) 方法,用于医学问题理解的数据增强。我们表明我们的方法在 4 个低资源设置下比单任务学习更好。

首先使用医学定义在问题摘要和识别问题内涵 (RQE) 任务之间建立等价关系。基于这种等价性提出了一种数据增强算法,仅使用一个数据集来优化两个任务,并带有加权 MTL 损失;并引入逐渐软参数共享:解码器参数接近的约束随着移动到最高层而逐渐放松。

论文链接:dx.doi.org/10.18653/v1…

On the Generation of Medical Dialogs for COVID-19

摘要:在 COVID-19 大流行下,出现相关症状的人迫切需要咨询医生。由于医疗专业人员短缺,很多人无法及时接受在线咨询。为了解决这个问题,我们的目标是开发一个可以提供 COVID-19 相关咨询的医疗对话系统。为了减轻过拟合,我们开发了一种多任务学习方法,它使用掩码标记预测任务规范数据不足的对话生成任务。我们收集了医生和患者之间关于 COVID-19 对话的两个对话数据集(英文和中文)——CovidDialog,并在该数据集上实验证明了我们方法的有效性。我们对生成的对话执行人工评估和自动评估,结果表明,生成的回答很有希望像医生一样,与对话历史相关,临床信息丰富且正确。

论文链接:dx.doi.org/10.18653/v1…

预训练模型

SMedBERT: A Knowledge-Enhanced Pre-trained Language Model with Structured Semantics for Medical Text Mining

摘要:最近,通过注入知识事实来增强预训练语言模型(PLM)的语言理解能力,其性能得到了显着提高。对于医学领域,因为文本中有大量的医学术语及其复杂的关系,背景知识特别有用。在这项工作中,我们介绍了 SMedBERT,这是一种在大规模医学语料库上训练的医学 PLM,并结合了来自链接实体邻居的深度结构化语义知识。实验表明,SMedBERT 在各种知识密集型的中国医疗任务中明显优于强大的基线。它还提高了其他任务的性能,例如问答、问题匹配和自然语言推理。

在 SMedBERT 中,mention-neighbor hybrid attention 用来学习异构实体信息,将实体类型的语义表示注入到同构的相邻实体结构中。

论文链接:dx.doi.org/10.18653/v1…

数据集

CLIP: A Dataset for Extracting Action Items for Physicians from Hospital Discharge Notes

摘要:护理的连续性对于确保从住院医院环境中出院的患者获得积极的健康结果至关重要,而改善信息共享可能会有所帮助。为了共享信息,护理人员会写出包含要与患者及其未来护理人员共享的行动项目的出院记录,但由于文件冗长,这些行动项目很容易丢失。在这项工作中,我们描述了我们在 MIMIC-III 上注释的临床行动项目数据集 CLIP 的创建,MIMIC-III 是最大的公开可用的真实临床笔记数据集。CLIP 涵盖 718 个文档,10 万个句子。

论文链接:dx.doi.org/10.18653/v1…

MedNLI Is Not Immune: Natural Language Inference Artifacts in the Clinical Domain

摘要:我们调查了一个医生注释的数据集 MedNLI,发现矛盾假设的特点是对前提的明确否定和通过良好健康断言的隐含否定。对抗性过滤表明在对困难子集进行评估时性能会下降。我们为知识密集型领域的替代数据集构建策略提供分区信息和建议。

论文链接:dx.doi.org/10.18653/v1…

Learning Domain-Specialised Representations for Cross-Lingual Biomedical Entity Linking

摘要:将外部特定领域知识注入预训练语言模型 (LM) 提高了它们处理专业领域任务的能力。然而,如此丰富的专业知识仅适用于少数几种语言。在这项工作中,提出了一个新的跨语言生物医学实体链接任务(XL-BEL)并建立了一个跨越 10 种不同类型语言的新 XL-BEL 基准。

论文链接:dx.doi.org/10.18653/v1…

参考内容:

healthtechmagazine.net/article/202…

aclanthology.org/events/acl-…

© 版权声明
THE END
喜欢就支持一下吧
点赞0

Warning: mysqli_query(): (HY000/3): Error writing file '/tmp/MYRPiLn1' (Errcode: 28 - No space left on device) in /www/wwwroot/583.cn/wp-includes/class-wpdb.php on line 2345
admin的头像-五八三
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

图形验证码
取消
昵称代码图片