编辑 | 萝卜皮
药物-药物相互作用(DDI)的预测可以揭示联合用药中药物之间潜在的不良药理反应。
学界已经提出了各种方法来解决这个问题。然而,他们大多专注于传统的药物之间的联系预测,忽略了冷启动场景。此外,它们仅限于推断是否发生 DDI,但无法推断出多种 DDI 类型,这在临床中很重要。
西北工业大学的研究人员提出了一种针对单一类型和多种类型药物-药物相互作用的冷启动预测模型,称为 CSMDDI。CSMDDI 不仅可以预测两种药物是否会引发药理反应,还可以预测它们在冷启动情况下会引发什么反应类型。
研究人员在 CSMDDI 中实现了几种嵌入方法,包括 SVD、GAE、TransE、RESCAL,并将其与最先进的多类型 DDI 预测方法 DeepDDI 和 DDIMDL 进行比较以验证性能。对比表明,CSMDDI在冷启动情景下的发生预测和多类型反应预测的情况下都取得了良好的DDI预测性能。
并且该方法不仅能够预测传统的二元 DDI,还能够预测它们在冷启动场景中引发的反应类型。更重要的是,它学习了一个映射函数,该函数可以将药物属性连接到其网络嵌入以预测 DDI。CSMDDI 的主要贡献包括开发了一个通用框架来预测冷启动场景中的单类型和多类型 DDI,以及针对单类型和多类型 DDI 的几种嵌入模型的实现。
该研究以「Predict multi-type drug–drug interactions in cold start scenario」为题,于 2022 年 2 月 16 日发布在《BMC Bioinformatics》。
背景
药物-药物相互作用 (DDI) 是两种或多种不同药物一起服用时在人体中发生的药理反应。这些反应有可能对患者有害。
根据美国疾病控制与预防中心2010年发布的报告,美国约有10%的患者正在服用五种或五种以上的药物,几乎是2000年的两倍。在同一时期,服用至少两种药物的人数从四分之一增加到人口的三分之一。欧洲也有类似的统计数据。
然而,在临床试验阶段无法确定许多 DDI 的事实增加了药物不良反应 (ADR) 的风险。美国医学会的一份报告显示,每年约有 44,000 至 98,000 人因用药错误而死亡。在死亡病例中,约有 7000 人死于 ADR,已成为美国仅次于心脏病、癌症和中风的第四大死因。因此,在药物被批准或给药之前预测未知的 DDI 非常重要。然而,通过生物或药理学检测来检测 DDI 的成本很高。通过计算方法预测 DDI 有助于在临床试验期间识别潜在的 DDI。
根据药理需要,DDIs预测可分为单型预测和多型预测。前一个任务可以看作是一个二元分类,它预测两种药物之间是否相互作用。到目前为止,许多 DDI 预测方法都集中在这类任务上。多类型DDIs预测的任务可以看成是一个多类分类,它不仅预测两种药物之间是否存在相互作用,还输出它的具体类型。
对于这项任务,科学家已经拥有了几种解决方法,但是,已有的方法只关注需要推断具有批准相互作用的药物之间的新相互作用的场景。由于 DDI 通常被组织成一个网络,因此该场景可以看作是网络科学中的普通链路预测。因此,可以通过嵌入 DDI 网络将药物表示为向量,并且将嵌入空间中的封闭药物视为相互作用对。
然而,这些方法无法处理需要预测不在 DDI 网络中的新药相互作用的冷启动场景。冷启动 DDI 预测分为两类:S1 和 S2。S1 预测新药与网络中药物之间的相互作用,而 S2 预测新药之间的相互作用。
冷启动 DDI 预测的主要障碍是生成新药的嵌入。与普通DDI预测相比,冷启动DDI预测面临新药与DDI网络中现有药物无关联的难题。因此,我们不能利用网络拓扑为新药生成嵌入表示。
一些研究人员目前正试图通过将药物化学或药理学特性与药物嵌入联系起来,来解决这个问题。例如,Shi 团队使用 SVD 方法得到药物的 embedding 表示,然后在冷启动条件 S1 和 S2 下进行单类型 DDI预测。Celebi 团队评估了几种知识图嵌入方法的性能,包括 TransE,用于 S1 和 S2 中的单一类型 DDI 预测。Yu 团队使用非负矩阵分解方法来预测 S1 中的单一类型 DDI。
在最新的研究中,西北工业大学的研究人员提出了一种用于冷启动场景下单类型和多类型 DDI 预测的计算模型,命名为 CSMDDI。在这个模型中,他们使用基于 RESCAL 的方法来获取药物和 DDI 类型的嵌入表示,然后学习映射函数将药物属性连接到它们的嵌入以预测 DDI。
CSMDDI 模型
CSMDDI 模型的计算框架包含三个步骤,下图所示。
第一步是学习药物(现有药物)在 DDI 网络中的嵌入表示。采用了几种最先进的嵌入方法,包括 SVD、GAE、TransE 和 RESCAL。在这一步中,DDIs 网络中的每种药物都被嵌入为一个向量。
第二步是学习一个映射函数,它将药物的属性与它们的嵌入表示联系起来,并从现有药物中生成。随后,研究人员将映射函数应用于不在网络中的新药的属性,以获得它们的嵌入表示。这一步是处理冷启动场景的核心。
第三步是预测新药与现有药物之间的单型和多型相互作用。以现有药物和新药物的嵌入向量作为输入,预测分数由预测器输出,分数越高表明该药物对中发生相互作用的概率越高。
图示:CSMDDI模型的计算框架。(来源:论文)
单一类型 DDI 的预测
单一类型 DDI 预测的比较结果如下表所示,CSMDDI 后缀代表 CSMDDI 中应用的不同嵌入方法,粗体突出表示最佳性能。
在这里,由于训练TransE需要负样本抽样,研究人员遵循一种通用的负样本抽样策略,该策略通过按照均匀分布随机替换DDI三元组中的尾部来生成负样本,并保持负样本数等于正样本数。
表:单一类型 DDI 的预测结果。(来源:论文)
从表中可以看出,与 CSMDDI-SVD、CSMDDI-GAE 和 TransE + RandomForest 相比,CSMDDI-RESCAL 在 S1 和 S2 中的性能最好。
多类型 DDI 的预测
由于 SVD 和 GAE 不适用于多类型 DDI 预测,研究人员只比较 CSMDDI 与 TransE + RandomForest、DeepDDI 和 DDIMDL。下表中显示了预测结果,最好的以粗体突出显示。在表 3 中,CSMDDI-RESCAL 的 AUPR 和 F1 得分均在 S1 中取得了优异的表现。对于 AUPR,它与其他人相比提高了 12% 以上,在 F1-micro 指标上提高了 8% 以上。
表:多类型 DDI 的预测结果。(来源:论文)
然而,CSMDDI-RESCAL 的 AUC 低于 DeepDDI 和 DDIMDL,原因是 DeepDDI 和 DDIMDL 正确预测了更多的阴性样本,而 CSMDDI-RESCAL 正确预测了更多的阳性样本,导致 S1 中 CSMDDI-RESCAL 的 AUPR 和 F1 得分优于其他模型,但 AUC 较低。
每种 DDI 类型的性能可视化
为了进一步说明 CSMDDI 的有效性,研究人员还将每种 DDI 的结果可视化。有 86 种 DDI 类型分布在圆的圆周上,序列号代表不同类型的 DDI。它按照它在数据集中出现的频率排序,即类型 1 表示最高频率,类型 86 表示最低频率。
从下图可以看出,在不同的模型中,相同的 DDI 类型预测略有不同,但不同模型的曲线趋势相对一致,尤其是在 CSMDDI、DeepDDI 和 DMLDDI 中。CSMDDI 在大多数类型中也取得了良好的性能,尤其是在 AUPR 指标中。
图示:不同方法的所有 DDI 类型的 AUC 和 AUPR。(来源:论文)
研究人员还可以发现,一些 DDI 类型在比较方法之间的结果并不一致。比如 DDI type 26,CSMDDI的 AUPR 很高,而 DeepDDI 的 AUPR 很低;DDI type 66,CSMDDI 的 AUPR 很低,而 DeepDDI 的 AUPR 很高。为了分析原因,他们绘制了 DDI 类型 26 和 66 的子图。
图示:DDI 26 型和 66 型的子图。(来源:论文)
经统计分析,DDI 26 型有 94 个药物节点,平均度数为 16.7,而 DDI 66 型有 32 个药物节点,平均度数为 1.9,其拓扑结构为星形结构。
通常,具有相对密集边缘的网络有助于训练并且更容易预测。这是因为嵌入模型可以很容易地捕捉到网络结构特征。
而对于像 DDI type 66 这样的星型结构网络,学习和预测并不容易。原因是这种网络类型的平均度太小,导致嵌入学习不足。这也是链接预测研究领域难以解决的难题。
结语
药品安全是日常医疗实践中最热门的话题之一,尤其是在批准新药或质疑药品退出市场的可能性方面。为了有效地预测 DDI,研究人员提出了 CSMDDI 模型,用于冷启动场景中的单类型和多类型 DDI 预测。
在 CSMDDI 中,研究人员使用 RESCAL 嵌入方法来获得药物和 DDI 类型的嵌入表示。然后学习网络拓扑和药物属性之间的映射函数,可以将新药物属性与其嵌入联系起来。这一步是处理冷启动场景的核心。通过比较其他嵌入方法与 DeepDDI 和 DDIMDL,CSMDDI 在冷启动场景下的单类型和多类型 DDI 预测中均取得了良好的性能。
未来,更多的网络嵌入模型将在 CSMDDI 中进行测试,可能会在不同的条件下(不同大小的数据集,不同目标的预测任务)找到性能最佳的模型,以满足现实世界中的不同需求。
数据集和源代码:github.com/itsosy/csmd…