科研星球

快来看看这个临床高分思路

将机器学习(ML)用于癌症治疗领域中可以说是相当热门的了,近日小编读到一篇利用ML用于患者个性化疗法的文章,来自韩国浦项科技大学等机构的作者以“ Drug ranking using machine learning systematically predicts the efficacy of anti-cancer drugs” 为题于2021年5月份发表自国际期刊Nature Communications(IF:12.121),研究表明利用机器学习技术或能有效预测抗癌药物的治疗疗效。



图片
图片

一、研究背景

图片
图片


随着癌症靶点的发现和开发以及癌症药物敏感性的基因组学出现和发展,先前的文献就利用此前收集的数据对药物反应的数据来进行机器学习研究来预测不同患者对药物的反应。但由于现有的研究中仅单独地考虑给定药物的生物标记物,不考虑其他药物敏感性相关联,且仅基于癌细胞的遗传信息,从而限制预测准确性。

由于使用大规模的LC-MS/MS蛋白质组学数据生成DL/ML模型之前还没有被系统地研究过。并且有证据表明,蛋白质组学衍生的特征可能比基因组交替更准确地预测药物反应,随着LC-MS/MS吞吐量和无标签串联分析的提高,以及最近大量细胞系和药物的系统性药物反应谱的可用性,因此引入以蛋白质组学和磷蛋白组学数据作为药物反应预测模型输入的机器学习是可行的。

在本次研究中,作者开发了一组使用机器学习的药物排名系统(DRUML),这是一套针对412种不同作用方式和发育阶段药物的预测模型。

DRUML利用蛋白质组学和磷酸化蛋白质组学特征的组合,根据它们在减少癌细胞增殖方面的功效来生成药物列表的机器学习算法,它无需与参考样本进行比较,就能够在癌细胞群体中预测药物排名,对于临床实施ML和实现精确医学至关重要。


图片
图片

二、分析流程

图片
图片



0.jpg

图片
图片

三、结果

图片
图片


1、数据集

作者首先通过运行288次LC-MS/MS分析了26个AML、10个食管癌和12个肝细胞癌细胞系的蛋白质组和磷酸化蛋白质组,将其作为DRUML的输入。为了确保生成的模型能够在不受肿瘤类型影响的情况下质疑敏感性的生物学机制,作者为实体瘤和AML肿瘤样本构建了单独的DRUML模型。


0.png
图1:使用机器学习的药物排名(DRUML)概述。

2、降维

为了减少数据噪声对模型性能的影响,作者通过获得EMDR来降低omics数据集的维度。80%的细胞系样本(训练集)被分为对每种特定药物具有耐药性或敏感性并采用十倍交叉验证的方法来比较蛋白质、磷酸化位点和转录物,通过测量与对BYL-719的耐药性和敏感性相关的磷酸化位点标记的分布用于计算药物应答距离(D值)的总体度量,这是DRUML的一个重要特性,有两个原因:

1. 在验证中或在未来的数据集中进行预测时,平均标记值的使用避免了缺失预测值的问题,因为即使omocs数据集存在缺失值时,仍可计算D值,
2. D值是一个内部标准化度量,通过从给定样本中的两组磷酸化位点、蛋白质或转录物中减去平均信号得到;因此,应用DRUML来预测新的癌症衍生样本的药物反应就不需要与对照或参考样本集进行比较

0 (1).png
图2:使用药物反应经验标记降低维度。

3、BYL-719反应的ML模型

接下来,作者使用上述针对BYL-719获得的给定药物的最高相关D值生成药物反应的预测性ML模型。由于作者不知道哪种学习方法更适合对本次数据集预测药物反应,因此基于不同的学习算法(随机森林等)评估了多种ML(SVM,NNET等)方法的性能。

使用训练集中的样本通过十倍交叉验证(使用均方根标准误差(RMSE)度量作为损失函数)对标准化药物应答(AAC)数据训练回归模型。然后通过使用绝对误差或标准误差(SE)和RMSE(分别针对单个数据点和整体模型性能)比较预测响应与实际响应,在验证集上评估DL/ML模型。

以BYL-719为初始实例,作者评估了不同模型的性能,以来自磷酸化蛋白质组和蛋白质组数据集的D值作为预测因子,其中DL和NNET产生的模型在所有细胞系中具有较小的验证误差(绝对误差)。

4、EMDRs的系统辨识与ML模型生成

将这种方法系统地应用于466种AML和实体癌细胞系中的药物,分别鉴定了1232和1139个磷酸化位点、542和480个蛋白质以及3046和3699个AML和实体模型反应的转录物标记。

与此同时,作者还试图探索EMDRs的生物学相关性。对于每种药物和途径,计算δ富集值作为此类药物和途径的敏感性和耐药性EMDRs富集之间的差异。其中δ富集值的无监督层次聚类将17种PI3K/MTOR抑制剂中的7种分组在一起。

接下来,为了研究本次数据集是否可以用来识别具有相似作用模式的药物,作者关联了所有药物的途径/本体δ富集值,并计算药物对之间的相似性得分。结果表明这些标记物表明了决定药物反应的生物学机制。

0 (2).png
图3:400种以上药物应答的系统经验标记物概述。

5、DRUML模型集合对药物反应进行排序

接下来,作者将AML和实体瘤中获得的磷蛋白组学、蛋白质组学和RNA-seq距离D数据作为输入,构建了466种药物的预测模型。结果显示,DL算法对RMSE < 0.1的实体和AML肿瘤类型的蛋白质组学和磷酸化蛋白质组学数据产生的验证误差更小。

紧接着,作者测试了ML模型是否允许在细胞系内根据预测的疗效对药物进行排序,观察到不同作用模式的药物在细胞模型中的预测和实际反应之间有着非常高的相关性。结果表明,DRUML可用于根据预测的疗效对肿瘤内不同作用方式的药物进行准确排序。

0 (3).png
图4:DRUML根据疗效对药物进行排序的性能和准确性。

6、独立数据集的验证

为了测试该训练数据集生成的模型是否能够从其他组生成的公开的无标记蛋白质组学和磷酸化蛋白质组学数据集预测药物应答,即测试模型的普适性。作者使用新数据集生成D值,作为DRUML模型(使用食管癌和肝癌磷酸化蛋白质组创建)的输入。这一分析预测了389种药物的反应(不同细胞系中的特征药物数量不同),然后将其与药物反应库中药物和细胞系的实验数据进行比较,观察到模型具有显著相关性。

作者还比较了所有药物和排名前20位的药物在给定癌细胞系中药物反应的预测与观察排名,发现最好的学习算法是RF。

0 (4).png
图5:使用独立的磷酸蛋白质组学数据集对DRUML进行准确评估,以根据疗效对药物进行排序。

接下来作者应用DRUML来预测来自不同实体瘤类型的47个细胞系的药物反应。结果表明DRUML可以利用从不同实验室常规LC-MS/MS获得的蛋白质组学数据,准确预测不同作用模式药物对不同病理来源癌细胞的疗效并对其进行排序。

0 (5).png
图6:使用来自47个肿瘤模型和8个病理学的独立蛋白质组学数据集对DRUML根据疗效对药物进行排序的准确性评估。

7、在临床相关样本集中评估DRUML

最后评估DRUML衍生的药物疗效预测是否具有临床相关性。作者预测了AML患者对阿糖胞苷的反应,其中包含36个原发性AML样本25的数据。本组患者采用诱导化疗,由阿糖胞苷与蒽环素联合治疗。获得完全缓解(CR)的AML患者接受低剂量阿糖胞苷E46的巩固治疗。因此,作者推断,经DRUML预测对阿糖胞苷敏感的AML患者的临床总生存率(OS)比预测的耐药患者更高。

0 (6).png
图7:阿糖胞苷核仁模型预测阿糖胞苷治疗急性髓细胞白血病患者的预后


图片
图片

四、讨论

图片
图片


机器学习应用于药物治疗疗效预测的基本思路通常是:利用此前收集的患者对药物反应的数据,并基于癌细胞的遗传信息,分为训练集和测试集,用训练集构建预测模型,用测试集进行预测,之后使用新的数据集进行验证以证明模型的普适性。

利用机器学习来预测药物治疗疗效的文章大多数都是围绕着这个思路展开的,至于作者为什么能发到Nature子刊上,由于NC主要以论著的形式发表原创性研究,无论篇幅如何,强调发表新颖的、重要的、高质量的、读者感兴趣的研究, 所以小编觉得应该是作者创新性的以蛋白质组学和磷蛋白组学数据作为药物反应预测模型的输入的机器学习,这是先前的文章未系统研究过的。


文章作者:普爷i,医学方

没有账号?