新国大张阳教授团队开发精度远超AlphaFold的AI蛋白质互作结构预测算法

慈云数据 2024-03-13 技术支持 136 0

蛋白质是一类由20种不同氨基酸组成的大分子有机化合物,它们是生命体内各种生物活动的最主要的执行者。蛋白质的绝大多数生物学功能都是通过与其它蛋白质的相互作用来实现。因此,蛋白质-蛋白质相互作用(简称‘蛋白质互作’)在生命功能的实现以及生物的进化过程中都扮演极其重要的角色。例如,抗体和抗原蛋白的相互作用,帮助生命个体识别和抵御外界病原体的入侵;受体和配体蛋白的相互作用,触发细胞信号传导通路;转录因子和共转录因子蛋白之间的相互作用,调节基因的转录和基因的修复;酶蛋白和底物的相互作用,催化新陈代谢的进程,等等。正是它们在细胞生物学上的这种特殊重要性,使得蛋白质互作成为许多现代药物设计的关键靶点。

尽管它们的重要性,如何确定蛋白质复合物的三维结构以及如何利用蛋白质互作的结构信息去指导蛋白质功能注解和药物设计,一直是现代生物医学的一个重要问题。在传统的结构生物学研究中,人们可以使用X射线晶体衍射、核磁共振及冷冻电镜等实验手段去解析蛋白质复合物的原子结构。但是结构生物学实验往往耗费大量人力物力,无法用于大规模获取蛋白质组级别的分子结构信息。并且,因为技术上的限制(如结构的稳定性以及高阶复合物的尺度等),某些蛋白质复合物的结构并不能通过传统的结构生物学实验手段获得。近年来,随着AlphaFold2等AI算法在蛋白质结构预测问题上的成功,通过计算手段获得高质量的蛋白质及复合物结构已经成为可能。但是,目前绝大多数AI算法都是通过对已知蛋白结构和基因进化关系的训练和学习来预测蛋白结构。而基因进化的信息主要从现有基因序列的多序列比对(MSA)来获得。因此,这些AI算法的实际预测精度,往往受目标蛋白MSA的质量影响较大,尤其在同源序列较少的孤儿蛋白(orphan proteins)和蛋白质复合物上的表现并不尽如人意。

近日,新加坡国立大学和美国密歇根大学张阳教授团队在顶级科学杂志《Nature Methods》上发表了题为“Improving deep learning protein monomer and complex structure prediction using DeepMSA2 with huge metagenomics data” 的论文。该论文研发了两款新的软件来提高蛋白质互作的结构预测精度。首先,作者开发了DeepMSA2,利用递推动态规划和隐马尔科夫模型算法,从海量宏基因组序列库中快速提取高质量MSA数据。然后利用新开发的DMFold软件构造蛋白质复合物的三维结构。实验结果显示,DMFold/DeepMSA2对蛋白质复合物的结构预测精度要显著优于AlphaFold2等算法。密歇根大学的郑伟博士为该论文的第一作者,张阳教授和P. Lydia Freddolino教授为论文共同通讯作者。

I. 背景介绍

在基于AI的蛋白质及其复合物结构预测中,一个重要的问题就是如何构建多重序列比对或者MSA。因为MSA中包含的基因和蛋白质的共进化信息,可以作为深度学习模型空间约束预测的特征输入。具体来讲,如果在进化过程中,蛋白质的其中一个氨基酸位点发生了突变,且破坏了氨基酸残基间的相互作用,则该蛋白会变得不稳定,拥有该突变的物种不容易存活下来。但是若与其有空间相互作用的氨基酸同时也发生了突变,且这两个突变又能够很好的作用在一起,使得蛋白质结构继续稳定下来,这种生物也就可以继续存活下来。这种现象被称为基因和蛋白质共进化(图1)。因为现存生命个体中的蛋白质都经过了生命长河共进化的洗礼,所以将现有海量蛋白序列进行多序列比对,可以有效推导出蛋白质共进化以及氨基酸空间距离的信息。因此,MSA及共进化信息被广泛应用于基于AI和深度学习的蛋白质三级结构预测中。

图1. 现有蛋白质的多序列比对可以抽取基因历史的共进化信息以及蛋白质残基间的空间结构关系。

蛋白质互作形成的复合物的MSA可以通过“合理”拼接蛋白质单体的MSA获得(图2)。但是,构造有效合理的蛋白质互作MSA需要满足一定条件。首先,单体MSA中的同源序列必须要到达一定的数目,以保证推导单体内部有效共进化信息的统计量。第二也更重要的是,蛋白质互作MSA需要提供蛋白质-蛋白质之间的空间演化信息。具体来讲,一个单体MSA中的同源序列与另一个单体的同源序列之间必须是来自于同一个复合体才能配对。否则,来自非相互作用或彼此相互独立的同源序列之间不存在相互作用的共进化关系,它们的错误配对会对整体的互作MSA以及最后的蛋白质互作建模产生负面的影响。因为目前缺少大标度高质量的蛋白质互作序列数据库供互作MSA的直接搜索,如何从单体MSA构造有效的互作MSA、进而产生高精度蛋白质复合物结构预测仍然是一个重大挑战。

图2. “合理”拼接单体MSA可以构建复合物MSA进而预测蛋白质复合物结构。

在这项研究中,张阳教授团队基于他们此前开发的DeepMSA迭代MSA构建算法,提出了改进版的DeepMSA2算法。DeepMSA2结合了一系列基于大标度宏基因组序列数据库的MSA生成策略,同时介绍了一种新的AI驱动的MSA打分策略来筛选高质量的MSA模型。定量的基准和双盲测试结果都表明,使用了DeepMSA2的结构预测算法DMFold可以构建远超AlphaFold2精度的蛋白质-蛋白质相互作用结构预测。

II. 原理设计

DeepMSA2算法包括DeepMSA2-Monomer单体MSA构建算法和DeepMSA2-Multimer复合物MSA构建算法。

对于蛋白质单体MSA构建,DeepMSA2-Monomer利用三个基于不同搜索策略构建的并行模块(dMSA、qMSA 和 mMSA)从不同的数据库中获取原始MSA。这些搜索策略都是基于动态规划(dynamic programming)和隐马尔科夫模型(hidden Markov model)算法,而数据库则由多个全基因组和宏基因组序列库组装而成。三个MSA生成模块都遵循类似的逻辑:首先在序列数据库检索初始的查询序列,如果未获得足够的有效序列,则对更大的数据库进行迭代搜索。最后利用快速AI蛋白质结构置信系数对三个模块收集到的原始MSA进行打分排序,选择出最佳MSA(图3)。

图3. DeepMSA2-Monomer构建蛋白质单体MSA的流程图

对于蛋白质复互作合物MSA 构建,DeepMSA2-Multimer首先从每条单链数据中选取M个单体MSA,与其它所有N个单链的前M个单体MSA一一配对,从而得到M*N个联合MSA。然后,每个联合MSA中的序列通过连接来自不同组分单链的、具有相同物种起源的蛋白质单体序列来创建复合物的MSA。最后,DeepMSA2根据联合MSA的深度以及单体MSA的AI建模置信系数的综合得分来选择最佳复合物MSA(图4)。

图4. DeepMSA2-Multimer构建蛋白质互作MSA的流程图。

最后,通过将DeepMSA2算法与AlphaFold2端到端结构训练模块的结合,该研究提出了蛋白质单体及复合物三维结构预测算法DMFold。DMFold算法也包括两个部分,蛋白质单体结构预测算法DMFold-Monomer(简称DMFold)和蛋白质复合物结构预测算法DMFold-Multimer。

III. 结果分析

(1) 蛋白质单体结构预测

这项研究首先在蛋白质单体预测问题上与AlphaFold2算法进行了比较。AlphaFold2是谷歌DeepMind团队开发的第二款蛋白质结构预测软件,代表了该领域目前最为先进的AI预测算法。图5展示了DMFold与AlphaFold2在 132个非冗余的困难蛋白质单体上的TM-score比较。TM-score是由张阳实验室首先提出、后来被业界广泛使用的一种用来评估蛋白质结构预测准确与否的指标。TM-score=0代表最差预测,TM-score=1代表预测的和真实的结构一模一样,而TM-score=0.5表示预测的模型和真实结构有着大致相同的拓扑学结构。总的来说,DMFold预测模型的TM-score比AlphaFold2高出5%(0.82 vs 0.78)。特别地,在图5红色框内所示的特别困难蛋白上,DMFold的精度要显著地优于AlphaFold2(0.63 vs 0.52)。

图5. DMFold与AlphaFold2对蛋白质单体结构的预测精度的比较。

图6以一种RNA聚合酶(PDB ID: 6vr4)作为示例,比较了DMFold与AlphaFold2的结构预测精度。首先,AlphaFold2预测出的结构模型的TM-score为0.20,全局pLDDT分数为0.40。而DMFold结构模型的TM-score为0.73,全局pLDDT分数为0.71。pLDDT分数是AlphaFold2用来评估结构预测质量的置信系数,其中,pLDDT≥0.7表示预测的结构可能正确,pLDDT

微信扫一扫加客服

微信扫一扫加客服

点击启动AI问答
Draggable Icon