当前位置: 首页 > 新闻 > 国际新闻
国际新闻
里程碑!Science、Nature同日发文,50年生物学难题迎来两款AI产品破局
发布时间: 2021-07-19     来源: 生物探索

在解决蛋白质折叠这一“生物学近50年来的重大难题”方面,顶级期刊《Nature》及《Science》上的研究报告分别为生物学界照进了一束光。

蛋白质(protein)是构成生命体的重要物质,其功能在很大程度上取决于它独特的三维结构。在过去的50年里,“蛋白质折叠问题”一直是生物学界最大的谜团之一。尽管X 射线晶体学和冷冻电子显微镜等实验技术的加入已经帮助确定了约10万种蛋白质结构,但与人体内数十亿已知蛋白质序列的相比,可谓是杯水车薪。

转折出现在2018年,曾开发了著名人工智能围棋程序AlphaGo的人工智能企业DeepMind带来了一种名为AlphaFold的人工智能系统,首次在国际蛋白质结构预测竞赛(CASP)上亮相。而就在2020年的CASP 中,该公司带来了进阶版的AlphaFold2程序击败了大约100个团队,对三分之二的蛋白靶点给出几乎与实验室解析相等的结构预测结果。惊叹于人工智能的卓越,CASP的联合创始人John Moult甚至直言,“从某种意义上说,问题已经解决。”

今天,在解决蛋白质折叠这一“生物学近50年来的重大难题”方面,顶级期刊《Nature》及《Science》上的研究报告分别为生物学界照进了一束光。

DeepMind公司在《Nature》杂志上发表的题为Highly accurate protein structure prediction with AlphaFold的论文中,公开了进阶版的AlphaFold2人工智能系统的源代码,并且详细描述了它的设计框架和训练方法。与初版的AlphaFold相比,AlphaFold2解析蛋白结构的速度有了显著的提升。

DeepMind公司AlphaFold首席研究员John Jumper说:“与去年亮相的AlphaFold2相比,新的程序处理蛋白质结构的速度提升了大约16倍。”

根据蛋白的大小,新版本的AlphaFold2可以在几分钟到几小时内生成准确的蛋白质结构。另外,这一模型还可以根据每个氨基酸对其预测可靠性进行精确预估,有助于研究人员使用其预测结果。

在DeepMind公司公布AlphaFold2框架的同一天,华盛顿大学David Baker研究团队也在Science发表了题为Accurate prediction of protein structures and interactions using athree-track neural network的文章,公布了受AlphaFold2启发研制出来的RoseTTaFold,该程序在解构蛋白质结构方面的表现可与AlphaFold2比肩。



去年,当AlphaFold2在CASP上脱颖而出时,许多结构生物学家感到既兴奋又沮丧,David Baker也是其中之一,他说:“如果有人解决了你正在解决的问题,但没有透露他们是如何做到的,你该如何继续你的工作呢?”

显然,David Baker并没有气馁,而是与同事一起找到了独立于AlphaFold2的新“出路”。他们确定了几项关键进展,包括如何使用与研究人员预测的目标相关的蛋白质信息,某一部分的预测结构如何影响神经网络处理其他相应的序列,并最终带来了RoseTTAFold。



RoseTTAFold的网络架构和性能

与 AlphaFold2一样,RoseTTAFold能够借助人工智能在大量示例数据库中识别模式的能力,在学习时生成更精准和可靠的模型。在给一个新的蛋白质建模时,RoseTTAFold 会沿着多个“轨道”进行,同时考虑蛋白质的氨基酸序列、氨基酸之间的相互作用以及编译蛋白质可能出现的3D结构,通过在轨道间来回“跳跃”从而让程序综合所有信息。

当然,与AlphaFold2相比,RoseTTAFold在准确度上稍微逊色一些。不过,AlphaFold2仅能解决单个蛋白质的结构问题,而RoseTTAFold可用于预测不同蛋白相互结合的结构模型,比如使用IL-12和IL-12受体(IL-12R)的序列预测复合体结构,实验证明最终结果与此前用冷冻电子显微镜解析的结构非常相似。

在《Nature》同日发布的一篇报道中,伊利诺伊州芝加哥大学的计算生物学家 Jinbo Xu 说,这些工具的开源性质意味着科学界应该能够在进步的基础上开发出更强大、更有用的软件,这将推动生物学研究向前迈进一大步。

目前,DeepMind公司承诺会继续分享人工智能预测蛋白质3D结构的方法,并为科学共同体提供广泛、免费的获取途径。而Baker所在的小组也已经公布了其计算机代码,并建立了一个服务器,允许其他研究人员使用。据悉,自从上个月推出以来,该服务器已经预测了大约500人提交的5000多种蛋白质的结构,而计算机代码也已被下载 250 次。

参考资料:

[1]https://www.nature.com/articles/d41586-021-01968-y

[2]https://www.sciencemag.org/news/2021/07/researchers-unveil-phenomenal-new-ai-predicting-protein-structures

[3]https://www.nature.com/articles/s41586-021-03819-2#Abs1

[4]https://science.sciencemag.org/content/early/2021/07/14/science.abj8754

代理服务