谷歌DeepMind又在全球赛事中击败人类!AI成功预测蛋白质3D结构
在 AlphaGo 征服了 Atari 经典游戏,并在国际象棋和中国围棋中达到超人表现之后,DeepMind 现在将其人工智能转向了人类科学中最棘手的医疗领域。现在,DeepMind 或许已经实现了预测功能。
在 12 月 2 日坎昆举行的会议上,组织者宣布,在第 13 届全球蛋白质结构预测竞赛(Critical Assessment of protein Structure Prediction,CASP)上,DeepMind 的最新人工智能程序 AlphaFold 击败了所有人:成功预测生命基本分子——蛋白质的三维结构。CASP 也被认为是蛋白质结构领域“奥林匹克竞赛”。
“蛋白质折叠”是一种令人难以置信的分子折纸形式,它非常神秘,是一个具有深远意义的问题,在科学界之外很少有人讨论。所有生物都是由蛋白质构成的,蛋白质的结构决定了它的功能。当 AI 了解了蛋白质的折叠方式,我们可以期待人类进入科学和医学的新时代。
正如 DeepMind 联合创始人兼首席执行官 Demis Hassabis 表示,“对我们来说,这是一个非常关键的时刻。这是一个灯塔项目,是我们在人力和资源方面的第一个重大投资。这也是非常重要的、现实世界的科学问题。”
图丨 Demis Hassabis(来源:谷歌)
AI 为什么要读懂蛋白质?
在计算机的世界里,只有 0 和 1。而从某种程度上来说,生命的本质其实就是 4 中不同碱基的排列组合。
包含整个生命密码的 DNA,仅有 4 种碱基组成。这 4 种不同碱基的排列组合,翻译出 64 种密码子(每 3 个相邻 mRNA 碱基构成一个密码子),这 60 多个密码子又对应着整个地球生命系统中仅有的 20 多种氨基酸,而 20 多种氨基酸的排列组合,构成了数万至数亿种不同的蛋白质。
蛋白质是一切生命系统的物质基础,密切参与着从触发免疫反应到大脑思考的每一个生理过程。如果把基因比作构成生命的配方,那么蛋白质就是构成生命的材料。没有蛋白质,也就没有生命。
与 DNA 密码不同的是,真正决定不同蛋白质性质和功能的,除了不同氨基酸的排列组合,更重要的是氨基酸链的 3D 结构。氨基酸链扭转、弯曲构成不同的蛋白质,因此,具有数百个氨基酸的蛋白质可能呈现出数量惊人的不同结构:10 的 100 次方个,或 1 后 300 个 0。
图 | 从 DNA 到蛋白质 3D 结构(图片来源:http://profacgen.com)
蛋白质只有正确折叠为特定的 3D 构型,才能发挥相应的生物学功能。而蛋白质四级结构结构的折叠,受到大量非共价相互作用(如氢键,离子键,范德华力和疏水作用)的影响,想要从分子水平上了解蛋白质的作用机制,就需要精确测出蛋白质的 3D 结构。
为了研究蛋白质结构而发展起来了结构生物学,在短短 60 多年的历史中,已经采用了包括 X 射线晶体学、核磁共振、冷冻电镜等技术来解析蛋白质结构。
1959 年佩鲁茨和肯德鲁对血红蛋白和肌血蛋白进行结构分析,解决了三维空间结构,并因此获得 1962 年诺贝尔化学奖。之后豪普特曼和卡尔勒建立了应用 X 射线分析的以直接法测定晶体结构的纯数学理论,在晶体研究中具有划时代的意义,特别在研究大分子生物物质如激素、抗生素、蛋白质及新型药物分子结构方面起了重要作用,因此而获得 1985 年诺贝尔化学奖。2017 年诺贝尔化学奖授予发明了冷冻电镜技术的三位科学家,以奖励其对探明生物分子高分辨率结构的贡献。
但是,对于想要更深层次理解生命现象过程,以及更复杂的药物研发而言,仅靠这种“观察”的手段来研究蛋白质的结构,实在是难以满足需求,对于一种复杂蛋白质结构的测定,往往需要耗费大量的时间和成本,甚至还不一定准确。
理论上来说,知道了 DNA 序列,就已经决定了其能够翻译出的氨基酸序列和蛋白质结构,但想要实现这种预测,中间涉及的计算难以想象。而近年来随着基因测序技术和人工智能的发展,使通过氨基酸序列来预测蛋白质结构成为可能。
图丨 DeepMind 官网对 AlphaFold 的报道
AlphaFold 完胜人类
全球蛋白质结构预测竞赛(CASP),由美国科学家约翰·莫尔特(John Moult)于 1994 年发起,每两年举办一届,旨在吸引计算机科学、生物物理学等不同领域的专家参与到蛋白质三维结构预测这一极具挑战性的生物信息学问题中来,共同评估发展现状和讨论未来的趋势。
而这次,完虐人类的 AI,也将目光转移到了蛋白质三维结构预测。由 DeepMind 开发的 AI 程序“AlphaFold”参加了最新一届的蛋白质结构预测评估竞赛。
竞赛过程中,工作人员会将氨基酸序列交给每一个团队。而这些蛋白质的结构事先已经被复杂而昂贵的传统方法破解了,但尚未公开。最终提交最准确预测的团队将赢得比赛。
首次参赛的 AlphaFold 在 98 名参赛队伍中排名第一,其预测的 43 种蛋白质中有 25 种蛋白质的结构最准确,而排名第二的团队中只有 3 种。
(来源:DeepMind)
为了开发 AlphaFold,DeepMind 用数千种已知蛋白质训练神经网络,直到它可以独立预测氨基酸的 3D 结构。对于新蛋白质,AlphaFold 使用神经网络预测氨基酸对之间的距离,以及连接它们的化学键之间的角度。接着,AlphaFold 调整结构以找到最节能的氨基酸布置。该程序花了两周时间预测它的第一个蛋白质结构,但现在只需几个小时就能将其预测出来。
蛋白质的 3D 结构取决于它所含氨基酸的数量和类型,结构也决定了蛋白质在体内的作用。例如,心脏细胞上折叠的蛋白质,能识别血液中的肾上腺素,并使心率上升。免疫系统中的抗体也是折叠成特定结构的蛋白质,这些蛋白质可以阻挡入侵的细菌。从收缩肌肉、感知光线到将食物转化为能量,几乎身体的每一个功能,都可以追溯到蛋白质的结构和运动。
通常情况下,蛋白质具有最高效的结构,但它们折叠错误,就会导致糖尿病、帕金森症和阿尔茨海默病等疾病。如果科学家能够从化学成分中预测蛋白质的结构,他们就可以弄清楚这些蛋白质的作用以及它们是如何造成伤害的,并设计出新的蛋白质抗击疾病或履行职责。例如,可以设计新蛋白质解决环境中的塑料污染。
(来源:麻省理工科技评论)
在比赛中,雷丁大学研究员 Liam McGuffin 领导了英国得分最高的学术团体。他说,“今年 DeepMind 似乎已经推高了竞赛标准,我很想知道更多关于他们的预测方法,虽然我们资源不足,但我们仍然可以保持竞争力。”
“预测蛋白质折叠结构的能力是一个大问题。它对解决许多 21 世纪的问题具有重大意义,它会对健康、生态、环境产生重大影响,并基本上解决所有涉及生命系统的问题。包括我们在内的许多团体多年来一直在使用基于机器学习、深度学习和人工智能的方法,这些正在产生越来越重要的影响。我很乐观地认为,我们将在 20 世纪 20 年代真正解决这一领域的问题”,McGuffin 说。
Hassabis 表示,我们还有很多工作要做。“我们还没有解决蛋白质折叠问题,预测只是第一步。蛋白质折叠是一个极具挑战性的问题,但我们有一个很好的系统,我们还有一些尚未实施的想法。”
“后 AlphaGo 时代”的 DeepMind,抢跑 AI+生命科学领域
DeepMind 被全世界人民所熟知是在 2016 年。当时,他们所开发的 AI 算法 AlphaGo 击败了围棋世界冠军李世石,之后又在 2017 年于中国打败了顶级棋手柯洁。在正是在那场乌镇围棋峰会上,Hassabis 表示,AlphaGo 将退役,但 DeepMind 的 AI 探索仍将继续。
游戏是 DeepMind 人工智能项目的良好测试基地,但征服游戏并不是他们的最终目标。Hassabis 也不止一次曾在公开场合表态,团队的目标是开发类似解决生命科学问题、发现新材料、帮助探索宇宙的算法。按照 Hassabis 的设想,在接下来十年,AlphaGo 的迭代产品将成为科学家和医学专家,与人类并肩工作,这将会有可能对我们的生活产生根本性的影响。
而纵观 DeepMind 于 2018 年公开发表过的 AI 论文,不少正是其将人工智能应用于生命科学领域研究的重要成果。
(来源:DeepMind)
在 DeepMind 非常关注的脑科学领域,今年 5 月 9 日,团队在世界顶级学术杂志 Nature 上发表了一项重磅成果,利用深度学习复现生物的空间导航能力,够协助传统的神经科学研究来测试大脑工作原理。其开发出的的一个人工智能程序具有类似哺乳动物一样的寻路能力,非常类似大脑中网格细胞的工作原理。
另一项 DeepMind 发布的人工智能、神经科学跨领域重要成果,则是使用 AI 领域中的元强化学习框架,用来研究大脑中多巴胺在我们学习过程中起到的作用。这一新发现有望颠覆传统的神经科学研究方法,提供了一个全新的视角。研究发表在今年 5 月的 Nature 子刊上。
而在疾病诊断上,今年 8 月发表在 Nature Medicine 的一项研究中,DeepMind 和 Moorfields 眼科医院共同开发的 AI 算法可以识别 50 多种不同的眼部疾病,且与人类临床医生一样准确,并且有可能通过减少检查和诊断所需的时间来显着改善现有的医疗困境。“这是一个非常令人兴奋的里程碑,也是临床医生和技术人员共同努力的可能性的另一个迹象,”DeepMind 当时表示。
(来源:麻省理工科技评论)
除了论文发表以外,DeepMind 目前也在与多家医疗机构合作,开发新的医疗项目,包括与美国退伍军人事务部 (U.S. Department of Veterans Affairs) 合作开发人工智能技术,与 英国国家医疗服务体系(NHS)合作开发 AI 医疗应用程序等。
但是,作为谷歌旗下最受关注的 AI 公司之一,DeepMind 仍颇具争议:公司研发投入巨大且一直未实现盈利,与 NHS 合作的项目涉嫌医疗数据使用不当等问题。当然,DeepMind 这些问题也不单单是这一家 AI 公司正在面临的问题,2018 年,DeepMind 在该领域的学术研究“初露锋芒”之后,2019 年我们可以期待“后 AlphaGo 时代”的 DeepMind 如何继续实现它的使命。
参考: