生物细胞里有三种大分子:DNA、RNA和蛋白质。DNA和RNA记录了生物的遗传信息,但真正在细胞里面执行功能的是蛋白质。人体内约有10万种以上的蛋白质,每种蛋白质都有自己特定的功能,但它们都是由20种氨基酸按不同比例组合而成,各种氨基酸在蛋白质里折叠成特定的三维结构,正是这个三维结构决定了每种蛋白质的功能。
因此,对蛋白质的三维结构的解析,对于深入理解蛋白质功能、人体生理现象、内在机制、疾病归因和药物研发等都起着关键性的作用。这就是为什么几十年来,科学家千方百计地想搞清各种蛋白质的三维结构的原因。
图库版权图片,转载使用可能引发版权纠纷
乍看之下,大部分蛋白质都像一团杂乱无章挤在一起的原子,但仔细看看则会发现其实它们都是按照一定层次组织起来的复杂结构。在最底层,一些氨基酸通过肽键结合在一起,组成一些多肽链,多肽链内部的氨基酸序列,被称为蛋白质的一级结构。然后,不同的多肽链又通过氢键连接,折叠成简单的形状,如螺旋状或环状等,这种结构被称为蛋白质的二级结构。
接下来,在更大的层面上,螺旋或环又进一步折叠成一个三维空间内紧凑的结构,被称为蛋白质的三级结构。所有蛋白质都有三级结构,三级结构跟蛋白质的稳定性关系最大,如果三级结构被破坏,蛋白质就会失去部分或全部功能。部分蛋白质还有四级结构,
传统实验室观测蛋白质结构的方法主要有三种,即核磁共振、X射线晶体学、冷冻电镜,但这些方法往往依赖昂贵的设备,还要反复试错,搞清楚每种蛋白质的三维结构都需要花费数年时间。人体内约有10万种以上的蛋白质,被科学家解析过三维结构的少之又少,为了对大量未知的蛋白质展开研究,必须发明全新的方法,比如,在搞清蛋白质的一级结构之后,就利用人工智能对它的二级、三级、四级结构进行预测。
2018年,人工智能正式参与蛋白质三维结构的预测,在其中大显身手,它速度极快,能用几天甚至仅仅几分钟就预测出以前要花费数十年才能得到的具有高置信度的蛋白质结构,极大地促进了生物化学、细胞生物学、遗传发育、神经生物学、微生物学、病理药理等领域的发展。
2023年10月9日,国际顶级学术期刊《自然》旗下子刊《机器智能》发表了百度飞桨螺旋桨联合百图生科研发的文心生物计算大模型的一项成果,提出了全球首个开源、提供在线服务、无需MSA输入的蛋白结构预测大模型HelixFold-Single。这是百度在生物计算领域的又一突破性成果,打破了AlphaFold2等主流模型依赖 MSA检索的速度瓶颈,创新了新的人工智能训练方案,将蛋白结构预测速度平均提高数百倍,实现了秒级别的预测。以门蛋白7et2_H(蛋白长度697)为例,用AlphaFold2预测其结构需要1280秒(超过21分钟),而HelixFold-Single只需要11秒,速度提高了115倍。
人工智能大模型技术正驱动生物计算领域的高速发展,可以帮助生命科学领域的研究人员更便捷、更高效地工作,进行更多开拓性的研究,例如探索针对特定癌症、病毒类感染疾病的治疗方法,开发新的抗生素、靶向药,或者研发更高效率的工业酶等,为人类健康与产业发展贡献源源不断的价值。