学术分享丨Science子刊,AI与生物物理建模相结合,设计新型蛋白质
创始人
2025-03-15 18:21:08

转自 ScienceAI

编辑 萝卜皮

机器学习 (ML) 正在改变计算蛋白质设计的世界,数据驱动方法在实验成功率方面超越了基于生物物理的方法。然而,它们通常被报告为案例研究,缺乏整合和标准化,因此很难进行客观比较。

在最新的研究中,德国莱比锡大学(Leipzig University)的跨学科研究团队在 Rosetta 软件框架内建立了一个精简且多样化的工具箱,用于预测氨基酸概率的方法,以便对这些模型进行并排比较。随后,现有的蛋白质适应度景观被用于在现实蛋白质设计环境中对新型 ML 方法进行基准测试。

这种创新策略可应用于开发新疗法,例如抗体和疫苗,包括用于大流行防范的疗法。「我们迫切需要制定此类模型的描述和可用性标准。」该研究的负责人之一 Clara Schoeder 教授表示,「我们的研究为实现这一目标做出了重要贡献。」

该团队专注于蛋白质设计的传统问题:采样和评分。他们发现,机器学习方法更善于清除采样空间中的有害突变。然而,未经模型微调的评分结果与使用 Rosetta 的评分相比并没有明显改善。得出的结论是,机器学习现在补充了蛋白质设计中的生物物理方法,而不是替代它们。

该研究以「Self-supervised machine learning methods for protein design improve sampling but not the identification of high-fitness variants」为题,于 2025 年 2 月 12 日发布在《Science Advances》。

蛋白质的计算设计与工程是科学界的长期目标,旨在快速生成新型蛋白质药物和材料。传统方法如 Rosetta 通过序列突变、结构预测和优化等工具成功设计了多种蛋白质,而 Rosettas 和 PyRosetta 框架进一步简化了协议开发。然而,蛋白质序列设计仍面临采样和评分两大核心问题。

近年来,ML 方法在蛋白质结构预测、序列设计和工程中取得突破,如 ProteinMPNN 和蛋白质语言模型(PLMs)在纳米材料设计和抗体优化中表现出色。尽管如此,ML 模型是否优于经典生物物理设计算法仍存疑,且复杂的多软件管道易导致技术债务和可重复性问题。

为此,科学家通过将 ESM PLM 家族嵌入 Rosetta,利用 C++ Tensorflow 和 LibTorch 库优化接口,以提升模型的可比性和可移植性。

在新的研究中,莱比锡大学的研究团队测试了新型自监督机器学习方法是否优于 Rosetta 等基于生物物理的方法,并确定了设计项目的最佳实践。

图示:Rosetta 中的 ML 支持框架。(来源:论文)

为此,研究人员利用现有的蛋白质适应度景观数据集对这些工具在常见任务(如提高蛋白质结合亲和力或酶活性)上进行基准测试,评估它们在零样本方法中无需进一步下游训练即可泛化的能力。蛋白质工程活动的两个主要目标是生成候选物(采样突变)然后对这些候选物进行排序(评分突变)。

因此,在大规模诱变数据集上训练预测模型(称为「预言机」),以分析 16 种不同方案的采样和评分行为。简单讲,他们发现,尽管 ML 方法在清除序列空间中的有害突变方面表现更好,但对得到的候选序列进行评分和排序仍然是蛋白质设计中的一项挑战。

图示:采样突变以提高 GB1 的适应度。(来源:论文)

「我们的研究结果表明,没有任何一种人工智能模型或生物物理方法能够完美地解决所有设计问题。」该项目的负责人之一 Jens Meiler 解释道,「未来,我们将不得不仔细考虑将哪种模型用于哪种目的。我们的工作是朝着提高不同方法之间的可比性迈出的第一步。」

具体来说研究人员探索了自监督机器学习(ML)方法在蛋白质工程中的序列采样和评分性能。通过在大型蛋白质适应度数据集上训练 oracle 模型,研究人员发现数据驱动方法在限制序列空间至无害突变方面优于传统方法(如 Rosetta)。

然而,尽管这些方法能够采样高适应度序列,但其预测适应度值与实际值相关性较低,导致难以筛选出最佳候选序列进行实验验证。

这表明采样与评分之间存在紧密关联,且评分指标的不完整性可能影响结果。使用更精确的评分函数(如基于 AF2 的指标)可能部分缓解这一问题,但在复杂案例(如 emibetuzumab 设计)中效果有限。

图示:采样突变用于改善 avGFP 荧光。(来源:论文)

研究目标是找到自监督 ML 方法的最佳实践,以零样本方式设计高适应度蛋白质变体。结果显示,提高采样温度可增加多样性并扩展适应度分布,但未发现单一方法在所有测试用例中表现最优。

基于此,该团队提出两种策略:一是通过低温迭代采样生成少量高适应度变体,适合实验能力有限的情况;二是提高采样温度生成大量候选序列,适合高通量实验。

相比之下,事后使用计算机评分筛选大量变体的策略效果较差。此外,微调预训练模型在复杂功能(如酶活性)预测中显示出优势,而零样本方法在单点突变(如抗体设计)中表现较好,例如 ESM-2 能以 49.6% 的准确率预测种系突变。

图示:评估埃米贝妥珠单抗双重适应度景观的设计方法。(来源:论文)

「通过这一进展,我们可以快速轻松地将人工智能模型与传统方法结合起来,并将它们并列使用。」Meiler 教授解释道,「这大大简化了我们的工作,让我们能够充分利用过去 20 年来 Rosetta 开发的所有基础设施。」

「我们正在研究哪些方法可以可靠地提示可能产生疫苗候选物的氨基酸变化。」 Clara Schoeder 教授说。

该研究的局限性在于依赖计算机验证,且 oracle 模型较为简单,可能无法捕捉复杂突变关系。

未来研究可结合传统方法(如酶工程或抗体设计)进行比较,并探索监督式 ML 模型直接预测蛋白质适应度的潜力。

总体而言,ML 显著改善了序列采样,但评分和排序仍是挑战。不过,研究团队仍然乐观地认为人工智能和生物物理方法的结合将提高蛋白质设计的效率。

论文链接:https://www.science.org/doi/10.1126/sciadv.adr7338

相关报道:https://phys.org/news/2025-02-ai-biophysical-protein.html

【免责声明】转载出于非商业性的教育和科研目的,只为学术新闻信息的传播,版权归原作者所有,如有侵权请立即与我们联系,我们将及时删除。

⚠️
本网站信息内容及素材来源于网络采集或用户发布,如涉及侵权,请及时联系我们,发送链接至2697952338@QQ.COM,我们将第一时间进行核实与删除处理。

相关内容

热门资讯

原创 突... 现年29岁的香港人气女星郑杞瑶,虽然进入演艺圈的时间并不算长,但她的名字却早已为大众熟知。从最初凭借...
新CEO李卫平被查?大润发回应... 来源:证券时报 大润发辟谣。 2月3日,有消息称大润发母公司高鑫零售新任CEO李卫平被警方带走协助调...
消费者和营销人员如何利用“围墙... 报告基于对全球 21 个国家 2.2 万名消费者和 1970 名营销决策者的调研,深入剖析了 “围墙...
商务部国际贸易谈判代表兼副部长... 2月2日,商务部国际贸易谈判代表兼副部长李成钢会见罗技公司首席执行官法贝尔。双方就罗技公司在华业务发...
先导智能取得纠偏装置和电池生产... 国家知识产权局信息显示,无锡先导智能装备股份有限公司取得一项名为“纠偏装置和电池生产设备”的专利,授...
2026年,出版机构该往哪里走... 2026年,出版业的发展路径尚未清晰。一方面,AI不再只是工具,而是重塑出版全链条的关键力量。编校大...
科创正成为“五个中心”共同引擎... 近年来,上海“五个中心”建设持续进位。在已有基础上,加快“五个中心”建设、更好发挥“先手棋”作用的关...
日上集团获得发明专利授权:“一... 证券之星消息,根据天眼查APP数据显示日上集团(002593)新获得一项发明专利授权,专利名为“一种...
南华期货:变更审计签字注册会计... 上证报中国证券网讯 2月3日,南华期货发布公告称,公司近日收到2025年度审计机构天健会计师事务所(...
昀冢科技获得发明专利授权:“电... 证券之星消息,根据天眼查APP数据显示昀冢科技(688260)新获得一项发明专利授权,专利名为“电子...