浙大于浩然合作Nat Commun｜基于蛋白质语言模型与自动化设施构建蛋白质体外连续进化平台

生信宝典 · 生物 · 17 小时前

正文

遇见/摘要

蛋白质是生命的基础，广泛应用于医药、化工、能源、农业和消费品等领域。然而，为了满足工业需求，蛋白质往往需要经过工程改造，以增强其稳定性、活性、选择性和结合能力。传统的蛋白质工程方法，如定向进化，虽然有效，但通常耗时且劳动密集。近年来，人工智能和自动化设施的发展为优化这些过程提供了新的机遇。近日，浙江大学于浩然研究员、陈华钧教授、张强研究员团队合作在Nature Communications发表了题为“Integrating Protein Language Models and Automatic Biofoundry for Enhanced Protein Evolution”文章。文章报道了一个基于蛋白质语言模型（Protein Language Models, PLMs）与自动化生命铸造厂（iBioFoundry）联合应用所建立的蛋白质体外连续进化平台。通过该平台，研究团队在短短10天内完成了目标酶的四轮进化，成功将酶的活性提升了2.4倍。这一成果不仅为蛋白质工程带来了新的突破，也为未来的工业应用铺平了道路。

遇见/内容

传统蛋白质工程的挑战

传统的蛋白质工程方法，尤其是定向进化，依赖于随机突变和高通量筛选，以筛选具有所需特性的蛋白质突变体。这种方法虽然有效，但存在几个明显的缺点，比如耗时且劳动密集，每一轮进化都需要大量的实验操作，时间成本高。另外，传统定向进化面临局部最优陷阱，由于通常一次只引入一个突变，进化过程容易陷入局部最优，限制了进一步的改进。为了克服这些挑战，研究人员开始探索机器学习（ML）在蛋白质工程中的应用。机器学习辅助的定向进化（MLDE）通过预测携带多个突变的蛋白质变体的适应性，帮助绕过局部最优，实现更大的序列空间跳跃。然而，ML的应用仍然面临数据获取和建模的挑战，尤其是对于多底物酶的功能数据收集与进化。

PLMeAE：蛋白质语言模型驱动的自动化进化平台

蛋白质语言模型（PLMs）是一种基于大规模蛋白质序列数据训练的模型，能够捕捉蛋白质结构和功能的基本规律。PLMs已经在多个领域展示了强大的能力，包括功能蛋白质建模与改造、新型蛋白质设计等。特别是，PLMs可以实现“零样本”优化特定蛋白质，即在不依赖实验数据的情况下，预测高适应性的突变。然而，一个关键问题是：PLMs从自然进化中学习到的信息，是否有助于在特定选择压力下高效进化特定蛋白质？这正是本研究试图回答的问题。

在这项研究中，本团队提出了一种蛋白质语言模型驱动的自动进化平台（Protein Language Model-enabled Automatic protein Evolution, PLMeAE），这是一个在设计-构建-测试-学习（DBTL）循环中用于自动化蛋白质工程的闭环系统。该平台利用蛋白质语言模型（PLM）来助力学习和设计阶段，而构建和测试阶段则由自动化的生命铸造工厂iBioFoundry执行。首先蛋白质语言模型ESM-2通过零样本预测96个变体，启动该循环；然后iBioFoundry对这些突变体进行构建和测试，并将结果反馈给多层感知器MLP，用于训练适应性预测器，进而预测第二轮96个具有更高适应性的突变体，用于进一步测试。

图1 PLMeAE的流程示意图

具体来说，PLMeAE平台通过以下步骤实现蛋白质自动进化

1）设计阶段：PLMs通过零样本学习预测高适应性的蛋白质突变体。在设计阶段，研究团队设计了两个模块，对于没有已知突变位点的蛋白质，PLMs扫描整个蛋白质，预测单点突变；对于已知突变位点的蛋白质，PLMs预测多点组合突变。

图2 基于蛋白质语言模型PLM进行蛋白质零样本设计的两个模块

2）构建和测试阶段：自动化设施iBioFoundry自动构建和测试这些突变体，并将结果反馈给多层感知器（MLP）以训练适应性预测器。 iBioFoundry在合成生物学研究中有着广泛的应用价值，能够提升实验通量、降低实验成本、快速积累优质数据以提高研究效率。研究团队利用iBioFoundry平台执行目标酶突变体的构建和测试流程，包括高通量、自动化的进行PCR扩增，质粒转化，细胞培养，菌落挑选、酶活性测试等。为了提高平台的可靠性，系统在PCR、细胞转化、细胞培养、酶活检测等多个环节设置质量控制，并自动处理异常情况。系统支持96个突变体的同时构建及测试，整个流程从引物合成到酶活性数据检测仅需59小时，实现了高效的酶构建与测试。

图3 iBioFoundry执行构建及测试环节流程图

3）学习阶段：多层感知机MLP模型预测下一轮的高适应性变体，继续进行下一轮进化。通过这种迭代过程，PLMeAE平台能够在短时间内高效探索蛋白质的适应性景观，获得性能提高的蛋白质突变体。为了使得 MLP更好的学习到蛋白质序列和功能之间的关系，研究者开发了一种先进的采样策略Information Transport Complexity（ITC）。基于ITC打分，模型在选择测试的突变体时既考虑突变体预测的活性数值，也考虑所有采样突变体之间的多样性。

图4 基于ITC的蛋白质突变体采样策略

实验结果：pCNF-RS的自动化定向进化

为了验证PLMeAE平台的有效性，研究团队选择了古菌詹氏甲烷球菌的p-氰基苯丙氨酸tRNA合成酶（pCNF-RS）作为模型酶。pCNF-RS是基因密码子扩展技术中的常用工具，广泛用于将非天然氨基酸（ncAAs）引入到蛋白质中，但其对某些ncAAs的掺入效率较低。通过PLMeAE平台，研究团队在四轮进化中共设计了384（96*4）个突变体，并在10天完成了四轮突变体的测试。结果显示，第四轮进化中获得的变体M-R4的酶活性比野生型提高了2.4倍，且表达含有非天然氨基酸pAcF蛋白质产量提高了12.2倍。这一成果显著优于传统的随机选择和定向进化策略。

图5 PLMeAE平台用于氨酰tRNA合成酶的快速进化

PLMeAE的优势与未来应用

PLMeAE平台的成功不仅体现在其高效性上，还体现在其通用性和可扩展性上。与传统的蛋白质工程策略相比，PLMeAE利用PLMs进行零样本预测，并结合监督学习模型探索蛋白质的适应性景观。这种方法不仅适用于已知突变位点的蛋白质，还能通过PLMs发现新的突变位点，进一步优化蛋白质功能。未来，PLMeAE平台有望扩展到更多类型的酶工程中，甚至是那些需要通过高效液相色谱（HPLC）、气相色谱（GC）和质谱（MS）检测活性的酶。随着自动化技术的进一步发展，PLMeAE将为蛋白质工程带来更多突破，推动蛋白质工业应用的快速发展。

结语

蛋白质工程正迎来一个全新的时代，人工智能与自动化技术的结合正在改变这一领域的“游戏规则”。浙江大学团队的这项研究不仅展示了PLMeAE平台在蛋白质进化中的强大能力，也为未来的蛋白质工程提供了新的思路。随着技术的不断进步，我们有理由相信，未来的蛋白质工程将更加高效、精准，将为医药、化工、能源等领域带来更多创新解决方案。

浙江大学国际联合学院研究员张强、浙江大学化学工程与生物工程学院博士生陈婉姨、浙江大学软件学院博士生秦铭为论文共同第一作者，浙江大学化学工程与生物工程学院于浩然研究员，计算机科学与技术学院陈华钧教授为共同通讯作者。该研究得到了浙江省“尖兵”“领雁”研发攻关项目、科技部重点研发计划合成生物学重点专项、国家自然科学基金等的支持。研究同时得到了浙江大学杭州国际科创中心生物与分子智造研究院大仪平台和iBioFoundry自动化设施平台的大力支持。