字节跳动开源AI蛋白模型在多个基准测试优于AlphaFold3、AF2.3和RoseTTAFold2NA（微信文章未删减版）

正文

字节跳动团队AI蛋白领域新作：Protenix - Advancing Structure Prediction Through a Comprehensive AlphaFold3 Reproduction，《Protenix-通过全面的AlphaFold3复制推进结构预测》近日发表在bioRxiv。

-Protenix是字节跳动的开源模型，在预测各种生物分子结构方面实现了SOTA，在多个基准测试中优于AF3、AF2.3和RF2NA。

-该团队完善了AF3的方法论，纠正了错误，分享了复制见解，还改进了置信度头架构，以获得更好的预测准确性。

-Protenix通过开源模型权重、推理和可训练代码以及易于研究集成的综合数据集版本增强了可访问性。

-就性能而言，Protenix在蛋白质配体共折叠、蛋白质界面和核酸靶点预测方面表现出色，即使没有类似的训练结构也显示出高精度。

-案例研究突出了Protenix在生物学和药理学研究中的潜力，尽管局限性表明需要更多的OOD测试来实现普遍性。

研究背景

1.研究问题：这篇文章要解决的问题是如何通过全面的AlphaFold3复现来推进结构预测。尽管AlphaFold 3（AF3）在蛋白质结构预测领域取得了显著进展，但其有限的访问性限制了其在研究社区中的广泛应用。

2.研究难点：该问题的研究难点包括：AF3代码和某些模糊性及打字错误的缺失，这使得其他研究人员难以复现或改进该模型。

3.相关工作：该问题的研究相关工作包括NeuralPLexer、Umol和RoseTTAFold-AA等复杂预测任务的研究。其中，AF3代表了这一领域的重大进步。

研究方法

这篇论文提出了Protenix，用于解决AlphaFold3的访问性问题，并支持跨学科研究社区。具体来说，

1.模型性能：Protenix在预测不同分子类型的结构方面表现出色。通过与AF3、Alphafold-Multimer 2.3（AF2.3）和RoseTTAFold2NA（RF2NA）进行基准测试，Protenix在不同分子类型上的预测性能得到了验证。

2.方法论：Protenix基于AF3的描述进行实现，并对几个模糊步骤进行了细化，纠正了打字错误，并根据对模型行为的观察进行了有针对性的调整。通过共享复现经验，作者希望支持社区在这些改进的基础上进行进一步的研究。

3.可访问性：Protenix是完全开源的，提供了模型权重、推理代码和可训练代码，以便于研究目的。

实验设计

1.数据集：Protenix使用从PDB中策划的实验结构和AlphaFold2及OpenFold预测的蛋白质单体结构进行训练。训练数据集包括Weighted PDB、Protein Monomer distillation（Set1和Set2）以及OpenProteinSet的子集。评估数据集包括PoseBusters V2、Low Homology Recent PDB Set和CASP15 RNA目标。

2.推理和采样：对于每个PDB条目，生成25个样本，每个样本使用5个模型种子生成。推理过程中不应用裁剪，通常使用10次回收。

3.链和原子排列：对每个预测结构进行链映射，以建立预测和真实实体之间的一一对应关系。然后对链和原子进行排列，以更好地对齐预测和真实结构。

结果与分析

1.配体：在PoseBusters V2基准测试中，Protenix在RMSD和PB-Valid指标上均优于AF3-2019，表明Protenix在蛋白质-配体共折叠任务中代表了当前最先进的模型。

2.蛋白质：与AF2.3相比，Protenix在DockQ成功率上表现更高，尤其是在所有蛋白质-蛋白质界面和蛋白质-抗体界面上。

3.核酸：在CASP15 RNA目标上，Protenix的平均LDDT和TM-score与AF3相当，但显著优于RF2NA。Protenix在预测蛋白质-核酸复合物时也表现出更高的准确性。

总体结论

这篇论文介绍了Protenix，一个旨在降低AlphaFold3访问性障碍并支持跨学科研究社区的模型。通过全面的AF3复现和改进，Protenix在蛋白质、配体和核酸的结构预测中表现出色。该模型的完全开源性和提供的资源将有助于推动该领域的进一步发展。未来的工作将集中在进一步提高模型性能、引入额外功能和增强评估工具上。

优点与创新

1.模型性能：Protenix在预测不同分子类型的结构方面表现出色，与AF3、AF2.3和RF2NA相比具有强大的竞争力。作为完全开源的模型，它使研究人员能够生成新的预测并针对特定应用进行微调。