首页   

字节跳动开源AI蛋白模型在多个基准测试优于AlphaFold3、AF2.3和RoseTTAFold2NA

生信宝典  · 生物  · 昨天

正文

字节跳动团队AI蛋白领域新作:Protenix - Advancing Structure Prediction Through a Comprehensive AlphaFold3 Reproduction,《Protenix-通过全面的AlphaFold3复制推进结构预测》近日发表在bioRxiv

-Protenix是字节跳动的开源模型,在预测各种生物分子结构方面实现了SOTA,在多个基准测试中优于AF3AF2.3RF2NA

-该团队完善了AF3的方法论,纠正了错误,分享了复制见解,还改进了置信度头架构,以获得更好的预测准确性。

-Protenix通过开源模型权重、推理和可训练代码以及易于研究集成的综合数据集版本增强了可访问性。

-就性能而言,Protenix在蛋白质配体共折叠、蛋白质界面和核酸靶点预测方面表现出色,即使没有类似的训练结构也显示出高精度。

-案例研究突出了Protenix在生物学和药理学研究中的潜力,尽管局限性表明需要更多的OOD测试来实现普遍性。

研究背景

1.研究问题:这篇文章要解决的问题是如何通过全面的AlphaFold3复现来推进结构预测。尽管AlphaFold 3AF3)在蛋白质结构预测领域取得了显著进展,但其有限的访问性限制了其在研究社区中的广泛应用。

2.研究难点:该问题的研究难点包括:AF3代码和某些模糊性及打字错误的缺失,这使得其他研究人员难以复现或改进该模型。

3.相关工作:该问题的研究相关工作包括NeuralPLexerUmolRoseTTAFold-AA等复杂预测任务的研究。其中,AF3代表了这一领域的重大进步。


研究方法

这篇论文提出了Protenix,用于解决AlphaFold3的访问性问题,并支持跨学科研究社区。具体来说,

1.模型性能Protenix在预测不同分子类型的结构方面表现出色。通过与AF3Alphafold-Multimer 2.3AF2.3)和RoseTTAFold2NARF2NA)进行基准测试,Protenix在不同分子类型上的预测性能得到了验证。

2.方法论Protenix基于AF3的描述进行实现,并对几个模糊步骤进行了细化,纠正了打字错误,并根据对模型行为的观察进行了有针对性的调整。通过共享复现经验,作者希望支持社区在这些改进的基础上进行进一步的研究。

3.可访问性Protenix是完全开源的,提供了模型权重、推理代码和可训练代码,以便于研究目的。


实验设计

1.数据集Protenix使用从PDB中策划的实验结构和AlphaFold2OpenFold预测的蛋白质单体结构进行训练。训练数据集包括Weighted PDBProtein Monomer distillationSet1Set2)以及OpenProteinSet的子集。评估数据集包括PoseBusters V2Low Homology Recent PDB SetCASP15 RNA目标。

2.推理和采样:对于每个PDB条目,生成25个样本,每个样本使用5个模型种子生成。推理过程中不应用裁剪,通常使用10次回收。

3.链和原子排列:对每个预测结构进行链映射,以建立预测和真实实体之间的一一对应关系。然后对链和原子进行排列,以更好地对齐预测和真实结构。


结果与分析

1.配体:在PoseBusters V2基准测试中,ProtenixRMSDPB-Valid指标上均优于AF3-2019,表明Protenix在蛋白质-配体共折叠任务中代表了当前最先进的模型。

2.蛋白质:与AF2.3相比,ProtenixDockQ成功率上表现更高,尤其是在所有蛋白质-蛋白质界面和蛋白质-抗体界面上。

3.核酸:在CASP15 RNA目标上,Protenix的平均LDDTTM-scoreAF3相当,但显著优于RF2NAProtenix在预测蛋白质-核酸复合物时也表现出更高的准确性。


总体结论

这篇论文介绍了Protenix,一个旨在降低AlphaFold3访问性障碍并支持跨学科研究社区的模型。通过全面的AF3复现和改进,Protenix在蛋白质、配体和核酸的结构预测中表现出色。该模型的完全开源性和提供的资源将有助于推动该领域的进一步发展。未来的工作将集中在进一步提高模型性能、引入额外功能和增强评估工具上。


优点与创新

1.模型性能Protenix在预测不同分子类型的结构方面表现出色,与AF3AF2.3RF2NA相比具有强大的竞争力。作为完全开源的模型,它使研究人员能够生成新的预测并针对特定应用进行微调。

2.方法论:基于AF3的描述,Protenix实现了多个模糊步骤的改进,纠正了打字错误,并根据对模型行为的观察进行了有针对性的调整。通过分享重现经验,支持社区在这些改进的基础上进行进一步的研究。

3.可访问性Protenix已开源,提供了模型权重、推理代码和可训练代码,以便于研究目的。数据发布旨在提供全面的基础,供研究人员重现结果、进行进一步分析或利用数据集进行新应用。

4.数据管道:详细重现了AF3的数据管道,并对一些算法进行了调整以提高性能。

5.模型和训练:对AF3的算法进行了分析和调整,引入了自定义CUDA核函数和混合精度训练等技术,提高了训练效率。

6.评估工具:提供了详细的评估工具和链原子排列方法,确保评估的一致性和公平性。

记录AI蛋白质设计在诺奖背后的人和事


高颜值免费 SCI 在线绘图(点击图片直达)


最全植物基因组数据库IMP (点击图片直达)

往期精品(点击图片直达文字对应教程)

机器学习




© 2024 精读
删除内容请联系邮箱 2879853325@qq.com