上海交通大学NovelLab实验室
近日,来自斯坦福大学、基因泰克等机构的研究人员在Cell正刊上发表了一篇观点文章,题为《如何用人工智能构建虚拟细胞:机遇和挑战》。文章详细说明了虚拟细胞的概念、功能,以及实现AI虚拟细胞(AIVC)后可开展的广泛下游任务。如今生物信息领域基础模型层出不穷,这篇前瞻观点文章有着很好的启发作用。
过去短短几十年间,生物学领域已经建立了一系列里程碑式的参考数据集:从人类基因组计划开始,经过HapMap、癌症基因图谱(TCGA)、ENCODE计划、基因型-组织表达(GTEx)项目、人类蛋白质图谱(HPA),直到人类细胞图谱(HCA)和各种大规模生物样本库。这些项目不仅提供了海量的训练数据,更重要的是催生了一个新的科学探索范式:通过虚拟模拟来研究细胞生物学。而AIVC这个前瞻概念的提出正是顺应了虚拟模拟这一研究范式。
首先我们来快速看一下什么是生物学意义上的细胞,以及作者提出的人工智能虚拟细胞。如下图所示AIVC类似于生物细胞,在不同物理尺度上模拟细胞生物学,包括分子、细胞和多细胞尺度。在物理维度上,第一个尺度模拟单个分子(如中心法则中的分子以及代谢物等其他分子)的状态和相互作用,分子可以表示为序列或原子结构。下一个尺度将细胞表示为这些分子的集合,例如细胞包含遗传序列、RNA转录物和一些蛋白质。细胞内的分子有特定位置,可能与其功能相关。最后一个尺度模拟细胞之间的相互作用以及它们如何通信并形成复杂组织。每个尺度都依赖于从多模态数据中学习到的通用表示,并整合了前一个尺度的通用表示。
在这个模型基础上,为了捕捉物理细胞、其组件或集合的行为和动态,AIVC由虚拟仪器(Virtual Instrument)组成。例如,在细胞尺度上,操纵器虚拟仪器通过学习通用表示中的转换来模拟细胞状态如何随着细胞分裂、迁移、从祖细胞状态发展或对扰动做出反应而改变。解码器虚拟仪器允许解码细胞通用表示,例如理解表型特性。
这就是AIVC的核心内容,接下来我们对本文进行更加详细的介绍,重点介绍AIVC的研究背景、定义和核心功能、AICVC改变的生物学研究、AIVC的实现路径和展望等等。
1. 全文主要内容概览
细胞对于理解健康和疾病至关重要,但传统模型在对细胞的功能和行为进行建模和模拟方面存在不足。人工智能和组学的进步为创建人工智能虚拟细胞(AIVC)提供了突破性的机会。本文提出的AIVC是一种基于多尺度、多模态的大型神经网络模型,能够代表并模拟不同状态下分子、细胞和组织的行为。这一观点提供了关于其设计的愿景,以及构建AIVC的合作努力将如何通过允许高保真模拟、加速发现和指导实验研究来改变生物研究,为理解细胞功能提供新机会,并促进开放科学中的跨学科合作。
2.研究背景
细胞是生命的基本单位,其复杂性和精密性一直令科学家着迷。每个细胞都是一个动态适应系统,包含数以万计的分子相互作用。某些细胞功能对基因缺失或替换表现出惊人的稳健性,而其他方面却可能因一个点突变就发生显著改变。理解这种复杂性对于生命科学的发展至关重要。
为了更好地理解细胞功能,科学家们一直在尝试构建虚拟细胞模型。传统的细胞建模方法主要基于规则和数学模型,如微分方程、随机模拟等。这些方法在过去取得了重要进展,2012年的一个里程碑是首个全细胞模型的开发,成功模拟了支原体(Mycobacterium genitalium)的482个基因及其分子功能,此后科学家们又相继开发了大肠杆菌等细菌的基因组模型。
然而,传统建模方法面临三大根本性挑战:1)多尺度建模问题-细胞在时空上跨越从原子到组织的多个层次,不同尺度间存在非线性转化;2)组分交互复杂性-细胞功能涉及基因调控、代谢通路等多个过程,每个过程都包含大量以不同构型和状态存在的生物分子;3)非线性动力学-输入的微小变化可能导致输出的复杂变化。
近年来,AI和组学技术的双重革命为构建数据驱动的人工智能虚拟细胞(AIVC)创造了前所未有的机遇。在实验技术方面,测序等高通量技术使生物数据呈指数增长,每6个月翻倍。在计算方面,AI技术的进步使其能够直接从数据中学习模式和过程,无需显式规则,已在预测蛋白质结构等领域取得重大突破。
AIVC有望实现生物学的高保真模拟,帮助研究人员更好地理解癌症发生、发育过程和病毒感染等重要生物学问题。这种突破性技术将扩展生物学研究的范围,加速机制假设的验证,最终推动个性化医疗和药物研发的发展。实现这一愿景需要跨学科合作,包括学术界、慈善机构、生物制药和AI产业的共同努力。
3.AIVC的定义和主要功能
作者提出的“AI虚拟细胞”是一种计算模型,该模型模拟细胞的生物学功能和相互作用。AIVC主要有三个层面的功能。
1. 通用表示(UR):AIVC将生物数据映射到通用表示(UR)空间,促进对共享状态的洞察,并作为综合参考。这些UR应整合三个物理尺度——分子、细胞和多细胞——并容纳来自任何相关模态和上下文的贡献。
2. 预测细胞行为和理解机制:AIVC将通过训练广泛的快照、时间分辨的非干预性和干预性数据集,开发出对自然或工程信号下发生的分子、细胞和组织动态的理解。AIVC应能够预测未在实验室中测试过的扰动响应,同时考虑细胞上下文中的特定特征。
3. 体外实验和指导数据生成:AIVC应能够通过虚拟仪器(VIs)进行查询,模拟在体外难以培养的细胞类型的实验或模拟低成本测量的高通量读数。虚拟实验可用于筛选大量可能的扰动剂,其规模在实验室中是不可能的。
4.构建AIVC的五大挑战
·能力定义与评估体系:我们需要明确界定AIVC应该具备的核心能力,并建立相应的评估标准。这个评估体系不仅要衡量模型的整体性能,更要验证其解决具体生物学问题的能力。评估标准需要与生物学研究目标保持一致,并能随着领域发展而不断优化。
· 跨维度自洽性:生物系统的复杂性体现在多个维度,包括不同的尺度(从分子到组织)、不同的环境背景和不同的测量方式。AIVC必须确保其在这些维度上的预测保持一致性。
· 可解释性与实用性的平衡:深度学习模型通常面临性能与可解释性之间的权衡。AIVC需要在保证预测准确性的同时,通过因果推理等方法提升模型的可解释性。同时,还需要开发直观的交互界面,确保研究人员能够有效地利用模型的预测结果来指导实际研究。
· 协作框架的构建:AIVC的开发需要生物学、计算机科学等多个领域的协同努力。我们需要建立开放的研究平台,促进模型的协作开发和广泛应用。这个平台不仅要服务于科研人员,还要支持科研培训和公众教育,形成一个良性的科研生态系统。
· 普惠性与负责任使用:确保AIVC的发展惠及所有人,同时保证其使用符合伦理规范。这包括生成反映人类多样性的数据集,确保数据使用的透明度,开发民主化的访问接口,以及与伦理监管机构合作制定规范。同时也需要深入理解不同类型数据的价值,优化数据收集策略,为AIVC的发展提供坚实的数据基础。
5.AIVC支持的具体生物学应用
AIVC可以通过整合多层次生物学数据来构建虚拟实验环境,不仅能够加快药物研发过程,降低实验成本,还能优化个性化细胞治疗策略(如1型糖尿病的β细胞替代疗法),这些能力将显著推动精准医疗的发展。
AIVC在癌症研究中的一个重要应用是分析肿瘤微环境的空间结构,它不仅能够帮助我们理解癌细胞如何逃避免疫系统,还能通过整合多种癌症的数据来识别共同特征,从而指导精准治疗方案的制定。这种能力结合了空间生物学和基因组学的视角,为癌症的个性化治疗开辟了新途径。
AIVC通过创建患者的"数字孪生"模型,能够整合基因序列、单细胞图谱、病理图像等多维数据,不仅可以实时监测健康状况,还能通过分析容易获取的组织(如血液)来推断难以直接采样的器官(如胰腺或大脑)的状态,这为个性化医疗诊断开辟了新途径。
AIVC正在改变生物学研究的基本范式:从传统的"提出假设-验证假设"的线性模式,转变为一个动态的、交互式的探索过程。它就像是一个智能研究助手,能够通过虚拟实验同时探索大量假设,并与研究人员持续互动,为科学发现提供更系统和高效的路径。
6.实现AIVC的技术手段
文章提到了一些具体的AI算法,如Transformer、CNN、Diffusion Model和GNN等,供大家参考。
Transformer模型:它的核心是自注意力机制,可以处理一系列离散的信息单元(称为token),这些token可以是RNA分子或基因表示等。这种架构特别适合生物学应用,因为它天然地模拟了生物分子之间的相互作用,比如在单细胞RNA测序中,可以通过self-attention机制来建模基因间的相互作用关系。
CNN:主要用于分析图像数据,通过多层结构自动学习特征的空间层次关系。在生物学领域,它在处理显微镜图像、多重成像和活细胞成像等方面发挥着关键作用,可以跟踪细胞内的动态变化,甚至能识别单个分子的运动。
Diffusion Models:这是一类生成式深度学习模型,通过模拟物理扩散过程,将随机噪声逐步转化为有结构的输出。它们特别适合模拟生物系统的动态变化过程,比如细胞的发育阶段或生物系统对治疗的响应。
GNN:专门用于处理图结构数据,在生物学中有广泛应用,因为很多生物系统天然具有图结构,如蛋白质结构(氨基酸残基为节点,化学键为边)或组织中的细胞(细胞为节点,物理近邻关系为边)。GNN可以通过堆叠多层来捕捉节点间的远程信息传递,这对于理解空间转录组学数据特别有用。
7.展望
生物学领域已经建立了从人类基因组计划到人类细胞图谱等一系列里程碑式的参考数据集,这些宝贵的数据资源为AIVC的发展奠定了坚实的基础。AIVC作为一个融合计算机系统、现代生成式AI和生物学的虚拟实验室系统,不仅仅是一个分析工具,而是正在彻底改变科学研究的方式。它能够打通虚拟实验和实体实验室之间的界限,让研究人员能够在虚拟环境中快速测试假设,再在实验室中验证最有希望的方向,从而建立起更统一和系统的生物学认知框架。AIVC帮助我们以信息处理系统的视角来理解细胞,这种理解已经带来了实质性的突破,如AI模型成功设计出新的CRISPR酶、功能性蛋白质,甚至完整的原核生物基因组。随着细胞和基因组工程工具精度的持续提升,AIVC在生物工程领域的应用将会更加广泛。这项工作的成功开展离不开整个科学界的共同努力,包括数据共享、模型开放、建立统一的评估基准,以及营造持续改进的创新环境。通过安全、道德和可靠的AI技术,结合开放的科学协作模式,我们正在见证生物学研究范式的重大转变,这不仅为解开细胞生命奥秘带来了新的希望,也将持续推动个性化医疗、药物研发、细胞工程和可编程生物学等领域的创新突破。
相关文献:
Bunne, C., Roohani, Y., Rosen, Y., Gupta, A., Zhang, X., Roed, M., ... & Quake, S. R. (2024). How to build the virtual cell with artificial intelligence: Priorities and opportunities.Cell, 187(25), 7045-7063.
高颜值免费 SCI 在线绘图(点击图片直达)
最全植物基因组数据库IMP (点击图片直达)
往期精品(点击图片直达文字对应教程)
机器学习