EasyMetagenome工作流程概述与软件介绍
我们的流程从Illumina原始测序读长开始,随后进行数据预处理、基于读长的分析、基于组装的分析和分箱。最终的数据将通过R脚本进行统计分析和可视化。
简要来说,质量评估可以使用FastQC(https://www.bioinformatics.babraham.ac.uk/projects/fastqc/)进行。Illumina原始双端序列使用fastp软件进行质量控制。然后,使用KneadData(https://huttenhower.sph.harvard.edu/kneaddata)去除宿主序列,生成清洁的微生物组读长。接着,使用FastQC重新检查清洁读长的质量。物种分类使用Kraken2进行,并估算物种丰度。基因家族和功能通路的相对丰度通过HUMAnN2或HUMAnN3确定。
与此同时,清洁读长使用MEGAHIT或metaSPAdes进行组装。随后,组装的重叠群将通过两种主要途径进行分析。对于基于组装的分析,使用QUAST评估重叠群质量。使用MetaProdigal进行基因预测,通过CD-HIT评估和去除基因冗余,使用Salmon进行基因定量。使用KEGG Ortholog (KO)、碳水化合物活性酶(CAZy)和同源蛋白簇(COG)数据库,利用eggNOG进行微生物组功能注释。抗生素抗性基因也通过ResFams数据库和RGI进行检测。基因的物种注释则使用Kraken2软件。
对于分箱,MAGs通过MetaWRAP中的‘binning’和‘bin_refinement’模块获取。通过dRep处理冗余MAGs,丰度矩阵通过CoverM获取,使用GTDB-tk计算系统发育关系,MAGs的完整性和污染率通过CheckM2估算。MAGs的功能基因注释则再次使用eggnog-mapper、DIAMOND和RGI进行。
EasyMetagenome分析的数据集选择与质量控制
为了展示 EasyMetagenome 的功能,我们对已发布的数据集进行了分析,包括一组人类肠道微生物群样本和一组环境微生物群样本,突出展示了该流程在不同样本类型中的多功能性和可视化能力。对于人类肠道样本,数据集包含三个组别:年轻组(23-47岁)、老年组(85-89岁)和百岁组(100岁以上),每组有六个样本,性别比例相等(表S1)。对于环境样本,我们选择了四个堆肥阶段(冷却、成熟、中温和高温),每个阶段有四个样本(表S2)。这些数据集的详细NCBI序列号可以在表S1和表S2中找到。
所有原始数据都使用 fastp v0.24.0进行了质量控制,随后使用 KneadData v0.12.0 隔离高质量的微生物读长数据,将人类读长数据映射到 GRCh37 人类参考基因组并通过 Bowtie2(v2.5.1;参数:--very-sensitive --dovetail)去除。清洁后的读长数据随后使用 FastQC v0.12.1 进行了质量评估。接着,使用三种互补的方法——基于读长的分析、基于组装的分析和基于分箱的分析——对清洁后的微生物读长数据进行了分析,展示了 EasyMetagenome 流程生成可用于发表的高质量可视化结果的能力。
EasyMetagenome用已发布宏基因组数据基于读长进行分析
在基于读长的分析中,使用高质量的微生物读长进行物种水平的群落谱系分析,利用 MetaPhlAn4 v4.0.6对 mpa_vOct22_CHOCOPhlAnSGB_202212 数据库进行比对,在默认参数下获得所有分类学层级。此外,功能分析通过 HUMAnN3 v3.7进行。随后,应用各种 EasyMetagenome 脚本来可视化这些结果:‘metaphlan_hclust_heatmap.R’ 生成了不同组间各分类学层级分布的热图,‘graphlan_plot54.r’ 则展示了组内整体的分类学结构。此外,‘otu_mean.R’ 计算了组间丰度平均值,‘sp_vennDiagram.sh’ 创建了韦恩图,‘metaphlan_boxplot.R’ 生成了各组不同分类级别的相对丰度箱线图。在 alpha 多样性分析中,使用 ‘otutab_rare.R’ 计算了丰富度、Chao1、ACE、Shannon、Simpson 和Inverse Simpson 等指数,‘alpha_boxplot.R’ 则生成了这些指标的箱线图。应用 ANOVA 和 Tukey 的 HSD 检验来评估差异的显著性并确定 P 值。在 beta 多样性分析中,使用 ‘usearch10’ 计算了 Bray-Curtis、欧氏距离、Jaccard 和曼哈顿距离,并通过 ‘beta_pcoa.R’ 将结果可视化为 PCoA 图,使用 PERMANOVA 和 ADONIS 检验评估统计显著性并计算 P 值。‘tax_stackplot.R’ 脚本用于生成各组之间分类组成的堆叠图,而 ‘compare_stamp.R’ 用于比较两组之间分类丰度差异。此外,‘sp_pheatmap.sh’ 计算了功能通路丰度差异,HUMAnN3 v3.7中的 ‘humann_barplot’ 被用来可视化各组中特定通路的分类学组成。
物种分类使用 Kraken2 v2.1.3进行,采用默认设置和预构建的 PlusPF 数据库,同时使用 Bracken v2.7估计物种丰度,以细化物种级丰度估计。Kraken2 和 MetaPhlAn4 都可以用于分类学谱系分析,但它们采用了不同但互补的方法和参考数据库。Kraken2 使用基于 k-mer 的分类方法,将读长与标准数据库或用户构建的数据库进行比对。相比之下,MetaPhlAn 通过将读长与特定克隆标记基因数据库对齐来进行分类。为了充分利用每种方法的优势,EasyMetagenome 包含了来自两种方法的可视化结果。对于 Kraken2方法获取的数据,我们将其输出格式转换为与 MetaPhlAn 的结构相匹配,并应用上述相同的可视化方法,以生成基于 Kraken2 结果的分类注释结果图。
基于组装的EasyMetagenome宏基因组分析在已发表数据中的应用
在基于组装的分析中,使用 MEGAHIT v1.2.9进行高质量的微生物读长数据的 de novo 组装,随后使用 QUAST v5.0.2评估组装结果。使用 MetaProdigal v2.6.3进行基因预测,组装的重叠群通过 CD-HIT v4.8.1进行聚类,设置 95% 的相似度和 90% 的覆盖度(-aS 0.9 -c 0.95)。接着,使用 Salmon v1.8.0测量每个样本中重叠群的丰度。蛋白功能,包括 KEGG Ortholog (KO)、CAZy和 COGs,基于 eggNOG v5.0 数据集使用 eggNOG-mapper工具进行注释。使用 ‘format_dbcan2list.pl’ 结合 ‘summarizeAbundance.py’生成汇总的丰度表格。随后,使用 R 语言可视化跨四个类别的基因功能注释,按不同层次对注释的功能基因进行分类,并比较不同组之间微生物组的功能模块丰度差异。
使用EasyMetagenome流程对已发布宏基因组数据中的宏基因组组装基因组进行分箱
对于分箱,使用 MEGAHIT v1.2.9组装的重叠群,通过 MetaWRAP v1.3.2中的‘binning’和‘bin_refinement’模块进行 MAGs 分箱。具体而言,使用‘binning’模块 (--metabat2 --maxbin2) 将重叠群聚类为宏基因组 bin,然后使用‘bin_refinement’模块 (-c 50 -x 10) 进行精细化。之后,使用 dRep v2.6.2对精细化后的 bins 进行去重处理,参数设置为‘-sa 0.95 -nc 0.3 -p 16 -comp 50 -con 10’。接着,使用 CoverM v0.6.1 获得去重基因组在各个样本中的丰度矩阵。
精细化 bins 的分类通过使用 GTDB-tk v2.4.0 (r214) 数据库中的‘gtdbtk classify_wf’模块进行,并通过‘gydbtk infer’模块推断它们的系统发育关系。使用 CheckM2 v1.0.1估算 MAGs 的完整性和污染率,依据以下阈值选择高质量 MAGs:高质量:≥ 90% 完整性和 ≤ 5% 污染率(对于某些环境样本,可能需要根据实际情况进行调整);中等质量:> 50% 完整性和 ≤ 5% 污染率;低质量:< 50% 完整性。随后,使用 eggnog-mapper v2.1.6、DIAMOND v2.0.13和 RGI v5.2.0对高质量 MAGs 进行功能注释,功能类别包括 KEGG Ortholog (KO)、CAZy 和 COGs。最后,使用 R语言可视化 MAGs 的基因组质量,进行系统发育分析,并展示 MAGs 的分布及其功能基因注释结果。
Alistipes putredinis的基因组结构与泛基因组分析
在获得所有样本的MAG注释结果后,我们从人类肠道宏基因组数据中选择了Alistipes putredinis(Alistipes putredinis MAG)进行单菌基因组注释和泛基因组分析,因为其具有较高的完整性(96.23%)和较低的污染率(0.67%)。对于单菌基因组注释,我们首先使用Bakta v1.9.4对Alistipes putredinis MAG进行注释。获得基因组注释结果后,我们将注释文件导入Proksee软件进行进一步分析和可视化。我们还计算了GC偏度,以评估所选基因组中鸟嘌呤(G)和胞嘧啶(C)的相对含量,并使用mobileOG-db进行Alistipes putredinis的其他基因组注释,以识别移动直系同源群。
对于泛基因组分析,我们使用anvi’o v8对Alistipes putredinis的组装基因组进行分析,结合了Alistipes putredinis MAG和14个来自NCBI的公开可用Alistipes putredinis分离株(表S3)。这15个Alistipes putredinis基因组用于通过anvi’o v8中的“anvi-gen-重叠群-database”功能构建重叠群数据库。随后,使用“anvi-run-hmms”功能提取细菌单拷贝基因信息,并使用“anvi-run-ncbi-cogs”功能获得NCBI COG功能注释。我们将来自人类肠道微生物群样本的短读序列映射到构建的重叠群数据库,并分别使用Bowtie2和samtools对招募到的读长进行排序。通过从不同年龄组招募宏基因组短读序列后,我们使用“anvi-profile”功能处理招募文件,并生成包含重叠群数据库的基因覆盖和检测信息的profile数据库。这些profile被合并为每个样本的单一数据库,通过“anvi-import-collection”功能将重叠群重叠群与其各自的基因组连接起来。最后,我们使用“anvi-gen-genomes-storage”功能进行基因组存储,并使用“anvi-pan-pangenome”功能生成Alistipes putredinis的泛基因组。随后,使用anvi’o交互界面中的“anvi-display-pan”功能可视化泛基因组。
在获得Alistipes putredinis的泛基因组后,我们将基于泛基因组分析中检测到的所有基因簇进行的Alistipes putredinis基因组聚类与基于系统基因组学的聚类进行了比较,后者是使用从1,322个核心基因中筛选出的40个核心基因进行的。为了进一步评估基因组相似性,我们使用fastANI v1.34计算了Alistipes putredinis MAG与其他14个已发布的Alistipes putredinis基因组之间的平均核苷酸相似度(ANI)。此外,为了检查Alistipes putredinis泛基因组的功能组成,我们展示了通过COG数据库识别的所有Alistipes putredinis基因组中具有异常高AG(accessory genomes)比率的基因。