首页   

单细胞组学 | 第26期. 一个函数搞定单细胞富集分析!

观科研  ·  · 7 月前

正文

本系列推送旨在带领 生信零基础的科研人一起入门单细胞(核)转录组数据分析。

往期回顾:

MASCU

第1期.单细胞测序:揭开生命奥秘的钥匙

第2期.下游数据质控知多少

第3期.Seurat之PBMC分析标准化流程

第4期.写文章时需要用到的单细胞转录组测序原理

第5期.单细胞测序文件面面观

第6期.10X genomics 上游分析-cellranger介绍

第7期.10X genomics 上游分析-cellranger应用

第8期.一文打通单细胞测序研究思路

第9期.Zenodo一个宝藏公共数据库和单细胞的不解之缘

第10期.生物信息学必须了解的数据库

第11期.不会还有人不知道这个免费一年的云服务吧!?

第12期.单细胞分析数据下载、导入和合并

第13期.单细胞测序中竟然存在双细胞?

第14期.想发单细胞测序文章?这一步必学!

第15期.一份强烈推荐收藏的细胞周期校正宝典!

第16期.不可不知的单细胞流程

第17期. 找到Cluster的领头羊

第18期. 单细胞注释不再是烦恼!

第19期. 单细胞数据分析的核心环节,必学!

第20期. 美无极限——卷起来的UMAP图美化方案

第22期. 单细胞转录组基础分析流程详解
第23期. 单细胞数据分析的灵魂,学起来!
第24期. 找到属于你的细胞亚群!


在本系列的推送中,我们之前给大家分享了:

①单细胞(核)RNA测序的原理

②基于Cellranger的上游分析

③数据下载/导入/合并

④数据质控(包括细胞质控和基因质控)

⑤细胞注释前几个数据处理技能(包括细胞周期矫正、去批次、差异分析)

⑥细胞注释

⑦细胞注释结果可视化(UMAP,气泡图)

⑧差异分析以及细胞分群
⑨细胞比例及展示



上一期分享(第25期. 单细胞亚群细分),我们主要讲解了为什么要对细胞亚群进行更细致的分型,以及如何实现和展示某一类细胞的细分。完成了对细胞进行了定义和注释之后,还有一步很重要的内容,就是去探究不同细胞的生物学功能,从而为后续的研究提供方向,这也就引出了我们今天的内容:富集分析。


本期主要给大家分享以下3个问题:

1)为什么进行富集分析(Why

2富集分析结果有哪些呈现形式What

3)如何完成富集分析并展示How



Part .01

WHY

为什么进行富集分析
单细胞组学 | 22. 单细胞数据分析的灵魂,学起来!的内容中,我们学会了如何进行差异分析。但是大家会发现,FindAllMarkers得到的marker基因,少则几百,多则成千上万。如何从众多的marker基因中去推导其反应的生物学功能,这就是富集分析解决的问题—帮助识别某些基因在特定条件下的共同功能,揭示潜在的生物学机制 ,从而验证实验结果的生物学合理性,并且帮助我们更有针对性地设计后续研究。



Part .02

WHAT

富集分析结果

有哪些常见形式

常见的富集分析包括以下3种,分别为:
1. GO富集分析(Gene Ontology Enrichment Analysis):分析确定基因列表在GO分类的生物过程(BP)、分子功能(MF)和细胞组分(CC)中的富集情况,帮助理解这些基因的功能和在细胞内的定位。
2. KEGG通路富集分析(KEGG Pathway Enrichment Analysis):确定基因列表在KEGG(Kyoto Encyclopedia of Genes and Genomes)通路中的富集情况,帮助理解这些基因在代谢和信号传导等生物学过程中的作用。
3. Reactome通路富集分析(Reactome Pathway Enrichment Analysis):类似于KEGG,但使用的是Reactome数据库。





Part .03

HOW

如何完成富集分析并展示

富集分析的展现形式往往是柱状图或者点图,但是这些图形往往只能展示某一个细胞群体的富集结果。当需要同时分析和展示多种细胞的富集结果时就显得尤为不便,今天我们教大家用一个函数—compareCluster轻松搞定单细胞富集分析!


参照单细胞组学 | 22. 单细胞数据分析的灵魂,学起来!的内容,我们用以下代码得到了各群细胞的maker基因。并且筛选各群排名前100marker基因作为后续分析的基因集,命名为top100_markers_majorcelltype


##按照active_identity求DEGs
all_markers_major                                      only.pos = T, #只会去找某一群特定上调的基因
                                     logfc.threshold=0.25,#倍数的对数的阈值,默认是0.25
                                     min.pct = 0.25)
##选择top DEGs(比如top100)
top100_markers_majorcelltype %
  group_by(cluster) %>%
  top_n(n = 100, wt = avg_log2FC) %>%
  as.data.frame()


1. GO分析

得到了基因列表,接下来使用clusterProfiler进行富集分析。clusterProfiler是个功能非常强大的R包,对于常见的富集分析,都可以用当中的compareCluster()这一个函数完成。之前说到GO分析可以分为生物过程(BP)、分子功能(MF)和细胞组分(CC),这里我们用BP举例:


##GO富集分析,并作图,可使用Gene symbol
BP = compareCluster(gene~cluster,data=top100_markers_majorcelltype, fun='enrichGO'
                      OrgDb = 'org.Hs.eg.db', keyType = 'SYMBOL', ont="BP")#ont参数可选择"BP","MF"和"CC",keyType可选择使用GeneSymbol还是ENTREZID
dotplot(BP, showCategory=2, color = "p.adjust", font.size = 8)+# showCategory可以选择每类细胞展示的条目个数,也可以选择自己感兴趣的条目进行展示
  theme(axis.text.x = element_text(angle=45, hjust=1))+
  coord_flip()#将坐标轴翻转



2. KEGG分析

由于KEGG分析无法使用Gene Symbol分析,所以要将Gene Symbol转换为ENTREZID,但仍然使用compareCluster()dotplot()分析和作图。







    
##将Gene Symbol转换为ENTREZID
genelist $gene, fromType="SYMBOL",
                 toType="ENTREZID", OrgDb='org.Hs.eg.db')
top100_markers_majorcelltype=left_join(top100_markers_majorcelltype,genelist,by=c('gene'="SYMBOL"))#将genelist中的ENTREZID合并至分析表格中
KEGG=compareCluster(ENTREZID~cluster, data=top100_markers_majorcelltype,fun="enrichKEGG",
                     organism='hsa', pvalueCutoff=0.05)
dotplot(KEGG, showCategory=2, color = "p.adjust", font.size = 10)+ # showCategory可以选择每类细胞展示的条目个数,也可以选择自己感兴趣的条目进行展示
  theme(axis.text.x = element_text(angle=45, hjust=1))+
  coord_flip()#将坐标轴翻转



对于Reactome通路富集分析,只需要将KEGG代码中的两个参数改为:fun="enrichPathway",organism = 'human'就可以,是不是非常easy!?关于dotplot的美化,大家可以参考单细胞组学 | 21期 点亮数据星空——Dotplot图绘制技巧揭秘


Conclution

以上就是本期推送的全部内容,大家对于推送内容有任何问题或建议可以在公众号菜单栏“更多--读者的话”栏目中提出,我们会尽快回复!

参考文献:

Han B, Zhou S, Zhang Y, Chen S, Xi W, Liu C, Zhou X, Yuan M, Yu X, Li L, Wang Y, Ren H, Xie J, Li B, Ju M, et al. Integrating spatial and single-cell transcriptomics to characterize the molecular and cellular architecture of the ischemic mouse brain. Science Translational Medicine. 2024;16(733):eadg1323.

期待已久~|R语言与组学互助交流群来啦!



(欢迎大家入群交流~

若群满,请添加下方微信,备注:“R语言与组学_互助交流群” 


写在最后


“观科研”(点击进一步了解我们吧)是由一群北京协和医学院(清华大学医学部)的博士开创的公众号,初心是让医学科研有迹可循,帮助一线的医学科研人员更快地成长,希望大家支持与关注!

如果大家对分享医学科研知识感兴趣,特别欢迎加入我们,期待与您的相遇相识相知,也非常欢迎大家自主投稿,如果您有需要分享的内容或对我们有任何建议,可通过后台留言、公众号菜单栏“更多—读者的话”栏目进一步了解)或发送邮件至mascu_forever@163.com与我们交流并留下个人联系方式,我们会及时与您联系。

如果您觉得我们长期的干货推送对您的科研工作有所帮助,可以在合适的机会致谢(包括但不限于SCI论文、毕业论文等),格式如下:
 The authors thank the support of Skill Learning from Kaixin Doctor and MASCU (Medical Association with Science, Creativity, and Unity), Inc, Shenzhen, China (mascu_forever@163.com).

【大家的支持,是我们持续更新的动力!】


Pay attention!
微信公众号的推送规则发生改变(不再按照时间顺序来显示),如果没有将“观科研”设置为星标,你就可能错失里面的精彩推送。


点击“在看”,可参与讨论哦!


图文:美观
审核:壮观
编辑:直观
责编:静观

© 2024 精读
删除内容请联系邮箱 2879853325@qq.com