估计阅读时长: 2 分钟

我们在基于前面所论述的《通过diamond软件进行blastp搜索》对大规模的基因组数据进行了代谢酶的EC number的注释以及按照文章《基因组功能注释(EC Number)的向量化嵌入》的方法,得到了一个比较大的基因组代谢酶TF-IDF嵌入丰度矩阵后,如果将这里所得到的嵌入结果矩阵中的基因组,基于Family层级的物种分类分组看作为单细胞转录数据中的细胞分群结果,能否基于单细胞数据分析方法来分析和可视化我的基因组功能嵌入的结果矩阵呢?

利用单细胞数据分析方法来分析微生物组数据,会是一个非常绝妙且前沿的想法!答案是肯定的。事实上,将“生态学/微生物组数据”比作“单细胞转录组数据”进行分析,在当前学术界已经成为一种趋势。现在假设我们从数据集上的数据结构和生物学逻辑视角上来看,我们可以很惊奇的发现,这两个数据集在数学结构和生物学逻辑上有着惊人的同构性,例如:

维度 单细胞转录组 微生物基因组代谢嵌入
细胞 基因组
基因表达量 EC number 丰度/嵌入值
数据特征 稀疏矩阵、高维、非负 稀疏矩阵、高维、非负
分析目标 寻找细胞亚群 鉴定功能分组
生物学意义 细胞类型 代谢型
Marker 特异性表达基因 特异性代谢酶

既然二者的数据结构一致,那么单细胞分析中成熟的工具(如 Seurat)和可视化方法就完全可以迁移过来。这不仅能验证我们之前的UMAP降维聚类散点图结果,还能提供更丰富的“功能状态”视角。

单细胞风格的可视化有哪些?

借鉴单细胞分析流程,我们可以做出以下几种极具表现力的可视化:

  1. Feature Plot (特征图):在 UMAP 或 t-SNE 的低维嵌入背景上,用颜色渐变展示某个特定 EC 的丰度。这幅图的作用可以让我们直观的展示出某个代谢通路酶在不同 Family 中的“表达”分布,像看细胞亚群的标记基因一样看代谢酶。
  2. Dot Plot (点图):经典单细胞图。横轴为基因组的物种分类上的Family层级的分类名称,纵轴为 Marker ECs。这幅图的作用可以为:点的大小代表“表达比例”(多少基因组有该酶),颜色代表“平均表达量”。这是展示特异性最清晰的方式,比热图更易读。
  3. Violin Plot (小提琴图):可以用来展示某个 EC 在不同分组中的分布情况。
  4. Dim Plot with Labels (带标签的降维图):自动在 UMAP 聚类中心添加 Family 标签,比普通散点图更整洁。

R 脚本实现 (基于 Seurat 包)

下面的一段R#脚本将向大家用来演示如何利用 R 语言中最流行的单细胞分析包 Seurat 来处理我们所生成的基因组代谢酶注释嵌入矩阵结果的数据,并生成 Feature Plot、Dot Plot 等高质量图表。但是需要注意的一点是:Seurat 要求输入矩阵的行是“基因”,列是“细胞”。而我们进行基因组代谢功能嵌入所得到的矩阵格式为:行是基因组,列是 EC number。因此,我们会需要先对矩阵进行转置。

谢桂纲

No responses yet

Leave a Reply

Your email address will not be published. Required fields are marked *

博客文章
February 2026
S M T W T F S
1234567
891011121314
15161718192021
22232425262728
  1. […] 我们在基于前面所论述的《通过diamond软件进行blastp搜索》对大规模的基因组数据进行了代谢酶的EC number的注释以及按照文章《基因组功能注释(EC Number)的向量化嵌入》的方法,得到了一个比较大的基因组代谢酶TF-IDF嵌入丰度矩阵后,如果将这里所得到的嵌入结果矩阵中的基因组,基于Family层级的物种分类分组看作为单细胞转录数据中的细胞分群结果,能否基于单细胞数据分析方法来分析和可视化我的基因组功能嵌入的结果矩阵呢? […]

  2. […] 在前面的一篇《基因组功能注释(EC Number)的向量化嵌入》博客文章中,针对所注释得到的微生物基因组代谢信息,进行基于TF-IDF的向量化嵌入之后。为了可视化向量化嵌入的效果,通过UMAP进行降维,然后基于降维的结果进行散点图可视化。通过散点图可视化可以发现向量化的嵌入结果可以比较好的将不同物种分类来源的微生物基因组区分开来。 […]