数据处理 – この中二病に爆焔を！

估计阅读时长: 5 分钟基因组为了能够实现上面所描述的这种基于EC Number的不同层级的加权嵌入，我们在原来的基因组嵌入工具上添加了一个hierarchical选项，用于支持切换为层级嵌入的操作： Imports Microsoft.VisualBasic.Data.Framework Imports Microsoft.VisualBasic.Data.NLP Imports SMRUCC.genomics.Interops.NCBI.Extensions.Pipeline Public Class GenomeMetabolicEmbedding ReadOnly vec As New […]

通过diamond软件进行blastp搜索

谢桂纲 -

8:27 AM

估计阅读时长: 20 分钟最近的工作中我需要按照之前的这篇博客文章《基因组功能注释（EC Number）的向量化嵌入》中所描述的流程，将好几十万个微生物基因组的功能蛋白进行酶编号的比对注释，然后基于注释结果进行向量化嵌入然后进行数据可视化。通过R#脚本对这些微生物基因组的蛋白fasta序列的提取操作，最终得到了一个大约是58GB的蛋白序列。然后将这个比较大型的蛋白序列比对到自己所收集到的ec number注释的蛋白序列参考数据库之上。 Order by Date Name Attachments diamond-output • 42 kB • 310 click 2026年2月15日diamond-table-size […]

建立KEGG的KO序列数据库

谢桂纲 -

10:45 AM

估计阅读时长: 16 分钟KEGG 里面目前并没有“现成的每个 KO 一条代表性序列 FASTA”这种官方序列数据库，假若我们需要基于KEGG数据库中的KO信息的注释，那我们一般会需要自己从 KEGG GENES 里面把每个 KO 对应的基因/蛋白序列抓出来，再按 KO 编号组织成 fasta 集合构建出对应的数据库。基于所建立好的KEGG基因序列数据库，我们就可以实现下面的一些基因注释工作：在全基因组规模代谢网络重建工作中，进行我们的目标基因组中的代谢网络中的酶节点的直系同源推断，从而将我们的目标基因组中的基因映射到具体的KEGG代谢网络上的节点位置，从而重建出代谢网络模型（使用带有KO编号的蛋白序列做比对注释）假若我们在进行宏基因组的基因丰度的计算，则可以基于所建立的KEGG基因序列数据库作为参考库，进行宏基因组测序数据中的KO基因丰度的计算（使用带有KO编号的基因序列做比对注释） […]

环境微生物群落GEMs建模综述

谢桂纲 -

10:01 AM

估计阅读时长: < 1 分钟环境中的微生物往往以复杂群落的形式存在，不同物种之间通过代谢相互作用形成协同或竞争关系，共同完成生物地球化学循环、维持生态系统功能。近年来，随着高通量基因组测序技术的发展，研究者可以从环境样本中获取海量微生物基因组数据，为构建基因组尺度代谢模型（Genome-scale metabolic models, GEMs）提供了基础。GEMs将微生物的全基因组注释与生化反应网络相结合，可以用于模拟微生物在特定环境条件下的代谢能力，预测其生长和代谢产物。在单菌株层面，GEMs已被广泛用于解析微生物对环境变化的代谢适应机制、指导代谢工程设计以及预测药物靶点等。在群落层面，通过将多个GEMs耦合，可以研究微生物之间的相互作用，例如通过代谢物交换实现的协同或竞争关系。 Attachments The-taxonomic-composition-of-various-type-samples-and-the-results-of-neutral-model • 500 kB • 389 click 2026年1月4日

Computational Analysis of Biochemical Systems

【虚拟细胞】转录事件建模

谢桂纲 -

8:53 AM

估计阅读时长: 5 分钟将复杂的生物学过程拆解为单元化学反应，是进行定量模拟的基石。转录是基因表达调控的关键环节，决定了细胞在特定时间、特定环境下合成哪些蛋白质，对生命活动至关重要。最近的工作中需要将原本非常粗糙的虚拟细胞转录事件模型拆解为更加细分化的多步骤生物化学过程，以适应针对细胞群落生长的建模计算。下面为我将原核生物的转录过程拆解为一系列可以用化学式表示的单元步骤的结果。在介绍这些分步骤之前，我们会需要首先来定义一下模型中会用到的各种“化学物质”（分子和复合物）： RNAP: RNA聚合酶全酶（包含核心酶和σ因子）。 DNA: 基因组DNA双链。 DNA_P: 包含启动子区域的DNA。 DNA_T: 包含终止子区域的DNA。 NTP: 核糖核苷三磷酸（ATP, UTP, GTP, CTP的统称）。 PPi: […]

布隆过滤器在宏基因组测序reads数据分类处理中的作用

谢桂纲 -

6:15 AM

估计阅读时长: 27 分钟宏基因组测序直接从环境样本获取所有生物的遗传物质，产生的海量短读序列（reads）需要被快速准确地分类到不同物种或功能类别。然而，宏基因组数据具有复杂性高、物种多样且未知序列多等特点，这给分类算法带来了巨大挑战。传统的序列比对方法虽然准确，但在面对庞大的参考数据库时计算开销巨大，难以满足实时分析的需求。因此，研究者开发了多种基于k-mer（长度为k的子序列）的快速分类方法，其中布隆过滤器（Bloom Filter）作为一种高效的概率数据结构，在针对测序reads做物种上的快速分类这项工作中起到了一些关键作用。 Attachments Capture • 112 kB • 486 click 2025年12月19日

limma程序包在RNA-seq差异表达分析中的数学算法原理与实现详解

谢桂纲 -

4:12 AM

估计阅读时长: 22 分钟limma（Linear Models for Microarray Data）是一个基于R语言的Bioconductor包，最初用于微阵列数据的差异表达分析，现已扩展支持RNA-seq数据。其核心思想是利用线性模型（Linear Models）对基因表达数据进行建模，并结合经验贝叶斯（Empirical Bayes）方法在小样本情况下增强统计推断的稳健性。 Order by Date Name Attachments limma • 119 kB […]

最低共同祖先（Lowest Common Ancestor, LCA）算法讲解

谢桂纲 -

3:15 AM

估计阅读时长: 13 分钟LCA算法是现代宏基因组学分析的核心技术之一，主要用于解决序列比对结果的分类不确定性问题。例如，我们在处理宏基因组测序reads的物种来源分类注释工作的时候，经常会思考一个问题：在宏基因组分析中，一个测序read通常与多个参考序列产生比对结果，这些结果可能指向不同的分类单元。那这条reads最可能的物种分类来源位置是怎样的，怎样可以通过一个算法，基于一系列的物种匹配结果来推断出一个合适的物种来源，既避免过度分类，又保证分类的准确性。 Order by Date Name Attachments family-tree-animal-kingdom • 99 kB • 490 click 2025年12月2日LCA • 245 […]

宏基因组去除宿主序列的主流算法原理与基于kmer的方法详解

谢桂纲 -

7:22 AM

估计阅读时长: 2 分钟宏基因组学（Metagenomics）通过直接测序环境样本中的全部DNA，从而避免了传统培养方法的局限，使我们能够研究不可培养微生物的多样性。然而，当样本来自宿主相关环境（如人类或小鼠的肠道、土壤等）时，测序数据中不可避免地包含大量宿主自身的DNA序列。这些宿主序列会占据测序读数，增加分析成本，并可能干扰对微生物群落组成的准确推断。因此，在宏基因组数据分析中，去除宿主序列（Host Sequence Removal）是至关重要的预处理步骤。去除宿主序列的算法多种多样，其中基于k-mer的方法因其高效和可扩展性而备受关注。 Attachments Metagenomics • 211 kB • 465 click 2025年11月29日

Fig. 4 Weighted correlation network analysis (WGCNA) identifies IFNα-regulated mRNA and protein modules

微生物全基因组代谢网络（GEM）模型发展历史与原理综述

谢桂纲 -

2:06 AM

估计阅读时长: 6 分钟微生物全基因组代谢网络（Genome-scale metabolic model, GEM）模型的发展历史可追溯至20世纪90年代。1994年，Varma和Palsson在《Applied and Environmental Microbiology》期刊上发表了开创性论文，题为"Stoichiometric flux balance models quantitatively predict growth and metabolic by-product […]

May 2026
S	M	T	W	T	F	S
	1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

单细胞视角下的微生物基因组代谢酶嵌入分析 – この中二病に爆焔を！ on 基因组功能注释（EC Number）的向量化嵌入2026年2月25日
[…] 我们在基于前面所论述的《通过diamond软件进行blastp搜索》对大规模的基因组数据进行了代谢酶的EC number的注释以及按照文章《基因组功能注释（EC Number）的向量化嵌入》的方法，得到了一个比较大的基因组代谢酶TF-IDF嵌入丰度矩阵后，如果将这里所得到的嵌入结果矩阵中的基因组，基于Family层级的物种分类分组看作为单细胞转录数据中的细胞分群结果，能否基于单细胞数据分析方法来分析和可视化我的基因组功能嵌入的结果矩阵呢？ […]
单细胞视角下的微生物基因组代谢酶嵌入分析 – この中二病に爆焔を！ on 通过diamond软件进行blastp搜索2026年2月25日
[…] 我们在基于前面所论述的《通过diamond软件进行blastp搜索》对大规模的基因组数据进行了代谢酶的EC number的注释以及按照文章《基因组功能注释（EC Number）的向量化嵌入》的方法，得到了一个比较大的基因组代谢酶TF-IDF嵌入丰度矩阵后，如果将这里所得到的嵌入结果矩阵中的基因组，基于Family层级的物种分类分组看作为单细胞转录数据中的细胞分群结果，能否基于单细胞数据分析方法来分析和可视化我的基因组功能嵌入的结果矩阵呢？ […]
基因组代谢酶层级嵌入 – この中二病に爆焔を！ on 酶EC编号结构解析2026年2月23日
[…] 对于基于ec number来生成层级数据，我们直接使用《酶EC编号结构解析》文章末尾所展示的层级数据生成函数来实现。 […]
二叉树聚类可视化微生物群落代谢差异 – この中二病に爆焔を！ on 基因组功能注释（EC Number）的向量化嵌入2026年2月15日
[…] 在前面的一篇《基因组功能注释（EC Number）的向量化嵌入》博客文章中，针对所注释得到的微生物基因组代谢信息，进行基于TF-IDF的向量化嵌入之后。为了可视化向量化嵌入的效果，通过UMAP进行降维，然后基于降维的结果进行散点图可视化。通过散点图可视化可以发现向量化的嵌入结果可以比较好的将不同物种分类来源的微生物基因组区分开来。 […]
谢桂纲 on 通过diamond软件进行blastp搜索2026年2月15日
😲啊？

Posts in 数据处理

基因组代谢酶层级嵌入

通过diamond软件进行blastp搜索

建立KEGG的KO序列数据库

环境微生物群落GEMs建模综述

【虚拟细胞】转录事件建模

布隆过滤器在宏基因组测序reads数据分类处理中的作用

limma程序包在RNA-seq差异表达分析中的数学算法原理与实现详解

最低共同祖先（Lowest Common Ancestor, LCA）算法讲解

宏基因组去除宿主序列的主流算法原理与基于kmer的方法详解

微生物全基因组代谢网络（GEM）模型发展历史与原理综述

Recent Posts

Archives

博客文章

Posts in 数据处理

基因组代谢酶层级嵌入

通过diamond软件进行blastp搜索

建立KEGG的KO序列数据库

环境微生物群落GEMs建模综述

【虚拟细胞】转录事件建模

布隆过滤器在宏基因组测序reads数据分类处理中的作用

limma程序包在RNA-seq差异表达分析中的数学算法原理与实现详解

最低共同祖先（Lowest Common Ancestor, LCA）算法讲解

宏基因组去除宿主序列的主流算法原理与基于kmer的方法详解

微生物全基因组代谢网络（GEM）模型发展历史与原理综述

Recent Posts

Archives

博客文章

Tags