基因组学 – この中二病に爆焔を！

估计阅读时长: 4 分钟酶的EC number（Enzyme Commission number）是国际生物化学与分子生物学学会（IUBMB）酶学委员会制定的酶分类与命名体系的核心标识符，自1961年首次发布以来，已成为酶学研究、数据库管理和生物技术应用的全球标准。这套四位数字的层级编码系统不仅解决了早期酶命名混乱的问题，还通过系统化分类揭示了酶催化功能的内在逻辑，为酶学研究提供了统一的框架。 Order by Date Name Attachments Enzyme_Commission_Numbers-visual_selection • 70 kB • 26 click […]

二叉树聚类可视化微生物群落代谢差异

谢桂纲 -

12:30 PM

估计阅读时长: 18 分钟在前面的一篇《基因组功能注释（EC Number）的向量化嵌入》博客文章中，针对所注释得到的微生物基因组代谢信息，进行基于TF-IDF的向量化嵌入之后。为了可视化向量化嵌入的效果，通过UMAP进行降维，然后基于降维的结果进行散点图可视化。通过散点图可视化可以发现向量化的嵌入结果可以比较好的将不同物种分类来源的微生物基因组区分开来。除了针对降维后的数据进行散点图可视化，我们还可以直接针对向量化嵌入后的原始嵌入矩阵进行聚类，完成聚类结果的可视化。在这里我们主要是基于嵌入的原始结果进行二叉树聚类可视化。 Order by Date Name Attachments community_metabolic_tree • 220 kB • 35 click 2026年2月15日community-local • […]

通过diamond软件进行blastp搜索

谢桂纲 -

8:27 AM

估计阅读时长: 20 分钟最近的工作中我需要按照之前的这篇博客文章《基因组功能注释（EC Number）的向量化嵌入》中所描述的流程，将好几十万个微生物基因组的功能蛋白进行酶编号的比对注释，然后基于注释结果进行向量化嵌入然后进行数据可视化。通过R#脚本对这些微生物基因组的蛋白fasta序列的提取操作，最终得到了一个大约是58GB的蛋白序列。然后将这个比较大型的蛋白序列比对到自己所收集到的ec number注释的蛋白序列参考数据库之上。 Order by Date Name Attachments diamond-output • 42 kB • 41 click 2026年2月15日diamond-table-size […]

TF-IDF与N-gram One-hot文档嵌入算法原理

谢桂纲 -

10:38 PM

估计阅读时长: 11 分钟在将生物序列（如基因组或蛋白质序列）或文本数据转换为数值向量形式时，TF-IDF（Term Frequency-Inverse Document Frequency）和N-gram One-hot（又称Bag-of-n-grams）是两种经典且基础的文档嵌入算法。它们各自侧重于不同的特征提取方式，常被用于自然语言处理和生物信息学领域。 Attachments scatter_plot • 433 kB • 80 click 2026年2月10日

CenterStar多序列比对算法

谢桂纲 -

2:20 PM

估计阅读时长: 22 分钟MSA（多序列比对）在生物信息学中的核心目标是：通过把多条同源序列“对齐”，来突出它们之间的相似与差异，从而帮助我们：识别保守区/功能位点、推断进化关系（系统发生）、预测或解释蛋白质/核酸结构、发现共进化与功能模块，以及为后续分析（如模体搜索、结构建模、从头设计等）提供基础。基于多序列比对分析，我们可以通过这种算法，把一堆表面看上去“乱糟糟”的序列，整理成一个可以“逐位点比较”的框架。基于我们所得到的这个框架基础，我们可以进行下游的后续分析，例如：识别哪些部分是“不能动”的（功能/结构核心）；推断它们是如何“进化而来”的（系统发生）；推测它们在空间中“长什么样”（结构预测与建模）；找出哪些部分“一起变化”（共进化与功能耦合）；并把这些信息封装成模型（HMM、profile）用于大规模搜索与注释。 Order by Date Name Attachments MSA • 174 kB • […]

建立KEGG的KO序列数据库

谢桂纲 -

10:45 AM

估计阅读时长: 16 分钟KEGG 里面目前并没有“现成的每个 KO 一条代表性序列 FASTA”这种官方序列数据库，假若我们需要基于KEGG数据库中的KO信息的注释，那我们一般会需要自己从 KEGG GENES 里面把每个 KO 对应的基因/蛋白序列抓出来，再按 KO 编号组织成 fasta 集合构建出对应的数据库。基于所建立好的KEGG基因序列数据库，我们就可以实现下面的一些基因注释工作：在全基因组规模代谢网络重建工作中，进行我们的目标基因组中的代谢网络中的酶节点的直系同源推断，从而将我们的目标基因组中的基因映射到具体的KEGG代谢网络上的节点位置，从而重建出代谢网络模型（使用带有KO编号的蛋白序列做比对注释）假若我们在进行宏基因组的基因丰度的计算，则可以基于所建立的KEGG基因序列数据库作为参考库，进行宏基因组测序数据中的KO基因丰度的计算（使用带有KO编号的基因序列做比对注释） […]

Motif的SequenceLogo图的绘制原理

谢桂纲 -

3:09 PM

估计阅读时长: 23 分钟Sequence Logo 是一种可视化 DNA 或蛋白质序列保守性的图形表示方法。每个位置（列）上的字母堆叠高度代表该位点的信息含量（以 bits 为单位），而每个字母的高度则与其在该位点出现的频率成正比。高信息量的位置字母堆得高，低信息量的位置则矮甚至接近零。Sequence Logo的绘制遵循信息熵原理，我们可以很直观的通过某一个位置的总高低来了解该处位置的信息含量有多少，高信息量的位置，字母堆的高，一般会出现某一个字符特别高，表明该处非常保守。位置权重矩阵（Position Weight Matrix, PWM）是描述基因组调控因子结合位点序列模式的核心模型。它通过统计在结合位点序列中每个位置上各核苷酸（或氨基酸）出现的频率，来量化该位置对不同碱基的偏好程度。PWM通常以矩阵形式表示，行对应核苷酸（A、C、G、T/U），列对应序列中的位置，矩阵元素即为该位置该核苷酸相对于背景的权重得分。这一模型简洁且易于计算，因此在转录因子结合位点（TFBS）等调控元件的识别和表征中被广泛采用。 Order by Date Name […]

KEGG KO编号得分计算

谢桂纲 -

11:53 AM

估计阅读时长: 34 分钟在前面写了一篇文章来介绍我们可以如何通过KEGG的BHR评分来注释直系同源。在KEGG数据库的同源注释算法中，BHR的核心思想是“双向最佳命中”。它比简单的单向BLAST搜索（例如，只看你的基因A在数据库里的最佳匹配是基因B）更为严格和可靠。在基因注释中，这种方法可以有效减少因基因家族扩张、结构域保守等原因导致的假阳性注释，从而更准确地识别直系同源基因，而直系同源基因通常具有相同的功能。在今天重新翻看了下KAAS的帮助文档之后，发现KAAS系统中更新了下面的Assignment score计算公式： We define a score for each ortholog group in order to assign the best […]

布隆过滤器在宏基因组测序reads数据分类处理中的作用

谢桂纲 -

6:15 AM

估计阅读时长: 27 分钟宏基因组测序直接从环境样本获取所有生物的遗传物质，产生的海量短读序列（reads）需要被快速准确地分类到不同物种或功能类别。然而，宏基因组数据具有复杂性高、物种多样且未知序列多等特点，这给分类算法带来了巨大挑战。传统的序列比对方法虽然准确，但在面对庞大的参考数据库时计算开销巨大，难以满足实时分析的需求。因此，研究者开发了多种基于k-mer（长度为k的子序列）的快速分类方法，其中布隆过滤器（Bloom Filter）作为一种高效的概率数据结构，在针对测序reads做物种上的快速分类这项工作中起到了一些关键作用。 Attachments Capture • 112 kB • 226 click 2025年12月19日

宏基因组测序数据基因丰度估算方法理论

谢桂纲 -

3:48 AM

估计阅读时长: 14 分钟宏基因组测序所处理的对象是直接对环境样本中的所有DNA进行测序。达到无需培养即可揭示微生物群落的组成和功能潜力的目的。在数据处理中，一个核心任务是从海量短读序列中估算物种丰度（即每个物种在样本中的相对含量）和基因丰度（即每个基因或功能单元的相对含量）。传统的基于序列比对的方法计算成本高昂，而基于k-mer的方法通过利用固定长度的子序列（k-mer）信息，能够在不依赖完整比对的情况下快速估算丰度。 k-mer是指长度为k的连续子序列，例如在k=2的时候，DNA序列“ATCG”包含的2-mers有“AT”、“TC”、“CG”。通过统计读序列中k-mer的出现频率，并将其与参考数据库中的k-mer频率进行比较，我们可以推断出样本中各物种或基因的丰度。这种方法具有计算速度快、内存效率高的优势，并且无需对每个读进行精确比对，因此在处理大规模宏基因组数据时非常实用。 Order by Date Name Attachments workflow1 • 272 kB • 191 click 2025年12月8日workflow2 • […]

February 2026
S	M	T	W	T	F	S
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28

二叉树聚类可视化微生物群落代谢差异 – この中二病に爆焔を！ on 基因组功能注释（EC Number）的向量化嵌入2026年2月15日
[…] 在前面的一篇《基因组功能注释（EC Number）的向量化嵌入》博客文章中，针对所注释得到的微生物基因组代谢信息，进行基于TF-IDF的向量化嵌入之后。为了可视化向量化嵌入的效果，通过UMAP进行降维，然后基于降维的结果进行散点图可视化。通过散点图可视化可以发现向量化的嵌入结果可以比较好的将不同物种分类来源的微生物基因组区分开来。 […]
谢桂纲 on 通过diamond软件进行blastp搜索2026年2月15日
😲啊？
Aylin呱呱 on 通过diamond软件进行blastp搜索2026年2月15日
谢老师，写快点呀，在看着你更新文章呢。
通过diamond软件进行blastp搜索 – この中二病に爆焔を！ on 基因组功能注释（EC Number）的向量化嵌入2026年2月15日
[…] 最近的工作中我需要按照之前的这篇博客文章《基因组功能注释（EC Number）的向量化嵌入》中所描述的流程，将好几十万个微生物基因组的功能蛋白进行酶编号的比对注释，然后基于注释结果进行向量化嵌入然后进行数据可视化。通过R#脚本对这些微生物基因组的蛋白fasta序列的提取操作，最终得到了一个大约是58GB的蛋白序列。然后将这个比较大型的蛋白序列比对到自己所收集到的ec number注释的蛋白序列参考数据库之上。 […]
UPGMA算法构建进化树 – この中二病に爆焔を！ on 【数据可视化】可视化层次聚类树2026年2月15日
[…] […]

Posts in 基因组学

酶EC编号结构解析

二叉树聚类可视化微生物群落代谢差异

通过diamond软件进行blastp搜索

TF-IDF与N-gram One-hot文档嵌入算法原理

CenterStar多序列比对算法

建立KEGG的KO序列数据库

Motif的SequenceLogo图的绘制原理

KEGG KO编号得分计算

布隆过滤器在宏基因组测序reads数据分类处理中的作用

宏基因组测序数据基因丰度估算方法理论

Recent Posts

Archives

博客文章

Posts in 基因组学

酶EC编号结构解析

二叉树聚类可视化微生物群落代谢差异

通过diamond软件进行blastp搜索

TF-IDF与N-gram One-hot文档嵌入算法原理

CenterStar多序列比对算法

建立KEGG的KO序列数据库

Motif的SequenceLogo图的绘制原理

KEGG KO编号得分计算

布隆过滤器在宏基因组测序reads数据分类处理中的作用

宏基因组测序数据基因丰度估算方法理论

Recent Posts

Archives

博客文章

Tags