估计阅读时长: 5 分钟原始数据相关的 名词 全称 中文名 含义 mz mass to charge ratio 质荷比 精确分子质量与离子的电荷数量的比值。 rt retention time 保留时间 […]
估计阅读时长: 7 分钟https://github.com/xieguigang/mzkit SMILES字符串是一种在计算化学领域内使用线性ASCII字符串描述一个具有空间立体结构的分子结构所使用的一种语言规范。因为在工作中会需要使用到SMILES字符串做一些分子结构相关的数据建模分析,所以编写了一个很方便的用于SMILES字符串解析操作的模块,在这篇文章中为大家讲解具体的工作原理。 Order by Date Name Attachments science-connection-structure-with-molecules-simple-modern-white-background-illustration_46577-719 • 36 kB • 704 click 2021年6月9日abstract-molecules-structure-with-connect-spherical-particles_46577-689 • […]
估计阅读时长: 2 分钟https://github.com/xieguigang/mzkit 在BILIBILI上观看视频:《【BioNovoGene Mzkit教程】代谢组学原始数据处理基础》 Order by Date Name Attachments profile_videocard • 211 kB • 718 click 2021年5月29日metabolims […]
博客文章
February 2026
S M T W T F S
1234567
891011121314
15161718192021
22232425262728
  1. […] 在前面的一篇《基因组功能注释(EC Number)的向量化嵌入》博客文章中,针对所注释得到的微生物基因组代谢信息,进行基于TF-IDF的向量化嵌入之后。为了可视化向量化嵌入的效果,通过UMAP进行降维,然后基于降维的结果进行散点图可视化。通过散点图可视化可以发现向量化的嵌入结果可以比较好的将不同物种分类来源的微生物基因组区分开来。 […]

  2. […] 最近的工作中我需要按照之前的这篇博客文章《基因组功能注释(EC Number)的向量化嵌入》中所描述的流程,将好几十万个微生物基因组的功能蛋白进行酶编号的比对注释,然后基于注释结果进行向量化嵌入然后进行数据可视化。通过R#脚本对这些微生物基因组的蛋白fasta序列的提取操作,最终得到了一个大约是58GB的蛋白序列。然后将这个比较大型的蛋白序列比对到自己所收集到的ec number注释的蛋白序列参考数据库之上。 […]