代谢组学常见名词列表

文章阅读目录大纲

估计阅读时长: 5 分钟

原始数据相关的

名词	全称	中文名	含义
mz	mass to charge ratio	质荷比	精确分子质量与离子的电荷数量的比值。
rt	retention time	保留时间	代谢物分子的最大出峰时间，一般单位为秒
TIC	total ion chromatogram	总离子流色谱图	每一个时间点的离子信号数量的总和对时间作图
BPC	base peak chromatogram	基峰色谱图	每一个时间点的离子信号的最大值对时间作图
XIC	extract ion chromatogram	离子提取色谱图	按照给定的mz在一定的质荷比误差内从每一个scan中提取信号响应强度后对时间作图
mzXML	mzXML	-	一种XML格式的质谱原始数据文件
mzML	mzML	-	一种XML格式的质谱原始数据文件
mzPack	mass spectrometry data package	质谱数据包	是一种由帕诺米克公司开源的质谱原始数据二进制格式文件
CDF	Common Data Format	通用数据格式	是由NASA开发的一种存储大规模科学数据的一种二进制文件格式（https://cdf.gsfc.nasa.gov/）
MS	mass spectrometry	质谱	质谱是一种测量离子荷质比（电荷-质量比）的分析方法，可用来分析同位素成分、有机物构造及元素成分等

化学信息学相关的

名词	全称	中文名	含义
cos	cosine	余弦相似度	在机器学习领域内，计算两个等长向量的相似度的计算方法
jaccard	jaccard	杰卡德相似度	在机器学习领域内，基于集合概念以计算两个不等长向量的相似度的计算方法
formula	formula	分子式	用来描述物质分子的元素组成成分的ASCII字符串
exact mass	exact mass	精确分子质量	通过formula所提供的元素组成成分所计算出来的理论分子质量
SMILES	Simplified molecular input line entry specification	简化分子线性输入规范	使用线性的ASCII字符串明确描述分子三维结构的规范
ppm	parts per million	百万分之几	用于描述一个极小的误差所使用的一种数量级单位
dal	Dalton	道尔顿	Dal全称道尔顿（Dalton），是分子量常用单位，就是将分子中所有原子按个数求原子量的代数和
InChI	International Chemical Identifier	国际化合物标识	是由国际纯粹与应用化学联合会和美国国家标准技术研究所（National Institute of Standards and Technology，NIST）联合制定的，用以唯一标识化合物IUPAC名称的字符串。
InChI key	InChI key	InChI签名	基于InChI字符串的sha256哈希字符串，主要是用于InChI名字的数据库快速检索
tolerance	tolerance error	质量误差	使用道尔顿或者ppm单位作为误差计算方式的一种表达式，在mzkit之中，ppm:20和da:0.3是常用的两个分子质量误差值。
MSI	MS imaging	质谱成像	质谱成像是一种使用质谱方法对样本切片进行空间扫描，利用物质信号的空间分布对样本切片进行呈现的技术方法

组学数据分析相关的

名词	全称	中文名	含义
kegg	KEGG: Kyoto Encyclopedia of Genes and Genomes	京都基因与基因组百科全书	KEGG 是了解高级功能和生物系统（如细胞、生物和生态系统），从分子水平信息，尤其是大型分子数据集生成的基因组测序和其他高通量实验技术的实用程序数据库资源
hmdb	Human Metabolome Database	人类代谢组数据库	人类代谢组数据库 (HMDB)于2007年首次发布，被认为是人类代谢研究的标准代谢组学资源，包含有关人类代谢物及其生物学作用、生理浓度、疾病相关性、化学反应、代谢途径和参考光谱的综合信息。
pubchem	public chemistry	公共化合物数据库计划	PubChem主要包含小分子，较大的分子，例如核苷酸，碳水化合物，脂质，肽和化学修饰的大分子的有关化学结构，标识符，化学和物理性质，生物活性，专利，健康，安全，毒性数据等许多信息。
chebi	Chemical Entities of Biological Interest	生物相关的化学实体数据库	ChEBI（Chemical Entities of Biological Interest）是一个收录生物医学相关化学条目的数据库，它是开放式生物医学本体的一部分
pathway	pathway	代谢途径	一组实现某一种生物学功能的生物化学过程的集合模块
PCA	Principal Component Analysis	主成分分析	是一种使用最广泛的数据降维算法。PCA的主要思想是将n维特征映射到k维上，这k维是全新的正交特征也被称为主成分，是在原有n维特征的基础上重新构造出来的k维特征。
PLS-DA	Partial Least Squares Discriminant Analysis	偏最小二乘法判别分析	多变量数据分析技术中的判别分析法，经常用来处理分类和判别问题。通过对主成分适当的旋转，PLS-DA可以有效的对组间观察值进行区分，并且能够找到导致组间区别的影响变量。
OPLS-DA	orthogonal partial least-squares discrimination analysis	正交偏最小二乘判别分析	OPLS-DA是在PLS-DA的基础上，进行了正交变换的矫正，可以滤除与分类信息无关的噪音，提高了模型的解析能力和有效性。
fc	fold change	变化倍数	a/b得到的倍数
pvalue	pvalue	显著值	统计学领域内的一个用于描述小概率事件的发生概率；即我们的假设检验结论的显著程度，显著程度越高，则小概率事件也不会发生，pvalue越小。
volcano	volcano	火山图	用来可视化fold change以及pvalue结果的一种图表
enrichment	enrichment	富集计算分析	富集分析是分析表达信息的一种方法，富集是指将对象实体按照先验知识，也就是注释信息进行分类，然后基于这个背景模型进行功能显著性变化的描述分析。
ROC	receiver operating characteristic curve	接受者操作特征曲线	接受者操作特性曲线是指在特定刺激条件下，以被试在不同判断标准下所得的虚报概率P（y/N）为横坐标，以击中概率P（y/SN）为纵坐标，画得的各点的连线。
pcc	pearson correlation	皮尔森相关度	在机器学习领域内计算两个等长向量的相关度的一种方法
QA	quality assurance	质量保证	用来保证数据质量的一些操作，例如对异常样本的删除
QC	quality control	质量控制	用于计算出当前数据的质量的一个计算分析步骤
hist	Hierarchical Clustering	层次聚类	层次聚类(Hierarchical Clustering)是聚类算法的一种，通过计算不同类别数据点间的相似度来创建一棵有层次的嵌套聚类树。在聚类树中，不同类别的原始数据点是树的最低层，树的顶层是一个聚类的根节点。
heatmap	heatmap	热力图	聚类热图是对实验数据分布情况进行分析的直观可视化方法，可以展示代谢物在各样本之间的表达情况，同时还可以反映样品质量。
venn	venn diagram	文氏图	在集合论（或者类的理论）数学分支中，在不太严格的意义下用以表示集合（或类）的一种草图。它们用于展示在不同的事物群组（集合）之间的数学或逻辑联系，尤其适合用来表示集合（或）类之间的“大致关系”，它也常常被用来帮助推导（或理解推导过程）关于集合运算（或类运算）的一些规律。
cmeans	c means cluster	C均值聚类	机器学习领域内通过欧几里得距离进行聚类分析的方法
kmeans	k means cluster	k均值聚类	机器学习领域内通过欧几里得距离进行聚类分析的方法

Author
Recent Posts

谢桂纲

高级数据科学家 at 苏州帕诺米克

Working on Engineered bacteria CAD design on its genome from scratch. Writing scientific computing software for Tianhe & Sunway TaihuLight supercomputer. Do scientific computing programming in R/R# language, he is also the programming language designer of the R# language on the .NET runtime.

One response

stay updates says:

2026年1月18日 at 1:57 AM

Great post. I was checking constantly this blog and I am impressed!
Extremely helpful information specially the last part 🙂 I care for such info a
lot. I was seeking this certain information for a long time.
Thank you and best of luck.

来自CLOUDFLARE.COM

Reply

Leave a Reply Cancel reply

July 2026
S	M	T	W	T	F	S
	1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

单细胞视角下的微生物基因组代谢酶嵌入分析 – この中二病に爆焔を！ on 基因组功能注释（EC Number）的向量化嵌入2026年2月25日
[…] 我们在基于前面所论述的《通过diamond软件进行blastp搜索》对大规模的基因组数据进行了代谢酶的EC number的注释以及按照文章《基因组功能注释（EC Number）的向量化嵌入》的方法，得到了一个比较大的基因组代谢酶TF-IDF嵌入丰度矩阵后，如果将这里所得到的嵌入结果矩阵中的基因组，基于Family层级的物种分类分组看作为单细胞转录数据中的细胞分群结果，能否基于单细胞数据分析方法来分析和可视化我的基因组功能嵌入的结果矩阵呢？ […]
单细胞视角下的微生物基因组代谢酶嵌入分析 – この中二病に爆焔を！ on 通过diamond软件进行blastp搜索2026年2月25日
[…] 我们在基于前面所论述的《通过diamond软件进行blastp搜索》对大规模的基因组数据进行了代谢酶的EC number的注释以及按照文章《基因组功能注释（EC Number）的向量化嵌入》的方法，得到了一个比较大的基因组代谢酶TF-IDF嵌入丰度矩阵后，如果将这里所得到的嵌入结果矩阵中的基因组，基于Family层级的物种分类分组看作为单细胞转录数据中的细胞分群结果，能否基于单细胞数据分析方法来分析和可视化我的基因组功能嵌入的结果矩阵呢？ […]
基因组代谢酶层级嵌入 – この中二病に爆焔を！ on 酶EC编号结构解析2026年2月23日
[…] 对于基于ec number来生成层级数据，我们直接使用《酶EC编号结构解析》文章末尾所展示的层级数据生成函数来实现。 […]
二叉树聚类可视化微生物群落代谢差异 – この中二病に爆焔を！ on 基因组功能注释（EC Number）的向量化嵌入2026年2月15日
[…] 在前面的一篇《基因组功能注释（EC Number）的向量化嵌入》博客文章中，针对所注释得到的微生物基因组代谢信息，进行基于TF-IDF的向量化嵌入之后。为了可视化向量化嵌入的效果，通过UMAP进行降维，然后基于降维的结果进行散点图可视化。通过散点图可视化可以发现向量化的嵌入结果可以比较好的将不同物种分类来源的微生物基因组区分开来。 […]
谢桂纲 on 通过diamond软件进行blastp搜索2026年2月15日
😲啊？

原始数据相关的

化学信息学相关的

组学数据分析相关的

Related

One response

Leave a Reply Cancel reply

Recent Posts

Archives

博客文章

代谢组学常见名词列表

原始数据相关的

化学信息学相关的

组学数据分析相关的

Related

One response

Leave a Reply Cancel reply

Recent Posts

Archives

博客文章

Tags