文章阅读目录大纲
原始数据相关的
名词 | 全称 | 中文名 | 含义 |
---|---|---|---|
mz | mass to charge ratio | 质荷比 | 精确分子质量与离子的电荷数量的比值。 |
rt | retention time | 保留时间 | 代谢物分子的最大出峰时间,一般单位为秒 |
TIC | total ion chromatogram | 总离子流色谱图 | 每一个时间点的离子信号数量的总和对时间作图 |
BPC | base peak chromatogram | 基峰色谱图 | 每一个时间点的离子信号的最大值对时间作图 |
XIC | extract ion chromatogram | 离子提取色谱图 | 按照给定的mz在一定的质荷比误差内从每一个scan中提取信号响应强度后对时间作图 |
mzXML | mzXML | - | 一种XML格式的质谱原始数据文件 |
mzML | mzML | - | 一种XML格式的质谱原始数据文件 |
mzPack | mass spectrometry data package | 质谱数据包 | 是一种由帕诺米克公司开源的质谱原始数据二进制格式文件 |
CDF | Common Data Format | 通用数据格式 | 是由NASA开发的一种存储大规模科学数据的一种二进制文件格式(https://cdf.gsfc.nasa.gov/) |
MS | mass spectrometry | 质谱 | 质谱是一种测量离子荷质比(电荷-质量比)的分析方法,可用来分析同位素成分、有机物构造及元素成分等 |
化学信息学相关的
名词 | 全称 | 中文名 | 含义 |
---|---|---|---|
cos | cosine | 余弦相似度 | 在机器学习领域内,计算两个等长向量的相似度的计算方法 |
jaccard | jaccard | 杰卡德相似度 | 在机器学习领域内,基于集合概念以计算两个不等长向量的相似度的计算方法 |
formula | formula | 分子式 | 用来描述物质分子的元素组成成分的ASCII字符串 |
exact mass | exact mass | 精确分子质量 | 通过formula所提供的元素组成成分所计算出来的理论分子质量 |
SMILES | Simplified molecular input line entry specification | 简化分子线性输入规范 | 使用线性的ASCII字符串明确描述分子三维结构的规范 |
ppm | parts per million | 百万分之几 | 用于描述一个极小的误差所使用的一种数量级单位 |
dal | Dalton | 道尔顿 | Dal全称道尔顿(Dalton),是分子量常用单位,就是将分子中所有原子按个数求原子量的代数和 |
InChI | International Chemical Identifier | 国际化合物标识 | 是由国际纯粹与应用化学联合会和美国国家标准技术研究所(National Institute of Standards and Technology,NIST)联合制定的,用以唯一标识化合物IUPAC名称的字符串。 |
InChI key | InChI key | InChI签名 | 基于InChI字符串的sha256哈希字符串,主要是用于InChI名字的数据库快速检索 |
tolerance | tolerance error | 质量误差 | 使用道尔顿或者ppm单位作为误差计算方式的一种表达式,在mzkit之中,ppm:20和da:0.3是常用的两个分子质量误差值。 |
MSI | MS imaging | 质谱成像 | 质谱成像是一种使用质谱方法对样本切片进行空间扫描,利用物质信号的空间分布对样本切片进行呈现的技术方法 |
组学数据分析相关的
名词 | 全称 | 中文名 | 含义 |
---|---|---|---|
kegg | KEGG: Kyoto Encyclopedia of Genes and Genomes | 京都基因与基因组百科全书 | KEGG 是了解高级功能和生物系统(如细胞、 生物和生态系统),从分子水平信息,尤其是大型分子数据集生成的基因组测序和其他高通量实验技术的实用程序数据库资源 |
hmdb | Human Metabolome Database | 人类代谢组数据库 | 人类代谢组数据库 (HMDB)于2007年首次发布,被认为是人类代谢研究的标准代谢组学资源,包含有关人类代谢物及其生物学作用、生理浓度、疾病相关性、化学反应、代谢途径和参考光谱的综合信息。 |
pubchem | public chemistry | 公共化合物数据库计划 | PubChem主要包含小分子,较大的分子,例如核苷酸,碳水化合物,脂质,肽和化学修饰的大分子的有关化学结构,标识符,化学和物理性质,生物活性,专利,健康,安全,毒性数据等许多信息。 |
chebi | Chemical Entities of Biological Interest | 生物相关的化学实体数据库 | ChEBI(Chemical Entities of Biological Interest)是一个收录生物医学相关化学条目的数据库,它是开放式生物医学本体的一部分 |
pathway | pathway | 代谢途径 | 一组实现某一种生物学功能的生物化学过程的集合模块 |
PCA | Principal Component Analysis | 主成分分析 | 是一种使用最广泛的数据降维算法。PCA的主要思想是将n维特征映射到k维上,这k维是全新的正交特征也被称为主成分,是在原有n维特征的基础上重新构造出来的k维特征。 |
PLS-DA | Partial Least Squares Discriminant Analysis | 偏最小二乘法判别分析 | 多变量数据分析技术中的判别分析法,经常用来处理分类和判别问题。通过对主成分适当的旋转,PLS-DA可以有效的对组间观察值进行区分,并且能够找到导致组间区别的影响变量。 |
OPLS-DA | orthogonal partial least-squares discrimination analysis | 正交偏最小二乘判别分析 | OPLS-DA是在PLS-DA的基础上,进行了正交变换的矫正,可以滤除与分类信息无关的噪音,提高了模型的解析能力和有效性。 |
fc | fold change | 变化倍数 | a/b得到的倍数 |
pvalue | pvalue | 显著值 | 统计学领域内的一个用于描述小概率事件的发生概率;即我们的假设检验结论的显著程度,显著程度越高,则小概率事件也不会发生,pvalue越小。 |
volcano | volcano | 火山图 | 用来可视化fold change以及pvalue结果的一种图表 |
enrichment | enrichment | 富集计算分析 | 富集分析是分析表达信息的一种方法,富集是指将对象实体按照先验知识,也就是注释信息进行分类,然后基于这个背景模型进行功能显著性变化的描述分析。 |
ROC | receiver operating characteristic curve | 接受者操作特征曲线 | 接受者操作特性曲线是指在特定刺激条件下,以被试在不同判断标准下所得的虚报概率P(y/N)为横坐标,以击中概率P(y/SN)为纵坐标,画得的各点的连线。 |
pcc | pearson correlation | 皮尔森相关度 | 在机器学习领域内计算两个等长向量的相关度的一种方法 |
QA | quality assurance | 质量保证 | 用来保证数据质量的一些操作,例如对异常样本的删除 |
QC | quality control | 质量控制 | 用于计算出当前数据的质量的一个计算分析步骤 |
hist | Hierarchical Clustering | 层次聚类 | 层次聚类(Hierarchical Clustering)是聚类算法的一种,通过计算不同类别数据点间的相似度来创建一棵有层次的嵌套聚类树。 在聚类树中,不同类别的原始数据点是树的最低层,树的顶层是一个聚类的根节点。 |
heatmap | heatmap | 热力图 | 聚类热图是对实验数据分布情况进行分析的直观可视化方法,可以展示代谢物在各样本之间的表达情况,同时还可以反映样品质量。 |
venn | venn diagram | 文氏图 | 在集合论(或者类的理论)数学分支中,在不太严格的意义下用以表示集合(或类)的一种草图。它们用于展示在不同的事物群组(集合)之间的数学或逻辑联系,尤其适合用来表示集合(或)类之间的“大致关系”,它也常常被用来帮助推导(或理解推导过程)关于集合运算(或类运算)的一些规律。 |
cmeans | c means cluster | C均值聚类 | 机器学习领域内通过欧几里得距离进行聚类分析的方法 |
kmeans | k means cluster | k均值聚类 | 机器学习领域内通过欧几里得距离进行聚类分析的方法 |
Latest posts by 谢桂纲 (see all)
- 【MZKit】简单自动化组织分区 - 2023年11月5日
- 【MZKit教程】质谱成像原始数据文件查看 - 2023年6月29日
- 生物序列图嵌入算法 - 2023年6月29日
No responses yet