Fig. 4 Weighted correlation network analysis (WGCNA) identifies IFNα-regulated mRNA and protein modules
估计阅读时长: 2 分钟Github项目:https://github.com/xieguigang/marker 本程序包是一个基于R语言的综合性机器学习工具集,专门设计用于生物标志物发现和疾病预测模型的构建。该工具整合了多种机器学习算法,提供了从数据预处理、特征选择到模型构建与验证的完整工作流程,特别适用于代谢组学、基因组学等高维生物数据的分析研究。在这个程序包中,主要是通过marker函数来封装了从数据与处理到模型建立的每一个步骤,主要将程序包划分为了以下的工作步骤模块: 数据加载和预处理 初始可视化(PCA图)和统计分析(线性模型、描述性统计) 特征选择(如果未提供预选特征,则使用LASSO、随机森林和SVM-RFE三种方法) 数据分割为训练集和测试集 模型集成训练(逻辑回归、XGBoost、随机森林) 结果可视化(ROC曲线、特征重要性、SHAP分析等) 大家在这里可以通过下面的技术路线图来了解在所编写的程序包中所涉及到的分析内容与步骤: 所主要涉及到的模型算法原理 机器学习方法 数学原理 使用场景 应用 LASSO回归 LASSO(Least […]
估计阅读时长: 2 分钟脂质组学作为系统生物学和代谢组学的重要分支,近年来取得了长足的发展,已成为生命科学研究中不可或缺的重要工具。 脂质组学的定义与研究内容 脂质组学是系统研究脂质组的一门独立学科,作为大规模定性和定量研究脂类化合物并了解它们在不同生理、病理条件下的功能和变化的方法学,能准确全面地提供生物样品中的脂质信息。它被定义为对生物体、组织或细胞中的脂质以及与其相互作用的分子进行全面系统的分析、鉴定,进而揭示脂质代谢与细胞、器官乃至机体生理病理过程的关系。 脂质是一类具有疏水性并且在大多数情况下可以溶于有机溶剂的物质,当然,还有部分脂质因为带有极性基团,往往是亲水性的,例如磷脂等。脂质组学是对生物体内的脂质进行系统分析的一门新兴学科,是代谢组学的重要分支。基于液质联用技术(LC-MS),无偏向性、尽可能多地检测细胞、组织、器官或体液等生物样本中的脂质。
博客文章
February 2026
S M T W T F S
1234567
891011121314
15161718192021
22232425262728
  1. […] 基于之前的一篇文章《TF-IDF与N-gram One-hot文档嵌入算法原理》的学习,我们了解到可以将生物序列通过分解为kmer,组成单词集合用来表示一个文档。从而将长度各异的生物序列嵌入为长读一致的数值向量,进而可以用于后续的各种数据处理工作中。在这里,假设我们将基因组中的所有基因提取出来,然后通过blast比对的方式将基因注释到对应的ec number编号,既可以将某一个基因组使用一个ec number的集合来表示。通过这样子的数据表示方法,我们就可以将任意一个大小各异,基因组成不同的基因组都嵌入为具有相同维度特征的数值向量用于机器学习建模之类的工作。 […]