机器学习驱动的生物标志物发现与疾病预测集成工具包

Fig. 4 Weighted correlation network analysis (WGCNA) identifies IFNα-regulated mRNA and protein modules

文章阅读目录大纲

估计阅读时长: 2 分钟

Github项目：https://github.com/xieguigang/marker

本程序包是一个基于R语言的综合性机器学习工具集，专门设计用于生物标志物发现和疾病预测模型的构建。该工具整合了多种机器学习算法，提供了从数据预处理、特征选择到模型构建与验证的完整工作流程，特别适用于代谢组学、基因组学等高维生物数据的分析研究。在这个程序包中，主要是通过marker函数来封装了从数据与处理到模型建立的每一个步骤，主要将程序包划分为了以下的工作步骤模块：

数据加载和预处理
初始可视化（PCA图）和统计分析（线性模型、描述性统计）
特征选择（如果未提供预选特征，则使用LASSO、随机森林和SVM-RFE三种方法）
数据分割为训练集和测试集
模型集成训练（逻辑回归、XGBoost、随机森林）
结果可视化（ROC曲线、特征重要性、SHAP分析等）

大家在这里可以通过下面的技术路线图来了解在所编写的程序包中所涉及到的分析内容与步骤：

所主要涉及到的模型算法原理

机器学习方法	数学原理	使用场景	应用
LASSO回归	LASSO（Least Absolute Shrinkage and Selection Operator）是一种线性回归方法，它通过在损失函数中添加L1正则化项来实现特征选择。L1正则化使得一些系数变为零，从而实现特征选择。	适用于高维数据，特别是当特征数量远大于样本数量时，可以用于特征选择和防止过拟合。	通过交叉验证选择最优的lambda值，然后提取非零系数对应的特征作为重要特征。
随机森林（Random Forest）	随机森林是一种集成学习方法，通过构建多个决策树并合并它们的预测来提高准确性。每棵树在训练时使用自助采样（bootstrap）和随机特征选择，从而降低方差。	适用于分类和回归问题，对高维数据表现良好，能够处理非线性关系，且不易过拟合。	计算每个特征的平均不纯度减少（Mean Decrease Gini）作为特征重要性，选择重要性大于0.5的特征。
SVM-RFE（支持向量机递归特征消除）	SVM-RFE是一种基于支持向量机的特征选择方法。它通过递归地移除最不重要的特征（根据权重向量）来构建模型，直到达到指定数量的特征。	适用于高维数据，特别是在特征数量远大于样本数的情况下，常用于生物信息学中的基因选择。	使用SVM-RFE算法，通过交叉验证评估不同特征子集的性能，选择最优的特征子集。
逻辑回归（Logistic Regression）	逻辑回归是一种广义线性模型，用于二分类问题。它通过logistic函数将线性回归的输出映射到[0,1]之间，表示概率。	适用于二分类问题，模型可解释性强，常用于医学诊断和风险评估。	使用选定的特征构建逻辑回归模型，并生成列线图（nomogram）用于可视化预测。
XGBoost	XGBoost是一种梯度提升决策树算法，通过迭代地训练弱学习器（决策树）来构建强学习器。它使用二阶泰勒展开来近似损失函数，并加入了正则化项防止过拟合。	适用于分类和回归问题，尤其在结构化数据上表现优异，常用于机器学习竞赛。	使用选定的特征训练XGBoost模型，并与其他模型进行性能比较。
模型集成（Ensemble）	模型集成通过组合多个模型的预测来提高整体性能。常见的集成方法有投票法、平均法等。本代码中，我们分别训练了逻辑回归、XGBoost和随机森林模型，并分别评估它们的性能，同时绘制组合的ROC曲线进行比较。	当单一模型可能存在过拟合或欠拟合时，集成方法可以提高模型的泛化能力。	我们训练了三个模型，并分别输出它们的性能指标（如AUC、准确率等），同时绘制组合的ROC曲线以便比较。
SHAP（SHapley Additive exPlanations）	SHAP是一种基于博弈论的模型解释方法，它将每个特征视为一个“玩家”，计算该特征对预测结果的贡献（即SHAP值）。SHAP值具有可加性，能够解释单个预测。	用于解释机器学习模型的预测结果，特别是黑箱模型（如XGBoost、随机森林）。	对每个模型（逻辑回归、XGBoost、随机森林）计算SHAP值，生成特征重要性图、蜂群图、瀑布图等，帮助理解模型如何做出预测。

Author
Recent Posts

谢桂纲

高级数据科学家 at 苏州帕诺米克

Working on Engineered bacteria CAD design on its genome from scratch. Writing scientific computing software for Tianhe & Sunway TaihuLight supercomputer. Do scientific computing programming in R/R# language, he is also the programming language designer of the R# language on the .NET runtime.

Attachments

20251007055115_038fe035-b12f-4d33-8936-e6fc461beac6_16982f5b-e8a9-4f19-9f93-d3efdc59eab9 • 206 kB • 454 click
2025年10月7日

打赏赞(3)

Biomarkers lasso machine learning nomogram random forest shap value svm

7 Responses

贝贝 says:

2025年11月24日 at 3:30 AM

又到年底了，真快！

来自湖南

Reply
MathewJet says:

2025年11月17日 at 11:55 PM

哈哈。这个R程序包用来做代谢组数据的biomarker分析确实挺方便的呢

来自新加坡

Reply
- 谢桂纲 says:
  
  2025年11月17日 at 11:59 PM
  
  哈哈，Thanks♪(･ω･)ﾉ
  
  来自中国
  
  Reply
Hayden alkab says:

2025年11月4日 at 5:54 AM

c⌒っﾟДﾟ)っ救命啊，谢老师，我试了下用这个程序包直接跑转录组矩阵，跑了好久都没有结果

来自新加坡

Reply
- 谢桂纲 says:
  
  2025年11月11日 at 10:22 AM
  
  其实，你不应该直接跑原始表达矩阵的。因为在原始表达矩阵中，基因的特征数量可能会非常多，做随机森林或者SVM建模就会会非常久。应该先用limma程序包对矩阵筛选一次，例如用log2fc绝对值按照阈值cutoff筛选一次，或者对log2fc绝对值排序后取前1000个特征，得到小一些feature集合的矩阵后再使用这个程序包做机器学习分析。
  
  来自中国
  
  Reply
JosephEmpaf says:

2025年10月11日 at 2:10 PM

Could you provide some practical examples of how this R package is used? For instance, how does it perform when analyzing single-cell sequencing data?

来自北美地区

Reply
Brantley says:

2025年10月8日 at 11:42 AM

大佬厉害

来自北京

Reply

Leave a Reply to Brantley Cancel reply

March 2026
S	M	T	W	T	F	S
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

单细胞视角下的微生物基因组代谢酶嵌入分析 – この中二病に爆焔を！ on 基因组功能注释（EC Number）的向量化嵌入2026年2月25日
[…] 我们在基于前面所论述的《通过diamond软件进行blastp搜索》对大规模的基因组数据进行了代谢酶的EC number的注释以及按照文章《基因组功能注释（EC Number）的向量化嵌入》的方法，得到了一个比较大的基因组代谢酶TF-IDF嵌入丰度矩阵后，如果将这里所得到的嵌入结果矩阵中的基因组，基于Family层级的物种分类分组看作为单细胞转录数据中的细胞分群结果，能否基于单细胞数据分析方法来分析和可视化我的基因组功能嵌入的结果矩阵呢？ […]
单细胞视角下的微生物基因组代谢酶嵌入分析 – この中二病に爆焔を！ on 通过diamond软件进行blastp搜索2026年2月25日
[…] 我们在基于前面所论述的《通过diamond软件进行blastp搜索》对大规模的基因组数据进行了代谢酶的EC number的注释以及按照文章《基因组功能注释（EC Number）的向量化嵌入》的方法，得到了一个比较大的基因组代谢酶TF-IDF嵌入丰度矩阵后，如果将这里所得到的嵌入结果矩阵中的基因组，基于Family层级的物种分类分组看作为单细胞转录数据中的细胞分群结果，能否基于单细胞数据分析方法来分析和可视化我的基因组功能嵌入的结果矩阵呢？ […]
基因组代谢酶层级嵌入 – この中二病に爆焔を！ on 酶EC编号结构解析2026年2月23日
[…] 对于基于ec number来生成层级数据，我们直接使用《酶EC编号结构解析》文章末尾所展示的层级数据生成函数来实现。 […]
二叉树聚类可视化微生物群落代谢差异 – この中二病に爆焔を！ on 基因组功能注释（EC Number）的向量化嵌入2026年2月15日
[…] 在前面的一篇《基因组功能注释（EC Number）的向量化嵌入》博客文章中，针对所注释得到的微生物基因组代谢信息，进行基于TF-IDF的向量化嵌入之后。为了可视化向量化嵌入的效果，通过UMAP进行降维，然后基于降维的结果进行散点图可视化。通过散点图可视化可以发现向量化的嵌入结果可以比较好的将不同物种分类来源的微生物基因组区分开来。 […]
谢桂纲 on 通过diamond软件进行blastp搜索2026年2月15日
😲啊？

机器学习驱动的生物标志物发现与疾病预测集成工具包