machine learning – この中二病に爆焔を！

Fig. 4 Weighted correlation network analysis (WGCNA) identifies IFNα-regulated mRNA and protein modules

估计阅读时长: 2 分钟Github项目：https://github.com/xieguigang/marker 本程序包是一个基于R语言的综合性机器学习工具集，专门设计用于生物标志物发现和疾病预测模型的构建。该工具整合了多种机器学习算法，提供了从数据预处理、特征选择到模型构建与验证的完整工作流程，特别适用于代谢组学、基因组学等高维生物数据的分析研究。在这个程序包中，主要是通过marker函数来封装了从数据与处理到模型建立的每一个步骤，主要将程序包划分为了以下的工作步骤模块：数据加载和预处理初始可视化（PCA图）和统计分析（线性模型、描述性统计）特征选择（如果未提供预选特征，则使用LASSO、随机森林和SVM-RFE三种方法）数据分割为训练集和测试集模型集成训练（逻辑回归、XGBoost、随机森林）结果可视化（ROC曲线、特征重要性、SHAP分析等）大家在这里可以通过下面的技术路线图来了解在所编写的程序包中所涉及到的分析内容与步骤：所主要涉及到的模型算法原理机器学习方法数学原理使用场景应用 LASSO回归 LASSO（Least […]

【机器学习】在R#语言之中使用XGBoost进行分类

谢桂纲 -

1:10 AM

估计阅读时长: 9 分钟https://github.com/xieguigang/sciBASIC 在实际应用的机器学习方法里，GradientTree Boosting （GBDT）是一个在很多应用里都很出彩的技术。XGBoost是一套提升树可扩展的机器学习系统。XGBoost全名叫（eXtreme Gradient Boosting）极端梯度提升。它是大规模并行boosted tree的工具，XGBoost 所应用的算法就是 GBDT（gradient boosting decision tree）的改进，既可以用于分类也可以用于回归问题中。 Order by Date Name […]

【机器学习】K-D树介绍

谢桂纲 -

10:11 PM

估计阅读时长: 8 分钟https://github.com/xieguigang/sciBASIC 在进行无监督聚类分析的方法之中，我们在算法代码之中一般会遇到求解与某一个样本数据点最相似的数据点的计算过程。对于这个计算过程，一般而言我们是基于欧几里得距离来完成的。 Order by Date Name Attachments Visual a KDtree Search • 274 kB • 793 […]

使用R#语言进行ROC计算分析

谢桂纲 -

2:20 PM

估计阅读时长: 8 分钟https://github.com/rsharp-lang/R-sharp 对于0，1两类分类问题，一些分类器得到的结果往往不是0，1这样的标签。如神经网络得到诸如0.5，0.8这样的分类结果。这时，我们人为取一个阈值，比如0.4，那么小于0.4的归为0类，大于等于0.4的归为1类，可以得到一个分类结果。同样，这个阈值我们可以取0.1或0.2等等。 Order by Date Name Attachments ROC • 221 kB • 811 click 2021年6月28日Roccurves • […]

March 2026
S	M	T	W	T	F	S
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

单细胞视角下的微生物基因组代谢酶嵌入分析 – この中二病に爆焔を！ on 基因组功能注释（EC Number）的向量化嵌入2026年2月25日
[…] 我们在基于前面所论述的《通过diamond软件进行blastp搜索》对大规模的基因组数据进行了代谢酶的EC number的注释以及按照文章《基因组功能注释（EC Number）的向量化嵌入》的方法，得到了一个比较大的基因组代谢酶TF-IDF嵌入丰度矩阵后，如果将这里所得到的嵌入结果矩阵中的基因组，基于Family层级的物种分类分组看作为单细胞转录数据中的细胞分群结果，能否基于单细胞数据分析方法来分析和可视化我的基因组功能嵌入的结果矩阵呢？ […]
单细胞视角下的微生物基因组代谢酶嵌入分析 – この中二病に爆焔を！ on 通过diamond软件进行blastp搜索2026年2月25日
[…] 我们在基于前面所论述的《通过diamond软件进行blastp搜索》对大规模的基因组数据进行了代谢酶的EC number的注释以及按照文章《基因组功能注释（EC Number）的向量化嵌入》的方法，得到了一个比较大的基因组代谢酶TF-IDF嵌入丰度矩阵后，如果将这里所得到的嵌入结果矩阵中的基因组，基于Family层级的物种分类分组看作为单细胞转录数据中的细胞分群结果，能否基于单细胞数据分析方法来分析和可视化我的基因组功能嵌入的结果矩阵呢？ […]
基因组代谢酶层级嵌入 – この中二病に爆焔を！ on 酶EC编号结构解析2026年2月23日
[…] 对于基于ec number来生成层级数据，我们直接使用《酶EC编号结构解析》文章末尾所展示的层级数据生成函数来实现。 […]
二叉树聚类可视化微生物群落代谢差异 – この中二病に爆焔を！ on 基因组功能注释（EC Number）的向量化嵌入2026年2月15日
[…] 在前面的一篇《基因组功能注释（EC Number）的向量化嵌入》博客文章中，针对所注释得到的微生物基因组代谢信息，进行基于TF-IDF的向量化嵌入之后。为了可视化向量化嵌入的效果，通过UMAP进行降维，然后基于降维的结果进行散点图可视化。通过散点图可视化可以发现向量化的嵌入结果可以比较好的将不同物种分类来源的微生物基因组区分开来。 […]
谢桂纲 on 通过diamond软件进行blastp搜索2026年2月15日
😲啊？

Posts in machine learning

机器学习驱动的生物标志物发现与疾病预测集成工具包

【机器学习】在R#语言之中使用XGBoost进行分类

【机器学习】K-D树介绍

使用R#语言进行ROC计算分析

Recent Posts

Archives

博客文章

Posts in machine learning

机器学习驱动的生物标志物发现与疾病预测集成工具包

【机器学习】在R#语言之中使用XGBoost进行分类

【机器学习】K-D树介绍

使用R#语言进行ROC计算分析

Recent Posts

Archives

博客文章

Tags