algorithm – Page 3 – この中二病に爆焔を！

估计阅读时长: 9 分钟https://github.com/xieguigang/sciBASIC 在实际应用的机器学习方法里，GradientTree Boosting （GBDT）是一个在很多应用里都很出彩的技术。XGBoost是一套提升树可扩展的机器学习系统。XGBoost全名叫（eXtreme Gradient Boosting）极端梯度提升。它是大规模并行boosted tree的工具，XGBoost 所应用的算法就是 GBDT（gradient boosting decision tree）的改进，既可以用于分类也可以用于回归问题中。 Order by Date Name […]

使用R#语言求解线性规划问题

谢桂纲 -

11:09 PM

估计阅读时长: 30 分钟https://github.com/xieguigang/sciBASIC/ 线性规划（Linear programming,简称LP）方法起源于20世纪40年代，由美国数学家乔治·丹齐格（George Dantzig）提出，并设计了著名的“单纯形法”。这种优化算法是运筹学中研究较早、发展较快、应用广泛、方法较成熟的一个重要分支，它是辅助人们进行科学管理的一种数学方法。研究线性约束条件下线性目标函数的极值问题的数学理论和方法。通俗点的来讲，就是我们基于这一种数学优化技术，用于在一组线性约束条件下，求解线性目标函数的最大值或最小值（就是在“有限资源”和“一定规则”下，找到“最佳方案”的一种方法）。 Order by Date Name Attachments linear-programming-example • 22 kB • 1067 click […]

【机器学习】K-D树介绍

谢桂纲 -

10:11 PM

估计阅读时长: 8 分钟https://github.com/xieguigang/sciBASIC 在进行无监督聚类分析的方法之中，我们在算法代码之中一般会遇到求解与某一个样本数据点最相似的数据点的计算过程。对于这个计算过程，一般而言我们是基于欧几里得距离来完成的。 Order by Date Name Attachments Visual a KDtree Search • 274 kB • 1057 […]

Automated Optimal Parameters for T-Distributed Stochastic Neighbor Embedding Improve Visualization and Allow Analysis of Large Datasets

【单细胞组学】PhenoGraph单细胞分型

谢桂纲 -

12:37 AM

估计阅读时长: 11 分钟PhenoGraph提供了与UMAP类似的算法过程进行单细胞组学数据的细胞分型处理操作。与UMAP方法相比，PhenoGraph并不会产生数据降维效果，仅仅产生数据点Cluster信息。如果需要将数据进行可视化，还需要借助于t-SNE算法将PhenoGraph的分型结果数据投影到一个二维平面上完成。 Order by Date Name Attachments Phenograph-image4 • 200 kB • 980 click 2021年8月9日Automated Optimal Parameters […]

【网络可视化】基于Louvain算法的网络集群发现

谢桂纲 -

6:54 PM

估计阅读时长: 11 分钟https://github.com/xieguigang/sciBASIC Louvain算法是基于模块度的网络节点集群发现算法。该算法在效率和效果上都表现较好，并且能够发现层次性的网络节点集群结构，其优化目标是最大化整个网络集群模块的模块度（Modularity）。 Order by Date Name Attachments graph • 2 MB • 1034 click 2021年8月7日Metavirome network […]

峰识别方法计算原理

谢桂纲 -

12:04 AM

估计阅读时长: 8 分钟https://github.com/xieguigang/sciBASIC/tree/master/Data_science/Mathematica/SignalProcessing 进行峰识别是在代谢组学原始数据分析之中进行定量分析的很重要的一环。在代谢组学之中，定量分析分为靶向定量，以及非靶向定量计算这两大部分。 Order by Date Name Attachments Figure12.36 • 50 kB • 1013 click 2021年7月10日view_signal • […]

绘制等高线图

谢桂纲 -

9:06 PM

估计阅读时长: 16 分钟https://github.com/xieguigang/sciBASIC 等高线指的是地形图上高程相等的相邻各点所连成的闭合曲线。把地面上海拔高度相同的点连成的闭合曲线，并垂直投影到一个水平面上，并按比例缩绘在图纸上，就得到等高线。 Order by Date Name Attachments 1_Contour • 487 kB • 1234 click 2021年6月30日Ms1Contour • […]

使用R#语言进行ROC计算分析

谢桂纲 -

2:20 PM

估计阅读时长: 8 分钟https://github.com/rsharp-lang/R-sharp 对于0，1两类分类问题，一些分类器得到的结果往往不是0，1这样的标签。如神经网络得到诸如0.5，0.8这样的分类结果。这时，我们人为取一个阈值，比如0.4，那么小于0.4的归为0类，大于等于0.4的归为1类，可以得到一个分类结果。同样，这个阈值我们可以取0.1或0.2等等。 Order by Date Name Attachments ROC • 221 kB • 1100 click 2021年6月28日Roccurves • […]

R#语言之中使用UMAP降维和t-SNE降维

谢桂纲 -

1:30 AM

估计阅读时长: 23 分钟https://github.com/rsharp-lang/R-sharp 降维是将数据由高维约减到低维的过程而用来揭示数据的本质低维结构。它作为克服“维数灾难”的途径在这些相关领域中扮演着重要的角色。在过去的几十年里，有大量的降维方法被不断地提出并被深入研究，其中常用的包括传统的降维算法如PCA和MDS；流形学习算法如UMAP、t-SNE、ISOMAP、LE以及LTSA等。 Order by Date Name Attachments MNIST-LabelledVectorArray-60000x100 • 230 kB • 1200 click 2021年6月27日MNIST-LabelledVectorArray-60000x100Euclidean_Distance • […]

SMILES字符串解析分子结构图

谢桂纲 -

11:30 PM

估计阅读时长: 7 分钟https://github.com/xieguigang/mzkit SMILES字符串是一种在计算化学领域内使用线性ASCII字符串描述一个具有空间立体结构的分子结构所使用的一种语言规范。因为在工作中会需要使用到SMILES字符串做一些分子结构相关的数据建模分析，所以编写了一个很方便的用于SMILES字符串解析操作的模块，在这篇文章中为大家讲解具体的工作原理。 Order by Date Name Attachments science-connection-structure-with-molecules-simple-modern-white-background-illustration_46577-719 • 36 kB • 1043 click 2021年6月9日abstract-molecules-structure-with-connect-spherical-particles_46577-689 • […]

July 2026
S	M	T	W	T	F	S
	1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

单细胞视角下的微生物基因组代谢酶嵌入分析 – この中二病に爆焔を！ on 基因组功能注释（EC Number）的向量化嵌入2026年2月25日
[…] 我们在基于前面所论述的《通过diamond软件进行blastp搜索》对大规模的基因组数据进行了代谢酶的EC number的注释以及按照文章《基因组功能注释（EC Number）的向量化嵌入》的方法，得到了一个比较大的基因组代谢酶TF-IDF嵌入丰度矩阵后，如果将这里所得到的嵌入结果矩阵中的基因组，基于Family层级的物种分类分组看作为单细胞转录数据中的细胞分群结果，能否基于单细胞数据分析方法来分析和可视化我的基因组功能嵌入的结果矩阵呢？ […]
单细胞视角下的微生物基因组代谢酶嵌入分析 – この中二病に爆焔を！ on 通过diamond软件进行blastp搜索2026年2月25日
[…] 我们在基于前面所论述的《通过diamond软件进行blastp搜索》对大规模的基因组数据进行了代谢酶的EC number的注释以及按照文章《基因组功能注释（EC Number）的向量化嵌入》的方法，得到了一个比较大的基因组代谢酶TF-IDF嵌入丰度矩阵后，如果将这里所得到的嵌入结果矩阵中的基因组，基于Family层级的物种分类分组看作为单细胞转录数据中的细胞分群结果，能否基于单细胞数据分析方法来分析和可视化我的基因组功能嵌入的结果矩阵呢？ […]
基因组代谢酶层级嵌入 – この中二病に爆焔を！ on 酶EC编号结构解析2026年2月23日
[…] 对于基于ec number来生成层级数据，我们直接使用《酶EC编号结构解析》文章末尾所展示的层级数据生成函数来实现。 […]
二叉树聚类可视化微生物群落代谢差异 – この中二病に爆焔を！ on 基因组功能注释（EC Number）的向量化嵌入2026年2月15日
[…] 在前面的一篇《基因组功能注释（EC Number）的向量化嵌入》博客文章中，针对所注释得到的微生物基因组代谢信息，进行基于TF-IDF的向量化嵌入之后。为了可视化向量化嵌入的效果，通过UMAP进行降维，然后基于降维的结果进行散点图可视化。通过散点图可视化可以发现向量化的嵌入结果可以比较好的将不同物种分类来源的微生物基因组区分开来。 […]
谢桂纲 on 通过diamond软件进行blastp搜索2026年2月15日
😲啊？

Posts in algorithm

【机器学习】在R#语言之中使用XGBoost进行分类

使用R#语言求解线性规划问题

【机器学习】K-D树介绍

【单细胞组学】PhenoGraph单细胞分型

【网络可视化】基于Louvain算法的网络集群发现

峰识别方法计算原理

绘制等高线图

使用R#语言进行ROC计算分析

R#语言之中使用UMAP降维和t-SNE降维

SMILES字符串解析分子结构图

Recent Posts

Archives

博客文章

Posts in algorithm

【机器学习】在R#语言之中使用XGBoost进行分类

使用R#语言求解线性规划问题

【机器学习】K-D树介绍

【单细胞组学】PhenoGraph单细胞分型

【网络可视化】基于Louvain算法的网络集群发现

峰识别方法计算原理

绘制等高线图

使用R#语言进行ROC计算分析

R#语言之中使用UMAP降维和t-SNE降维

SMILES字符串解析分子结构图

Recent Posts

Archives

博客文章

Tags