数据结构 – この中二病に爆焔を！

估计阅读时长: < 1 分钟UPGMA（Unweighted Pair Group Method with Arithmetic Mean，非加权配对组平均法）是一种经典的基于距离矩阵构建系统发育树的聚类算法。其核心思想是假设进化速率恒定（分子钟假说），通过迭代合并距离最近的两个类群（或序列）来构建树。UPGMA算法具有原理简单，计算速度快，易于理解和实现。对于符合分子钟假说（即所有分支进化速率相同）的数据，能给出正确的拓扑结构这些优点。但是其“进化速率恒定”的假设在现实中常常不成立。如果数据存在明显的速率差异（即存在长枝），UPGMA可能会构建出错误的树（拓扑结构错误）。因此，它更适用于进化速率相对均匀的近缘物种或基因的比较。

RData向R#环境的反序列化

谢桂纲 -

7:23 AM

估计阅读时长: 18 分钟https://github.com/rsharp-lang/R-sharp/tree/master/studio/RData 如果我们需要将上游的R数据分析环境之中的数据集串流至下游的R#数据分析环境之中，构建出一个不同的数据分析环境混合在一块的自动化数据分析流程。我们一般会需要将上游的R环境之中的数据符号对象以RData的格式串流到下游环境中，下游环境进行反序列化加载数据到环境中执行相应的分析。例如在下游执行定制化程度更高的数据作图，将数据以在上游R环境中比较困难实现的其他二进制文件格式进行保存，或者进行分布式的跨物理机的集群化计算，等等用于实现单纯依靠R环境所比较困难实现的功能。从上一篇博客文章之中我们比较下详细的了解了RData数据文件的文件格式以及对应的读取操作。在这篇文章之中我们来了解如何基于我们通过对RData文件读取操作所获取得到的链表数据进行反序列化操作，将R环境之中的数据集串流加载到下游的R#数据分析环境之中。 Order by Date Name Attachments rstudio-og-fb-1-1024x538 • 39 kB • 710 click 2021年12月4日read-vector […]

解析R语言的RData数据格式

谢桂纲 -

4:00 AM

估计阅读时长: 19 分钟https://github.com/rsharp-lang/R-sharp/tree/master/studio/RData 在最近的工作中，需要将Docker容器内的R环境之中的数据集无缝的串流到下游的.NET Core数据分析环境之中，基于.NET Core代码库进行数据可视化之类的操作。目前在R环境与.NET Core环境之间进行交互仅存在有一个比较出名的R.NET项目。但是对于使用R.NET项目而言，我们只能够在.NET Core环境之中调用R环境做数据分析，并不能够实现R环境调用.NET Core数据分析环境。并且R.NET项目必须要依赖于R环境对应的库文件，所以使用R.NET并不能够满足我们在Docker容器间进行R数据分析环境与.Net Core数据分析环境之间的无缝衔接。 Order by Date Name Attachments RStudio_Logo • 185 […]

March 2026
S	M	T	W	T	F	S
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

单细胞视角下的微生物基因组代谢酶嵌入分析 – この中二病に爆焔を！ on 基因组功能注释（EC Number）的向量化嵌入2026年2月25日
[…] 我们在基于前面所论述的《通过diamond软件进行blastp搜索》对大规模的基因组数据进行了代谢酶的EC number的注释以及按照文章《基因组功能注释（EC Number）的向量化嵌入》的方法，得到了一个比较大的基因组代谢酶TF-IDF嵌入丰度矩阵后，如果将这里所得到的嵌入结果矩阵中的基因组，基于Family层级的物种分类分组看作为单细胞转录数据中的细胞分群结果，能否基于单细胞数据分析方法来分析和可视化我的基因组功能嵌入的结果矩阵呢？ […]
单细胞视角下的微生物基因组代谢酶嵌入分析 – この中二病に爆焔を！ on 通过diamond软件进行blastp搜索2026年2月25日
[…] 我们在基于前面所论述的《通过diamond软件进行blastp搜索》对大规模的基因组数据进行了代谢酶的EC number的注释以及按照文章《基因组功能注释（EC Number）的向量化嵌入》的方法，得到了一个比较大的基因组代谢酶TF-IDF嵌入丰度矩阵后，如果将这里所得到的嵌入结果矩阵中的基因组，基于Family层级的物种分类分组看作为单细胞转录数据中的细胞分群结果，能否基于单细胞数据分析方法来分析和可视化我的基因组功能嵌入的结果矩阵呢？ […]
基因组代谢酶层级嵌入 – この中二病に爆焔を！ on 酶EC编号结构解析2026年2月23日
[…] 对于基于ec number来生成层级数据，我们直接使用《酶EC编号结构解析》文章末尾所展示的层级数据生成函数来实现。 […]
二叉树聚类可视化微生物群落代谢差异 – この中二病に爆焔を！ on 基因组功能注释（EC Number）的向量化嵌入2026年2月15日
[…] 在前面的一篇《基因组功能注释（EC Number）的向量化嵌入》博客文章中，针对所注释得到的微生物基因组代谢信息，进行基于TF-IDF的向量化嵌入之后。为了可视化向量化嵌入的效果，通过UMAP进行降维，然后基于降维的结果进行散点图可视化。通过散点图可视化可以发现向量化的嵌入结果可以比较好的将不同物种分类来源的微生物基因组区分开来。 […]
谢桂纲 on 通过diamond软件进行blastp搜索2026年2月15日
😲啊？

Posts in 数据结构

UPGMA算法构建进化树

RData向R#环境的反序列化

解析R语言的RData数据格式

Recent Posts

Archives

博客文章

Posts in 数据结构

UPGMA算法构建进化树

RData向R#环境的反序列化

解析R语言的RData数据格式

Recent Posts

Archives

博客文章

Tags