估计阅读时长: 7 分钟https://github.com/rsharp-lang/ggplot 一张统计图形就是从数据到几何对象(geometric object, 缩写为geom, 包括点、线、条形等)的图形属性(aesthetic attributes, 缩写为aes, 包括颜色、形状、大小等)的一个映射。此外, 图形中还可能包含数据的统计变换(statistical transformation, 缩写为stats), 最后绘制在某个特定的坐标系(coordinate system, 缩写为coord)中, 而分面(facet, 指将绘图窗口划分为若干个子窗口)则可以用来生成数据中不同子集的图形。 […]
估计阅读时长: 8 分钟https://github.com/xieguigang/Darwinism 对于LINQ数据查询引擎而言,其可以接收任意类型的数据源,进行数据查询。只要存在有相对应的数据源驱动程序即可。 Order by Date Name Attachments sqlite • 18 kB • 663 click 2021年6月19日sqlite-contents • […]
估计阅读时长: 11 分钟https://github.com/xieguigang/Darwinism LINQ(Language Integrated Query)技术是一种语言集成查询,即LINQ是VisualBasic语言之中的一种语法。其由微软公司于.NET Framework 3.5引入的一种SQL查询语言非常相似的数据查询语法。 Order by Date Name Attachments query • 51 kB • […]

Thank you so much for your thoughtful and encouraging comment! I truly appreciate the time you took to read through…
已经写完了
A very inspiring pipeline for turning EC-based annotations into genome-scale embeddings. Great post! I really enjoyed the clear, end‑to‑end pipeline…
[…] 基于之前的一篇文章《TF-IDF与N-gram One-hot文档嵌入算法原理》的学习,我们了解到可以将生物序列通过分解为kmer,组成单词集合用来表示一个文档。从而将长度各异的生物序列嵌入为长读一致的数值向量,进而可以用于后续的各种数据处理工作中。在这里,假设我们将基因组中的所有基因提取出来,然后通过blast比对的方式将基因注释到对应的ec number编号,既可以将某一个基因组使用一个ec number的集合来表示。通过这样子的数据表示方法,我们就可以将任意一个大小各异,基因组成不同的基因组都嵌入为具有相同维度特征的数值向量用于机器学习建模之类的工作。 […]
I'm fine, thank you. and you?