估计阅读时长: 9 分钟https://github.com/xieguigang/sciBASIC 应用程序管线模式就是我们将执行时间比较长,计算任务比较重量级的代码放到一个新的子进程之中执行。通过子进程进行任务执行的应用程序管线模式在各个操作系统上的大型应用程序中都会涉及到。 Order by Date Name Attachments processexplorer • 206 kB • 611 click 2021年6月26日vs_pipeline • […]
MS-Imaging in mzkit software
估计阅读时长: 3 分钟http://mzkit.org/ 质谱成像是以质谱技术为基础的成像方法,该方法通过质谱直接扫描生物样品成像,可以在同一张组织切片或组织芯片上同时分析数百种分子的空间分布特征。 Order by Date Name Attachments HR2MSI mouse urinary bladder S096 - optical image • […]
估计阅读时长: 15 分钟https://github.com/xieguigang/Darwinism NetCDF文件格式(Network Common Data Format)是一种以network byteorder进行编码的CDF数据文件格式。其广泛应用于大气科学、水文、海洋学、环境模拟、地球物理等诸多数据科学计算分析领域内的数据存储。 Order by Date Name Attachments netcdf • 2 MB • […]
估计阅读时长: 8 分钟https://github.com/xieguigang/Darwinism 对于LINQ数据查询引擎而言,其可以接收任意类型的数据源,进行数据查询。只要存在有相对应的数据源驱动程序即可。 Order by Date Name Attachments sqlite • 18 kB • 684 click 2021年6月19日sqlite-contents • […]
估计阅读时长: 13 分钟https://github.com/xieguigang/voyager-1 旅行者一号是一艘由NASA在1977年9月5日发射的宇宙飞船,其只比旅行者2号晚16天发射。旅行者一号除了担负着研究我们的太阳系的任务之外,在这艘飞船之上还搭载着一张我们尝试对外界介绍我们的文明的一张名片为“地球之音”的铜质镀金激光唱片,这张金唱片承载着人类与宇宙星系沟通的使命。 Order by Date Name Attachments 1080px-The_Sounds_of_Earth_Record_Cover_-_GPN-2000-001978 • 330 kB • 768 click 2021年6月18日scripting • […]
估计阅读时长: 11 分钟https://github.com/xieguigang/Darwinism LINQ(Language Integrated Query)技术是一种语言集成查询,即LINQ是VisualBasic语言之中的一种语法。其由微软公司于.NET Framework 3.5引入的一种SQL查询语言非常相似的数据查询语法。 Order by Date Name Attachments query • 51 kB • […]
估计阅读时长: 5 分钟https://github.com/rsharp-lang/Rserver 在R语言之中,存在有一个FastRWeb的框架可以将R语言编写的脚本以http服务的方式运行于后台,供其他的语言进行调用。在R#语言之中,我也模仿着R语言之中的FastRWeb框架,创建了一个用于R#语言的web服务的程序包框架。 Order by Date Name Attachments httpr_commandline • 28 kB • 633 click 2021年6月16日http_PUT_test • […]
估计阅读时长: 12 分钟https://github.com/biocad-cloud/web HTTP协议(Hypertext Transfer Protocol)是建立在TCP协议基础上的一种文件传输协议。 Order by Date Name Attachments https-secure-webpages_waifu2x_art_noise3_scale_tta_1 • 770 kB • 644 click […]
估计阅读时长: 7 分钟https://github.com/xieguigang/sciBASIC 在分布式哈希表网络之中,Peer节点之间进行分布式数据传输都是使用的B编码。B编码格式与JSON编码格式较为相似,均以“键:值”形式存储,我们可以将B编码的字符串整个内容理解为一个经过特殊编码的字典,或者一个近似的JSON。B编码与JSON编码,这两种编码都仅包含有4种最基础的数据类型:字符串类型,数值类型,数组类型与对象字典类型。 Order by Date Name Attachments DHT-dark-all • 416 kB • 595 click 2021年6月4日bdecode • […]
估计阅读时长: 6 分钟https://github.com/xieguigang/linux-profiler 废话不多说,首先给出一个 demo报告链接 给大家看看这个小工具的成品输出。 在去年的工作中,因为公司需要购买新的服务器做集群计算,需要一个工具来记录之前的服务器在数据分析上的性能瓶颈。于是花了两天的时间赶出来了这个专门应用于Linux系统的性能记录工具。这个小工具是一个开源项目,大家可以在Github上阅读这个开源项目(linux-profiler)的源代码。 Order by Date Name Attachments systemLoad • 53 kB • 702 […]
博客文章
February 2026
S M T W T F S
1234567
891011121314
15161718192021
22232425262728
  1. […] 在前面的一篇《基因组功能注释(EC Number)的向量化嵌入》博客文章中,针对所注释得到的微生物基因组代谢信息,进行基于TF-IDF的向量化嵌入之后。为了可视化向量化嵌入的效果,通过UMAP进行降维,然后基于降维的结果进行散点图可视化。通过散点图可视化可以发现向量化的嵌入结果可以比较好的将不同物种分类来源的微生物基因组区分开来。 […]

  2. […] 最近的工作中我需要按照之前的这篇博客文章《基因组功能注释(EC Number)的向量化嵌入》中所描述的流程,将好几十万个微生物基因组的功能蛋白进行酶编号的比对注释,然后基于注释结果进行向量化嵌入然后进行数据可视化。通过R#脚本对这些微生物基因组的蛋白fasta序列的提取操作,最终得到了一个大约是58GB的蛋白序列。然后将这个比较大型的蛋白序列比对到自己所收集到的ec number注释的蛋白序列参考数据库之上。 […]