估计阅读时长: 13 分钟LCA算法是现代宏基因组学分析的核心技术之一,主要用于解决序列比对结果的分类不确定性问题。例如,我们在处理宏基因组测序reads的物种来源分类注释工作的时候,经常会思考一个问题:在宏基因组分析中,一个测序read通常与多个参考序列产生比对结果,这些结果可能指向不同的分类单元。那这条reads最可能的物种分类来源位置是怎样的,怎样可以通过一个算法,基于一系列的物种匹配结果来推断出一个合适的物种来源,既避免过度分类,又保证分类的准确性。 Order by Date Name Attachments family-tree-animal-kingdom • 99 kB • 122 click 2025年12月2日LCA • 245 […]
估计阅读时长: 2 分钟宏基因组学(Metagenomics)通过直接测序环境样本中的全部DNA,从而避免了传统培养方法的局限,使我们能够研究不可培养微生物的多样性。然而,当样本来自宿主相关环境(如人类或小鼠的肠道、土壤等)时,测序数据中不可避免地包含大量宿主自身的DNA序列。这些宿主序列会占据测序读数,增加分析成本,并可能干扰对微生物群落组成的准确推断。因此,在宏基因组数据分析中,去除宿主序列(Host Sequence Removal)是至关重要的预处理步骤。去除宿主序列的算法多种多样,其中基于k-mer的方法因其高效和可扩展性而备受关注。 Attachments Metagenomics • 211 kB • 116 click 2025年11月29日
Fig. 4 Weighted correlation network analysis (WGCNA) identifies IFNα-regulated mRNA and protein modules
估计阅读时长: 6 分钟微生物全基因组代谢网络(Genome-scale metabolic model, GEM)模型的发展历史可追溯至20世纪90年代。1994年,Varma和Palsson在《Applied and Environmental Microbiology》期刊上发表了开创性论文,题为"Stoichiometric flux balance models quantitatively predict growth and metabolic by-product […]
Fig. 4 Weighted correlation network analysis (WGCNA) identifies IFNα-regulated mRNA and protein modules
估计阅读时长: 2 分钟Github项目:https://github.com/xieguigang/marker 本程序包是一个基于R语言的综合性机器学习工具集,专门设计用于生物标志物发现和疾病预测模型的构建。该工具整合了多种机器学习算法,提供了从数据预处理、特征选择到模型构建与验证的完整工作流程,特别适用于代谢组学、基因组学等高维生物数据的分析研究。在这个程序包中,主要是通过marker函数来封装了从数据与处理到模型建立的每一个步骤,主要将程序包划分为了以下的工作步骤模块: 数据加载和预处理 初始可视化(PCA图)和统计分析(线性模型、描述性统计) 特征选择(如果未提供预选特征,则使用LASSO、随机森林和SVM-RFE三种方法) 数据分割为训练集和测试集 模型集成训练(逻辑回归、XGBoost、随机森林) 结果可视化(ROC曲线、特征重要性、SHAP分析等) 大家在这里可以通过下面的技术路线图来了解在所编写的程序包中所涉及到的分析内容与步骤: 所主要涉及到的模型算法原理 机器学习方法 数学原理 使用场景 应用 LASSO回归 LASSO(Least […]
估计阅读时长: 2 分钟Connected Component Labeling(连通组件标记算法)主要用于识别并标记二值图像中相互连接的像素区域(即连通区域)。 imports "geometry2D" from "graphics"; imports "machineVision" from "signalKit"; let raw = readImage("—Pngtree—five chickens […]
估计阅读时长: 7 分钟Boids算法(也称鸟群/鱼群算法)是Craig Reynolds于1986年提出的群体行为模拟模型,通过三条局部规则模拟鸟类、鱼群等生物群体的自组织运动。在Boids算法中,整个过程通过个体(称为“boid”)的局部交互实现全局有序行为,无需中央控制。每条规则计算个体与邻居的相互作用力,最终合力决定运动方向。Boids算法的精髓在于用局部规则涌现全局智能,其简洁性、可扩展性使其成为连接生物行为与工程控制的桥梁。从《蝙蝠侠》的蝙蝠群到无人机编队表演,从游戏生态到交通优化,Boids持续证明:自然界的简单规则,足以驱动复杂系统的有序演化。 Order by Date Name Attachments Boids • 28 MB • 326 click 2025年8月10日Boids • […]
估计阅读时长: 30 分钟https://github.com/xieguigang/Moira LBM(格子玻尔兹曼方法)凭借其介观模型特性,在流体模拟领域展现出显著技术优势:其碰撞与迁移过程仅依赖局部数据,天然适配GPU并行计算,CUDA实现可达成10–100倍加速比;处理复杂几何边界时无需生成体网格,通过格点标记固体并配合反弹边界即可高效实现,尤其适用于多孔介质等场景;同时,通过扩展分布函数可灵活耦合多物理场,例如引入温度分布函数模拟传热,或采用伪势模型捕获多相流中的相分离现象。尽管在高速或高粘度流动中存在局限,但通过MRT算法优化及GPU硬件加速,LBM已成为微流动、多孔介质、多相流等复杂流体模拟的理想工具,在航空工程等领域已有成功应用案例,其应用前景持续拓展。 Order by Date Name Attachments frame-00093 • 2 MB • 329 click 2025年8月9日ffmpeg • […]
估计阅读时长: 10 分钟目前经过改进和优化之后的基于mzkit代码库底层的msimaging质谱成像软件包在样本可视化上进行了非常多的改进,诸如: 添加样本原始背景叠加 目前进行质谱成像可视化,程序包不仅仅可以使用任意rgb纯色来作为可视化的背景。目前还可以支持直接使用原始数据的背景作为质谱成像的显示背景。进行这个显示的秘诀就在于简单的在脚本中添加一个TIC背景图层:geom_MSIbackground("TIC") ggplot(msi_data, padding = "padding: 200px 600px 200px 250px;") + geom_MSIbackground("TIC") # rendering of […]
估计阅读时长: 12 分钟https://github.com/xieguigang/Microsoft.VisualBasic.Drawing 最近在Linux服务器上面搞数据分析,因为Linux服务器只能够是通过SSH远程登陆上去的,没有图形化界面,所以想查看生成的结果图的话,只能够将图片文件通过FileZilla工具从服务器上下载下来在本地查看。这种方法非常的繁琐,至少相对于在服务器上跑完了程序后直接查看结果这样子的操作要复杂一些。 如果要能够直接在Linux服务器上查看图片,可行的一个方法就是,如果你有服务器的Root权限的话,可以将你的目录通过smb协议共享出来,在windows上挂在为共享文件夹,这样子在Linux服务器上跑完命令后,再回到Windows的Explorer程序上刷新一下。但是这个对于网络地理位置较远的服务器而言,可能网络速度不是很好,对于几十兆的图片结果文件,可能刷新会存在延迟,你可能需要刷新好几次才会更新Windows上的图片缩略图;并且通过smb开放共享文件夹你还需要记住smb的第二套账号密码,如果账号密码过于简单,那么你的Linux服务器上的数据安全性就会存在问题。 另一个方案就是通过SSH-FS方案,通过你的ssh账号将远程Linux服务器挂载为本地硬盘,来查看服务器上生成的图片文件。但是这个也和上面的方案一样会受限于网络传输速度的影响。 看来,我们只能够在Linux的终端上想办法来进行图片文件的查看了。 Order by Date Name Attachments Capture • 269 kB • 342 […]
估计阅读时长: 11 分钟在进行热图的渲染的时候,我们需要首先将需要进行渲染的数据转换为一个0到1之间的灰度值,然后基于所设定的颜色列表,将灰度值映射为颜色列表的索引号,获取某一个灰度对应的颜色,从而完成对热图的渲染过程。在这个过程中,假若我们是针对热图需要获取得到一个连续的颜色列表,则我们还需要使用插值算法针对基础的关键颜色列表进行插值计算,生成调色板。 Order by Date Name Attachments volcano_ggthemes_Traffic • 17 kB • 314 click 2025年6月12日volcano_ggthemes_excel_Ion_Boardroom • 15 […]
博客文章
January 2026
S M T W T F S
 123
45678910
11121314151617
18192021222324
25262728293031
  1. […] 在前面写了一篇文章来介绍我们可以如何通过KEGG的BHR评分来注释直系同源。在KEGG数据库的同源注释算法中,BHR的核心思想是“双向最佳命中”。它比简单的单向BLAST搜索(例如,只看你的基因A在数据库里的最佳匹配是基因B)更为严格和可靠。在基因注释中,这种方法可以有效减少因基因家族扩张、结构域保守等原因导致的假阳性注释,从而更准确地识别直系同源基因,而直系同源基因通常具有相同的功能。在今天重新翻看了下KAAS的帮助文档之后,发现KAAS系统中更新了下面的Assignment score计算公式: […]