估计阅读时长: 22 分钟limma(Linear Models for Microarray Data)是一个基于R语言的Bioconductor包,最初用于微阵列数据的差异表达分析,现已扩展支持RNA-seq数据。其核心思想是利用线性模型(Linear Models)对基因表达数据进行建模,并结合经验贝叶斯(Empirical Bayes)方法在小样本情况下增强统计推断的稳健性。 Order by Date Name Attachments limma • 119 kB […]
估计阅读时长: 30 分钟零分布(null distribution)是指在假设零假设(null hypothesis)成立的情况下,某个统计量随机取值的概率分布。在统计假设检验中,我们通常提出一个零假设(例如“两组数据没有显著差异”或“观察到的模式仅由随机因素造成”),然后根据观测数据计算一个检验统计量。零分布描述了这个统计量在零假设为真时的分布情况。通过将实际观测到的统计量与零分布进行比较,我们可以计算出P-value:即在零假设下,出现等于或更极端观测结果的概率。如果P-value很小(例如低于预设的显著性水平α),我们就认为零假设不太可能成立,从而拒绝零假设,认为观测结果是统计显著的。 Order by Date Name Attachments image-2 • 66 kB • 174 click 2025年12月16日NULL-pvalue […]
估计阅读时长: 6 分钟微生物全基因组代谢网络(Genome-scale metabolic model, GEM)模型的发展历史可追溯至20世纪90年代。1994年,Varma和Palsson在《Applied and Environmental Microbiology》期刊上发表了开创性论文,题为"Stoichiometric flux balance models quantitatively predict growth and metabolic by-product […]
估计阅读时长: 2 分钟Github项目:https://github.com/xieguigang/marker 本程序包是一个基于R语言的综合性机器学习工具集,专门设计用于生物标志物发现和疾病预测模型的构建。该工具整合了多种机器学习算法,提供了从数据预处理、特征选择到模型构建与验证的完整工作流程,特别适用于代谢组学、基因组学等高维生物数据的分析研究。在这个程序包中,主要是通过marker函数来封装了从数据与处理到模型建立的每一个步骤,主要将程序包划分为了以下的工作步骤模块: 数据加载和预处理 初始可视化(PCA图)和统计分析(线性模型、描述性统计) 特征选择(如果未提供预选特征,则使用LASSO、随机森林和SVM-RFE三种方法) 数据分割为训练集和测试集 模型集成训练(逻辑回归、XGBoost、随机森林) 结果可视化(ROC曲线、特征重要性、SHAP分析等) 大家在这里可以通过下面的技术路线图来了解在所编写的程序包中所涉及到的分析内容与步骤: 所主要涉及到的模型算法原理 机器学习方法 数学原理 使用场景 应用 LASSO回归 LASSO(Least […]
估计阅读时长: 2 分钟Connected Component Labeling(连通组件标记算法)主要用于识别并标记二值图像中相互连接的像素区域(即连通区域)。 imports "geometry2D" from "graphics"; imports "machineVision" from "signalKit"; let raw = readImage("—Pngtree—five chickens […]
估计阅读时长: 7 分钟Boids算法(也称鸟群/鱼群算法)是Craig Reynolds于1986年提出的群体行为模拟模型,通过三条局部规则模拟鸟类、鱼群等生物群体的自组织运动。在Boids算法中,整个过程通过个体(称为“boid”)的局部交互实现全局有序行为,无需中央控制。每条规则计算个体与邻居的相互作用力,最终合力决定运动方向。Boids算法的精髓在于用局部规则涌现全局智能,其简洁性、可扩展性使其成为连接生物行为与工程控制的桥梁。从《蝙蝠侠》的蝙蝠群到无人机编队表演,从游戏生态到交通优化,Boids持续证明:自然界的简单规则,足以驱动复杂系统的有序演化。 Order by Date Name Attachments Boids • 28 MB • 455 click 2025年8月10日Boids • […]
估计阅读时长: 30 分钟https://github.com/xieguigang/Moira LBM(格子玻尔兹曼方法)凭借其介观模型特性,在流体模拟领域展现出显著技术优势:其碰撞与迁移过程仅依赖局部数据,天然适配GPU并行计算,CUDA实现可达成10–100倍加速比;处理复杂几何边界时无需生成体网格,通过格点标记固体并配合反弹边界即可高效实现,尤其适用于多孔介质等场景;同时,通过扩展分布函数可灵活耦合多物理场,例如引入温度分布函数模拟传热,或采用伪势模型捕获多相流中的相分离现象。尽管在高速或高粘度流动中存在局限,但通过MRT算法优化及GPU硬件加速,LBM已成为微流动、多孔介质、多相流等复杂流体模拟的理想工具,在航空工程等领域已有成功应用案例,其应用前景持续拓展。 Order by Date Name Attachments frame-00093 • 2 MB • 455 click 2025年8月9日ffmpeg • […]

Thank you so much for your thoughtful and encouraging comment! I truly appreciate the time you took to read through…
已经写完了
A very inspiring pipeline for turning EC-based annotations into genome-scale embeddings. Great post! I really enjoyed the clear, end‑to‑end pipeline…
[…] 基于之前的一篇文章《TF-IDF与N-gram One-hot文档嵌入算法原理》的学习,我们了解到可以将生物序列通过分解为kmer,组成单词集合用来表示一个文档。从而将长度各异的生物序列嵌入为长读一致的数值向量,进而可以用于后续的各种数据处理工作中。在这里,假设我们将基因组中的所有基因提取出来,然后通过blast比对的方式将基因注释到对应的ec number编号,既可以将某一个基因组使用一个ec number的集合来表示。通过这样子的数据表示方法,我们就可以将任意一个大小各异,基因组成不同的基因组都嵌入为具有相同维度特征的数值向量用于机器学习建模之类的工作。 […]
I'm fine, thank you. and you?