文章阅读目录大纲
微生物全基因组代谢网络(Genome-scale metabolic model, GEM)模型的发展历史可追溯至20世纪90年代。1994年,Varma和Palsson在《Applied and Environmental Microbiology》期刊上发表了开创性论文,题为"Stoichiometric flux balance models quantitatively predict growth and metabolic by-product secretion in wild-type Escherichia coli W3110",首次提出了通量平衡分析(Flux Balance Analysis, FBA)的概念和方法。FBA是一种用数学方法对代谢网络中的代谢流进行拟合分析的系统生物学手段,与传统的基于实验的代谢通量分析(MFA)不同,FBA通过线性规划方法在约束条件下求解最优解。
进入21世纪后,随着基因组测序技术的快速发展和生物信息数据库的建立,GEM模型进入快速发展阶段。Bernhard Palsson团队在这一时期发挥了关键作用,他们开发了COBRA(Constraint-Based Reconstruction and Analysis)工具集,最初在MATLAB中实现,后来扩展到Python、Julia等多种编程环境。COBRA工具集现已成为GEM建模的主流平台,为研究者提供了完整的建模、分析和可视化功能。
2010年,Palsson团队在《Nature Biotechnology》发表了题为“What is flux balance analysis?”的综述文章,系统阐述了FBA的理论基础和COBRA工具的使用示例。这一时期还见证了多个重要里程碑:DFBA(动态FBA)模型的提出(2002年)、MOMA(最小代谢调整)模型的提出(2002年)以及后续的M_DFBA和idFBA等扩展方法。
近年来,随着宏基因组学和多组学技术的发展,GEM建模进一步扩展到微生物群落层面。2021年开发的MetaGEM工具实现了直接从宏基因组数据重建样本特异性代谢模型,避免了依赖参考基因组的局限性。同时,机器学习和人工智能技术开始被整合到GEM建模中,用于提高模型预测精度和进行大规模模型分析。
构建原理简单概述
GEM模型的构建是一个建立基因-蛋白质-生化反应之间联系的过程,涉及基因组、蛋白质和酶、中间代谢产物、生化反应、代谢途径等多方面数据。构建过程通常遵循以下步骤:
1. 基因组注释与功能预测
首先对目标微生物的基因组进行注释,识别编码代谢酶的基因。常用工具包括Prokka、RAST、DFASTA等。注释过程中,将基因序列与已知的功能数据库进行比对,预测基因的酶学委员会(EC)编号和功能描述。
在基因组注释阶段,Local BLAST和结构域搜索是两种常用的功能预测方法,它们各自具有不同的优势,并适用于模型中不同组件的注释工作:
- Local BLAST(本地BLAST):通过将目标基因序列与本地构建的BLAST数据库进行相似性比对,快速找到同源基因。Local BLAST的优势在于速度和定制性:研究者可以在本地服务器上运行BLAST,无需依赖网络,能够处理大规模基因组数据并自定义数据库。这种方法特别适用于直系同源基因的识别和已知功能基因的快速验证。例如,KEGG的KAAS服务器就利用Local BLAST将查询序列与KEGG GENES数据库比较,从而实现功能注释和通路映射。在GEM建模中,Local BLAST常用于确认基因功能和补充缺失注释,确保模型包含正确的酶学信息。
- 结构域搜索(Domain Search):通过专门工具(如NCBI的CD-Search)识别蛋白质序列中的保守结构域,从而推断功能。结构域搜索的优势在于对远缘同源关系的敏感性和功能精细定位:即使序列整体相似性较低,只要存在关键功能结构域,即可推断出功能。例如,NCBI的保守结构域数据库(CDD)整合了Pfam、SMART、COG等多个数据库,能够全面检测蛋白质中的功能模块。在GEM建模中,结构域搜索常用于注释未知或假设蛋白、发现新功能位点以及验证酶的催化结构域。这种方法有助于揭示蛋白质的功能域组成(如激酶结构域、DNA结合结构域等),从而更精确地将基因与代谢反应关联起来。
综上,Local BLAST侧重于序列相似性,适合快速比对大量序列和获取已知功能注释;而结构域搜索侧重于功能模块,适合解析复杂蛋白和发现新功能。在GEM模型构建中,两者常结合使用:先用Local BLAST获取初步注释,再用结构域搜索验证和补充功能信息,从而提高注释的准确性和完整性。
2. 代谢反应数据库整合
构建GEM模型需要整合多个权威代谢反应数据库,这些数据库提供了生化反应的化学计量关系、热力学信息和反应机制等关键数据。主要数据库包括:
- BiGG Models:提供高质量的手工整理代谢模型,包含详细的化学反应、代谢物和基因-蛋白质-反应(GPR)关联信息
- KEGG:京都基因与基因组百科全书,提供 pathway maps 和酶功能信息
- BioCyc:包含多个物种的代谢 pathway 数据库
- ModelSEED:自动化的代谢模型重建平台
- KBase:集成多种生物信息学分析工具的在线平台
3. 基因-蛋白质-反应(GPR)关联建立
通过GPR规则将基因与酶、酶与反应关联起来,形成完整的代谢网络。这一过程需要考虑酶的辅助因子、辅酶需求和反应的可逆性等因素。GPR规则通常使用布尔逻辑来描述基因产物(如酶的亚基或同工酶)如何共同催化一个反应。例如:
- 单基因酶:若一个反应由单一基因编码的酶催化,则该基因与反应直接关联。
- 同工酶(OR关系):若多个基因编码的不同酶(同工酶)均能独立催化同一反应,则这些基因以“OR”逻辑关联。例如,基因A或基因B任一表达即可催化反应R,表示为 (A OR B) -> R。这意味着只要有一个基因表达,反应即可进行。
- 酶复合物(AND关系):若一个反应需要由多个基因编码的酶亚基共同组装成复合物才能催化,则这些基因以“AND”逻辑关联。例如,基因C和基因D编码的亚基必须同时存在才能催化反应S,表示为 (C AND D) -> S。这意味着所有相关基因都必须表达,反应才能进行。
- 复合规则:在实际代谢网络中,GPR规则可能同时包含AND和OR逻辑。例如,一个反应可能由两个同工酶复合物催化,每个复合物又由多个亚基组成。此时规则可表示为 ((A AND B) OR (C AND D)) -> R,表示只要其中一个复合物完整,反应即可进行。
建立GPR关联时,需要参考数据库中的酶学信息(如EC号)和文献中的酶复合物组成。一些工具(如GPRuler)可以自动从多个生物数据库中挖掘文本和数据,重建GPR规则。准确的GPR关联对于后续的基因敲除模拟和基因表达数据整合至关重要。
4. 代谢网络重建
基于上述信息构建代谢网络的化学计量矩阵,定义反应和代谢物之间的化学计量关系。这一步骤需要确保质量守恒和电荷平衡,消除热力学上不可能的反应循环。在重建过程中,需要特别关注热力学可行性,以确保所构建的代谢网络在物理上是有效的。热力学原理为代谢网络提供了额外的约束条件,帮助排除不合理的反应方向和循环。主要的热力学约束方法包括:
- 能量平衡分析(Energy Balance Analysis, EBA):EBA是一种在通量平衡分析基础上引入热力学约束的方法。它要求细胞内中间代谢物的浓度处于稳态,即生成速率等于消耗速率。EBA通过将热力学定律(如能量守恒)融入约束条件,确保模拟结果在物理上可行。研究表明,EBA能够消除FBA中可能出现的热力学不可行的结果,使预测的代谢流分布更加符合实际。
- 热力学基础的代谢通量分析(Thermodynamics-based Flux Analysis, TMFA):TMFA是一种更高级的热力学约束方法,它不仅考虑稳态假设,还考虑反应自由能与代谢物浓度之间的关系。TMFA能够在没有预先反应方向信息的情况下,定量预测代谢物浓度和反应自由能,同时考虑热力学估计的不确定性。通过将E. coli的全基因组代谢网络模型应用于TMFA,研究者评估了热力学约束对通量空间的影响,并验证了TMFA在表型预测和生成假设方面的有效性。
- 系统化热力学约束分配:Kümmel等人提出了一种算法,可自动为代谢网络模型中的反应分配热力学方向。该算法首先利用所有可用的实验测定Gibbs自由能来识别可逆反应,然后基于网络拓扑和启发式规则进一步分配反应方向。其目标是确保反应网络在能量等效物的生产方面是热力学可行的,从而防止出现热力学上不可能的循环操作。
- 酶约束模型(ecGEM):除了热力学约束,还可以引入酶动力学约束来提高模型精度。ecGEM模型通过将整个细胞代谢网络受限于酶的催化能力,从而能够更准确地模拟最大生长能力、代谢转移和蛋白质组分配。这种模型依赖于全基因组范围的酶动力学参数(如kcat值),但由于实验测量的kcat值稀疏且存在变异,ecGEM的构建一直具有挑战性。
通过上述热力学原理的应用,可以确保重建的代谢网络在物理上是有效的,避免出现热力学循环或能量不平衡的不合理情况。
发现未知代谢网络信息的途径
目前通过数据库注释只能重建出已知的网络信息,要发现或增加未知的代谢网络信息,需要借助更先进的数据挖掘和预测方法。其中,文献文本挖掘和机器学习是两种主要的拓展途径。
1. 文献文本挖掘
文献文本挖掘(Text Mining)是指从海量的科学文献中自动提取有价值的信息和知识。在代谢网络领域,文本挖掘可用于发现新的代谢反应、酶功能或代谢途径,从而补充数据库中尚未收录的信息。通过分析大量文献中的描述和上下文,文本挖掘能够识别出潜在的代谢关联和功能模式,为模型重建提供线索。
例如,有研究利用自然语言处理(NLP)技术从生物医学文献中提取基因-蛋白质-反应关联信息,以辅助代谢网络的重建。这种方法可以揭示隐藏在文献中的代谢知识,包括罕见物种的代谢途径或新发现的酶功能。文本挖掘的优势在于能够充分利用已有知识,发现数据库中尚未收录的代谢信息,从而扩展模型的覆盖范围。
然而,文本挖掘也面临挑战,如文献中信息的不一致性和歧义性。因此,现代文本挖掘系统通常结合本体论和知识图谱来提高准确性。通过将提取的信息映射到标准化的本体(如GO、KEGG pathway等),可以更好地整合到代谢模型中。此外,文本挖掘还可以用于验证和更新已有的代谢网络,例如检测文献中新增的反应或修正错误注释。
2. 机器学习预测
机器学习方法为发现未知代谢网络信息提供了全新的思路。通过训练模型从已知的代谢数据中学习模式,机器学习可以预测缺失的反应、推断酶的功能或设计新的代谢途径。这种方法特别适用于数据库不完整或存在知识空白的情况,能够基于有限的数据生成合理的假设。例如,最近提出的CLOSEgaps框架(https://arxiv.org/abs/2409.13259)利用深度学习来识别代谢网络中的缺失反应。CLOSEgaps将代谢网络建模为超图,并学习其拓扑特征来识别空白和缺口,通过利用假设反应来填补这些空白。这种创新方法能够同时表征已知和假设反应,在代谢网络中揭示出新的连接。
此外,机器学习还可用于预测酶的功能和动力学参数。例如,有研究利用机器学习模型根据蛋白质序列和结构预测其kcat值,从而为酶约束模型提供数据支持。还有学者开发了基于图神经网络和随机森林的代谢途径分类器,用于预测查询化合物所属的代谢途径类别。这些方法展示了机器学习在扩展代谢网络知识方面的巨大潜力。
缺失反应填补(Gap Filling)
代谢网络重建过程中常出现缺口,即某些代谢物无法在现有网络中合成或降解,导致模型无法模拟特定表型。Gap Filling算法旨在识别并添加最少数量的新反应,以填补这些空白。传统的Gap Filling方法通常基于简约性原则,即添加最少的反应使模型能够产生生物质。然而,这种方法可能引入生物学上不真实的反应,需要谨慎验证。
机器学习为Gap Filling带来了新的思路。例如,基于似然性的Gap Filling方法利用基因组信息来预测替代功能,并估计其可能性,从而生成更符合基因组一致性的解决方案。与传统方法相比,基于似然性的方法能够识别出更多生物学相关的解决方案,并提高模型与代谢基因功能的一致性。
深度学习技术也被用于Gap Filling。前述的CLOSEgaps框架将代谢网络视为超图,并利用深度学习模型学习其超拓扑特征来识别缺失反应。这种方法将Gap Filling问题转化为超边预测问题,通过学习已知反应的模式,能够预测假想反应来填补网络空白。CLOSEgaps在各种GEM上的测试表明,其准确填补率超过96%,并显著提高了对关键代谢物的预测能力。
酶功能与动力学参数预测
酶的动力学参数(如kcat)对于构建酶约束模型至关重要,但实验测定值稀疏且存在变异。机器学习可以用于预测这些缺失参数,从而扩展模型的应用范围。例如,有研究利用蛋白质的序列和结构特征训练模型来预测kcat值,为酶约束模型提供数据支持。此外,机器学习还可用于预测酶的功能。当基因注释缺失或模糊时,可以通过序列相似性和机器学习模型推断基因编码的酶可能具有的功能。这种方法常用于自动化注释过程,提高重建效率。
代谢途径分类与预测
机器学习模型能够根据化合物的结构或基因的表达模式,预测其所属的代谢途径或功能类别。例如,有研究开发了基于图卷积网络(GCN)和随机森林的分类器,用于预测查询化合物所属的11种代谢途径类别。这些模型利用化合物的分子指纹作为输入,通过学习已知途径的模式,实现了对未知化合物的分类。此类方法在药物发现和代谢工程中具有重要价值。通过预测新化合物可能涉及的代谢途径,研究者可以提前评估其生物活性和潜在的相互作用,从而指导实验设计。
多组学数据整合
机器学习在整合多组学数据以构建条件特异性模型方面也发挥着关键作用。转录组、蛋白质组和代谢组数据可以提供特定条件下基因表达和代谢物浓度的信息,机器学习模型能够从中学习模式,并据此调整代谢网络的结构和参数。例如,有研究利用机器学习预测基因在不同条件下的表达状态,并据此激活或抑制相应的反应,从而构建更准确的上下文特异性模型。这种数据驱动的方法能够显著提高模型对特定表型的预测准确性,并揭示环境对代谢的影响。
参考文献列表
1. 基础发展历史文献
- Edwards, J.S. & Palsson, B.O. (2000). The Escherichia coli MG1655 in silico metabolic genotype: its definition, characteristics, and capabilities. Systems Biology in Silicon Valley
- Price, N.D., Reed, J.L. & Palsson, B.O. (2004). Genome-scale models of microbial cells. Nature Reviews Microbiology
- Thiele, I. & Palsson, B.O. (2010). What is flux balance analysis? Nature Biotechnology
2. 方法学文献
- Henry, C.S., Broadbelt, L.J. & Hatzimanikatis, V. (2007). Thermodynamics-based metabolic flux analysis. Biophysical Journal
- Schellenberger, J. et al. (2011). Quantitative prediction of cellular metabolism with constraint-based models: the COBRA Toolbox v2.0. Nature Protocols
- Benedict, M.N. et al. (2014). Likelihood-Based Gene Annotations for Gap Filling and Quality Assessment in Genome-Scale Metabolic Models. PLOS Computational Biology
3. 应用文献
- Zelezniak, A. et al. (2021). metaGEM: reconstruction of genome-scale metabolic models directly from metagenomes. Nucleic Acids Research
- Mahadevan, R., Edwards, J.S. & Doyle, F.J. (2002). Dynamic flux balance analysis of diauxic growth in Escherichia coli. Biophysical Journal
- Segre, D., Vitkup, D. & Church, G.M. (2002). Analysis of optimality in natural and perturbed metabolic networks. PNAS
- 微生物全基因组代谢网络(GEM)模型发展历史与原理综述 - 2025年11月25日
- 机器学习驱动的生物标志物发现与疾病预测集成工具包 - 2025年10月7日
- CCL对象检测算法 - 2025年8月11日


No responses yet