文章阅读目录大纲
环境中的微生物往往以复杂群落的形式存在,不同物种之间通过代谢相互作用形成协同或竞争关系,共同完成生物地球化学循环、维持生态系统功能。近年来,随着高通量基因组测序技术的发展,研究者可以从环境样本中获取海量微生物基因组数据,为构建基因组尺度代谢模型(Genome-scale metabolic models, GEMs)提供了基础。GEMs将微生物的全基因组注释与生化反应网络相结合,可以用于模拟微生物在特定环境条件下的代谢能力,预测其生长和代谢产物。在单菌株层面,GEMs已被广泛用于解析微生物对环境变化的代谢适应机制、指导代谢工程设计以及预测药物靶点等。在群落层面,通过将多个GEMs耦合,可以研究微生物之间的相互作用,例如通过代谢物交换实现的协同或竞争关系。
环境微生物基因组数据源困境
GEMs在系统生物学领域已发展成熟,成为连接基因型与表型的桥梁。在环境微生物研究中,GEMs的应用日益广泛,其优势在于能够量化微生物在不同环境条件下的代谢能力,并预测基因扰动或环境变化对群落功能的影响。
然而,构建环境微生物群落的GEM模型面临一个关键挑战:如何选择注释GEMs模型所使用的微生物基因组数据。对于在自然环境中的微生物往往经历基因组精简(streamlining)而丢失某些代谢途径导致一些代谢能力的丧失,很多自然界中的细菌都是高度的营养缺陷型(auxotrophy)。比如海洋浮游细菌往往丢失多种氨基酸或维生素合成途径,必须依赖其他微生物提供缺失的代谢产物才能生存。这种现象在各类环境中普遍存在,包括海洋、土壤和人体肠道等。
对于在NCBI GenBank数据库中所记录的微生物基因组数据这些大量高质量基因组,本身就是在相对富集/可控的实验条件下获得的,很多是“实验室驯化过”的株。这些株的基因组确实能支持在实验室培养基里独立生长,但这不代表它们在原始环境中也独立。如果直接使用NCBI上的完整基因组数据来构建环境微生物的GEM模型,就会忽略这些微生物在自然界中的真实代谢局限,导致模型预测出现偏差。例如,模型可能高估了微生物的独立生存能力,低估了物种间代谢互作的必要性。这种数据来源误差会影响对环境群落稳定性和功能的正确理解。
微生物间的水平基因转移带来的数据处理难点
宏基因组测序(metagenomic sequencing)通过直接测序环境样品中的全部基因组DNA,使我们能够在不依赖培养的情况下研究复杂微生物群落的组成与功能。这种技术已广泛应用于微生物多样性分析、功能基因挖掘以及微生物与宿主互作研究等领域,对理解微生物在健康与疾病中的作用具有重要意义。在基于宏基因组测序数据构建GEMs的时候,水平基因转移同样也会针对我们的模型构建工作带来很大的困扰。
HGT是指遗传物质在不同物种基因组之间横向传递的过程,这一机制在细菌等微生物的进化和适应中扮演关键角色。例如,HGT可以加速抗生素耐药基因在细菌间的传播,是耐药性在全球范围内迅速蔓延的重要原因[4]。在宏基因组数据分析中,HGT的存在使得基因的物种归属和功能归属变得复杂:同一个基因可能来源于不同的供体物种,而同一物种的基因组中也可能包含来自远缘物种的外源基因。这给物种分类、基因功能预测以及进化分析等环节带来了准确性的挑战。
水平基因转移(HGT),又称侧向基因转移(lateral gene transfer),是指遗传信息在生物个体之间(尤其是不同物种或谱系之间)横向传递的过程。与垂直遗传(基因由亲代传给子代)不同,HGT允许基因在当代个体之间跨物种传播,从而极大地加速了基因组中新性状的获取和传播。在原核生物中,HGT被认为是推动进化和适应的主要动力之一。研究表明,HGT可以跨越巨大的分类学距离,将基因从一个生物体转移到另一个完全不同的物种中。在细菌和古菌中,HGT事件频繁发生,几乎每个细菌基因组中都包含一定数量的外源基因。
HGT主要通过三种机制实现:转化(Transformation,细胞摄取环境中的自由DNA)、接合(Conjugation,通过质粒或接合质粒在细胞间直接转移DNA)和转导(Transduction,通过噬菌体等病毒载体将DNA从一个细胞转移到另一个细胞)。
在基因预测与功能注释环节,HGT同样带来了复杂挑战。基因预测通常依赖于对基因组序列的从头预测或与已知基因的比对来推断编码基因的位置和序列。对于宏基因组而言,由于测序 reads 来自混合基因组,基因预测往往在组装得到的 contigs 或 scaffolds 上进行,或直接针对 reads 进行。如果某一基因是通过HGT获得的,那么其序列特征可能与受体基因组中的本地基因有所不同。例如,外源基因的密码子使用偏好、GC含量和邻近序列特征可能与受体基因组背景存在差异。然而,大多数基因预测算法并不考虑基因的来源差异,它们默认整个基因组遵循相似的编码模式。这可能导致以下问题:
外源基因预测不准确:来自远缘物种的HGT基因可能包含预测算法不熟悉的序列特征(如异常的启动子信号、罕见的密码子偏好等),从而导致预测算法错误地将其判定为非编码区,或者错误地划分基因边界,遗漏部分外源基因。这种情况在 GC 含量差异巨大的供体-受体组合中尤为明显,例如高GC含量的细菌基因转入低GC含量的细菌基因组中时,常规预测器可能无法识别出该基因。
本地基因预测受干扰:HGT事件有时会伴随基因组结构的重排,如插入序列或转座元件的引入。这些插入序列可能包含编码基因(如转座酶、毒力因子等),它们本身属于外源基因,但可能嵌入到本地基因中间或邻近。如果预测算法未能正确处理这些插入序列,可能将本地基因和外源基因错误地合并为一个长基因,或将一个本地基因错误地分割成多个片段。这些都会影响基因预测的准确性。
功能注释旨在为预测出的基因赋予生物学功能,通常通过与已知功能数据库比对来实现,例如将基因序列比对到KEGG、COG、NR等数据库,从而推断其可能的生物学功能。HGT对功能注释的影响主要体现在两个方面:注释偏倚和注释错误。
注释偏倚:由于HGT基因的来源多样,其功能可能与受体物种基因组中本地基因的功能截然不同。如果在功能注释时忽略了HGT因素,可能会将外源基因的功能错误地归因于受体物种。例如,某非致病菌通过HGT获得了一个毒力基因,如果在注释时将其功能简单地归因于该非致病菌,就可能错误地赋予该菌株致病性,从而误导对菌株功能的解读。这种偏倚在功能富集分析中尤为明显——外源基因的引入可能导致功能注释结果中出现本不属于受体物种的功能通路富集,使研究者得出错误的结论。
注释错误:HGT基因有时与受体基因组中本地基因在功能上相似但不完全相同。例如,一个外源基因可能与受体基因组中的本地基因属于同一家族,但功能上存在细微差别(如底物特异性改变)。如果功能注释仅仅基于序列相似性而忽略了来源,可能将外源基因错误地注释为本地基因的功能。反过来,某些HGT基因可能是全新的功能基因,在现有数据库中没有近缘匹配,导致注释失败或注释为“未知功能”。这实际上也是注释的一种不准确,因为研究者未能正确识别该基因的真实功能。
交叉喂养网络在环境菌群GEM建模中的作用
为了解决上述问题,近年来研究者开始关注交叉喂养网络(cross-feeding network)在环境菌群GEM建模中的作用。交叉喂养是指不同微生物通过代谢物的交换实现互利共生,例如一种微生物分泌某种代谢产物,另一种微生物利用该产物作为营养来源。这种代谢互作是群落稳定性和多样性的重要驱动力。在GEM建模中,可以通过模拟多个物种的共培养模型来预测哪些代谢物在物种间交换,以及这些交换如何影响群落结构和代谢输出。
环境微生物的营养缺陷现象普遍存在
研究发现,在自然环境中,微生物的基因组大小往往与营养需求呈负相关:基因组越小的菌株,合成必需营养(如氨基酸、维生素)的能力越弱,越依赖外部提供。例如,对波罗的海表层水体微生物群落的培养研究表明,当培养物中物种数超过3种时,群落中包含的微生物基因组更小,合成氨基酸和B族维生素的能力更低。这意味着这些微生物在实验室纯培养时难以生长,必须依赖共培养的其他微生物提供缺失的营养才能存活。在这里,假若我们直接使用NCBI上通过纯培养后的菌株测序结果构建GEM模型,就会忽略这种营养依赖,导致模型高估微生物的独立生长能力。
交叉喂养网络与群落Gap Filling
环境微生物群落的一个显著特征是代谢互作网络的存在。物种之间通过分泌和消耗代谢物形成复杂的相互作用,包括互利共生、偏利共生和竞争等。针对代谢缺口问题,群落gap-filling方法近年来取得进展。传统gap-filling侧重于单菌株模型,通过添加缺失反应来恢复生长。但在群落中,某物种缺失的代谢途径可能由其他物种提供,因此不需要在模型中人为添加反应。Community gap-filling算法正是基于这一思想,将多个物种的模型同时考虑,寻找一种整体解决方案,使得每个GEM模型要么自身合成所需代谢物,要么由其他细菌的GEM模型提供,在群落整体上不需要人为添加某些缺失的代谢反应。
网络推断与多组学整合
除了纯计算模型,研究者也结合多组学数据来推断和验证交叉喂养网络。例如,通过宏基因组数据可以构建微生物组的功能潜力,通过宏转录组或宏蛋白组数据可以揭示哪些代谢途径在群落中活跃。将这些数据与GEM模型相结合,可以生成条件特异性的群落模型。例如,有研究整合宏转录组数据,构建了特定环境条件下微生物群落的GEM模型,用于预测群落对环境扰动的响应。此外,共现网络(co-occurrence network)和相关性分析常用于从组学数据中推断潜在的互作关系。需要注意的是,这些统计推断只能提供关联,不能证明直接的代谢互作,但可以作为GEM建模的先验知识或验证依据。将计算模型与实验观测相结合,有助于提高对交叉喂养网络理解的可靠性。
- CenterStar多序列比对算法 - 2026年1月8日
- 建立KEGG的KO序列数据库 - 2026年1月4日
- 环境微生物群落GEMs建模综述 - 2025年12月29日


No responses yet