文章阅读目录大纲
将复杂的生物学过程拆解为单元化学反应,是进行定量模拟的基石。转录是基因表达调控的关键环节,决定了细胞在特定时间、特定环境下合成哪些蛋白质,对生命活动至关重要。最近的工作中需要将原本非常粗糙的虚拟细胞转录事件模型拆解为更加细分化的多步骤生物化学过程,以适应针对细胞群落生长的建模计算。下面为我将原核生物的转录过程拆解为一系列可以用化学式表示的单元步骤的结果。
在介绍这些分步骤之前,我们会需要首先来定义一下模型中会用到的各种“化学物质”(分子和复合物):
- RNAP: RNA聚合酶全酶(包含核心酶和σ因子)。
- DNA: 基因组DNA双链。
- DNA_P: 包含启动子区域的DNA。
- DNA_T: 包含终止子区域的DNA。
- NTP: 核糖核苷三磷酸(ATP, UTP, GTP, CTP的统称)。
- PPi: 无机焦磷酸。
- RNA_n: 长度为n的RNA链。
- RNA: 成熟的、完整的mRNA转录本。
- ρ: ρ终止因子(用于ρ依赖型终止)。
- GreA/GreB: 转录延伸因子,帮助RNA聚合酶从回溯中恢复。
在上面所列举的生物分子列表中,原核生物的转录由单一RNA聚合酶(RNA polymerase)催化。大肠杆菌的RNA聚合酶由多种亚基组成,其全酶(holoenzyme)结构为 α₂ββ’ωσ,其中σ因子负责识别启动子,核心酶(core enzyme,α₂ββ’ω)负责RNA链的延伸。
原核生物细胞内的转录过程,是指以DNA为模板合成RNA的过程,是基因表达的第一步。在原核生物中的整个转录过程可以拆解为一系列单元生物化学反应。该过程通常分为三个阶段:起始(initiation)、延伸(elongation)和终止(termination)。
第一阶段:启动
这是转录调控最关键的阶段,步骤也最复杂。
- 非特异性结合与搜索
RNA聚合酶在细胞内随机结合到DNA的任意位置,并进行滑动以寻找启动子。RNAP·DNA_NS 代表非特异性结合的复合物。这是一个快速的可逆过程。反应式: RNAP + DNA <=> RNAP·DNA_NS - 启动子识别与闭合复合物形成
RNA聚合酶全酶通过σ因子识别并结合DNA上的启动子区域。启动子通常包括两个保守序列:-35区(TTGACA)和-10区(TATAAT,又称Pribnow盒)。在这里面σ因子识别启动子-35区和-10区的保守序列,RNA聚合酶与启动子特异性结合,形成闭合复合物。此时DNA仍然是双链。RPc 代表闭合复合物。这是一个高度特异性的结合过程。反应式: RNAP·DNA_NS + DNA_P <=> RPc - DNA解链与开放复合物形成
在闭合复合物的基础上,RNA聚合酶使启动子区域的DNA双链解旋,结合后,RNA聚合酶使DNA双链局部解开,形成转录泡(transcription bubble)。基于形成一个约17个碱基对的“转录泡”,形成开放复合物。RPo 代表开放复合物。这是一个需要能量输入的构象变化过程。反应式: RPc <=> RPo - 流产性起始
在开放复合物中,RNA聚合酶会尝试合成RNA。RNA聚合酶不需要引物,直接在转录起始位点合成第一个磷酸二酯键,通常以GTP或ATP为起始核苷酸。此时σ因子会脱落,核心酶继续进行延伸。在开放复合物中,通常会合成2-9个核苷酸的短链,但由于与DNA模板的相互作用不稳定,这些短RNA会脱落,RNA聚合酶则返回到开放复合物状态,准备下一次尝试。这是一个重要的“质量控制”步骤。RPo·RNA_n 是携带了短RNA的复合物。这个反应是高度可逆的,产物RPo·RNA_n极不稳定,会快速分解回RPo和RNA_n。反应式: RPo + n NTP <=> RPo·RNA_n + n PPi (其中 n < 10) - 启动子逃逸
当RNA链合成到一定长度(通常>10个核苷酸)后,RNA聚合酶与σ因子的构象发生变化,与启动子DNA的亲和力下降,成功脱离启动子区域,转变为稳定的延伸复合物。EEC_m 代表携带长度为m的RNA的延伸复合物。m是成功逃逸的临界长度。这是一个关键的、不可逆的步骤,标志着转录启动的完成。反应式: RPo·RNA_m -> EEC_m + DNA_P
第二阶段:延伸
主要可以总结为RNA聚合酶沿着DNA模板链移动,持续添加核苷酸,使RNA链不断延长。在这里,核心酶沿DNA模板链(-链)3’→5’方向移动,以5’→3’方向合成RNA链,新生RNA与DNA模板链形成RNA-DNA杂交区,随后RNA链与DNA分离。DNA在RNA聚合酶前方不断解链,在后方重新形成双螺旋结构。相比较于真核生物,原核生物中,转录和翻译可以偶联,即mRNA在合成过程中即可被核糖体识别并开始翻译。
- 核苷酸添加(核心反应)
延伸复合物读取DNA模板链上的一个碱基,将互补的NTP添加到RNA链的3’端,并释放焦磷酸。这是转录过程最核心、重复次数最多的化学反应。EEC_n代表携带长度为n的RNA的延伸复合物。反应式: EEC_n + NTP -> EEC_(n+1) + PPi - 转录暂停
由于DNA序列(如发夹结构)、特定蛋白质或内部因素,延伸复合物可能会暂时停止移动。在下面的反应过程中 Paused_EEC_n 代表暂停状态的复合物。暂停是可逆的,可以是调控的节点。反应式: EEC_n <=> Paused_EEC_n - 转录回溯与恢复
在暂停状态下,RNA聚合酶可能会向后滑动,导致RNA链的3’端从活性中心脱离,形成回溯复合物。这需要转录延伸因子GreA/GreB的帮助来恢复。回溯是导致转录停滞甚至失败的重要原因之一。回溯: Paused_EEC_n -> Backtracked_EEC_n 恢复: Backtracked_EEC_n + GreA/GreB -> EEC_n + GreA/GreB
第三阶段:终止
当RNA聚合酶转录到基因末端的终止子序列时,转录复合物解体,释放RNA和RNA聚合酶。转录终止分为两种机制:
类型一:ρ因子依赖型终止
ρ因子是一种六聚体蛋白,具有ATP酶和解旋酶活性,可与RNA转录产物结合。在这里,会存在ρ因子沿着RNA向RNA聚合酶移动,当聚合酶遇到终止信号时,ρ因子促使RNA-DNA杂合链解离,RNA释放。
- ρ因子加载: ρ因子识别并结合到新生RNA上特定的rut位点。
反应式: ρ + RNA_n <=> ρ·RNA_n - 追赶与解离: ρ因子利用ATP水解提供的能量,沿着RNA链追赶RNA聚合酶。当聚合酶在终止子处暂停时,ρ因子追上并利用其解旋酶活性拆解RNA-DNA杂合链,导致复合物解离。
追赶: ρ·RNA_n + EEC_n -> ρ·RNA_n·EEC_n 解离: ρ·RNA_n·EEC_n + ATP -> RNAP + DNA + RNA_n + ρ + ADP + Pi
类型二:内在终止子(非ρ因子依赖型)
在这种类型的事件中,DNA终止子序列具有GC富集的回文序列和下游的AT富集区。转录产物RNA可形成茎环(stem-loop)或发夹结构,使RNA聚合酶暂停,并促使RNA-DNA杂合链解离,RNA链被释放。
- 终止子识别与RNA发夹形成: 终止子DNA序列被转录后,其RNA产物自身可以形成一个富含GC的稳定发夹结构,紧接着是一段U-rich序列。在下面的反应过程中Terminating_Complex_n 是RNA发夹结构正在形成的复合物。
反应式: EEC_n + DNA_T -> Terminating_Complex_n - 复合物解离: RNA发夹结构的形成导致RNA聚合酶构象改变,加上下游RNA-DNA杂合链中较弱的A-U碱基对,使得转录复合物变得极不稳定并自发解离。
反应式: Terminating_Complex_n -> RNAP + DNA + RNA_n
在通过上面的三步骤后,通常在原核生物中就会产生了可以直接使用的RNA分子,相比较于真核生物而言,原核生物mRNA通常不需要复杂加工,可直接用于翻译,但是部分rRNA和tRNA需要剪接和修饰。
最后我们将上面所展示的的转录事件过程总结一下为表格:
| 阶段 | 单元步骤 | 化学反应式 | 关键分子/复合物 | 建模考量 |
|---|---|---|---|---|
| 启动 | 1. 非特异性结合 | RNAP + DNA <=> RNAP·DNA_NS |
RNAP·DNA_NS |
快速平衡,可用有效浓度简化。 |
| 2. 启动子识别 | RNAP·DNA_NS + DNA_P <=> RPc |
RPc |
调控核心,σ因子特异性是关键。 | |
| 3. DNA解链 | RPc <=> RPo |
RPo |
能量壁垒,速率可能较慢。 | |
| 4. 流产性起始 | RPo + n NTP <=> RPo·RNA_n + n PPi |
RPo·RNA_n |
可逆反应,影响启动效率。 | |
| 5. 启动子逃逸 | RPo·RNA_m -> EEC_m + DNA_P |
EEC_m |
不可逆步骤,是进入延伸的“关口”。 | |
| 延伸 | 1. 核苷酸添加 | EEC_n + NTP -> EEC_(n+1) + PPi |
EEC_n |
核心反应,速率常数k_pol决定延伸速度。 |
| 2. 转录暂停 | EEC_n <=> Paused_EEC_n |
Paused_EEC_n |
序列依赖性,影响整体转录时间。 | |
| 3. 回溯与恢复 | Paused_EEC_n -> Backtracked_EEC_nBacktracked_EEC_n + Gre -> EEC_n |
Backtracked_EEC_n |
与转录保真度和停滞有关。 | |
| 终止 | ρ依赖型 | ρ + RNA_n <=> ρ·RNA_nρ·RNA_n·EEC_n + ATP -> ... |
ρ·RNA_n |
需要额外建模ρ因子的动力学。 |
| 内在型 | EEC_n + DNA_T -> Terminating_ComplexTerminating_Complex -> RNAP + DNA + RNA_n |
Terminating_Complex |
依赖于RNA二级结构的形成。 |
- 【虚拟细胞】转录事件建模 - 2025年12月20日
- 布隆过滤器在宏基因组测序reads数据分类处理中的作用 - 2025年12月18日
- limma程序包在RNA-seq差异表达分析中的数学算法原理与实现详解 - 2025年12月16日


No responses yet