估计阅读时长: 7 分钟

一般而言,进行全基因组的转录表达调控网络的建立,我们需要基于两个数据结果来完成:

  1. 目标基因的转录调控位点信息(Motif搜索结果,构成网络之中的节点)
  2. 转录调控位点相应的转录调控因子(Motif位点相关的转录调控因子,构成网络之中的边连接)

转录调控位点Motif搜索

在进行调控位点Motif搜索工作之中,如果我们什么都不去考虑,而是直接一股脑地将基因组之中的所有的基因上游调控区的片段拿出来放在一起做Motif搜索,理论上这样子的做法完全没有任何可以被挑刺的地方。但是因为两两比较计算加上多序列对齐计算过程的时间长度,一般会很明显的与输入的序列数量呈现显著的指数相关性。所以按照上面的描述,不做任何筛选就直接进行搜索,一般会花费非常长的时间来完成这项工作。

所以,在计算能力受限的情况下,我们就一般会首先要基于一定的生物学假设前提下,进行序列集合的挑选。基于一个小一些的序列集合进行Motif搜索工作,为我们带来的时间成本的缩减一般是非常可观的。那下面我们来了解下我们一般可以做哪些生物学假设呢?

基于生物学共表达原理搜索Motif

因为细胞假若需要行使某一项生物学功能,所以至少与目标生物学功能相对应pathway应该是产生了某些变化的。则这个时候对应的pathway之中的相关蛋白酶的基因的表达可能会同时发生变化,相应pathway才会产生对应的差异表达富集计算结果。假若pathway内部相应的一簇基因的表达都同时发生变化,则很可能存在的一个原因就是,在这簇基因的转录调控区可能会存在相同的转录调控因子结合位点:因为大家都受同一个调控因子的转录调控,所以大家才会发生表达量上的同步变化,产生较高的pathway差异表达富集得分。

那么根据上面的生物学共表达的假设,我们就可以将某一个pathway内出现的一簇基因的上游200BP的片段拿出来,进行Motif搜索操作,理论上可以找到若干存在的相似的转录调控因子结合位点信息。

基于相关性网络进行Motif搜索

对于建立一个基因的相关性网络,我们一般是可以基于转录组学数据进行皮尔森相关性系数的计算来完成。我们可以将转录组学数据之中的每一个基因在不同的样本中的表达数据拿出来,可以得到n个等长的向量。在这些等长的向量之中,向量的长度就是样本的数量。对任意两个基因的表达量向量做皮尔森相关性系数,就可以得到任意两个基因在当前实验设计条件之下的相关性系数。

然后基于上面的计算过程,我们对所有的基因表达结果数据进行两两配对计算,就可以得到一个相关性矩阵。在相关性矩阵之中,一个由[x,y]所确定的单元格的值就是一条网络边,边的两端x和y就是两个基因节点。基于一定的相关性系数的阈值,对这个n*n大小的相关性矩阵进行元素删除,基于剩下的元素就可以构建出一个相关性网络图了。

对于相关性网络而言,我们可以根据这样子的理由来进行Motif聚类搜索:

  1. 假若两个基因之间呈现很明显的正相关关系,则说明二者比较有可能受同一个转录调控因子所调控,或者二者可能会存在有比较直接的正向激活的上下游调控关系。对于前一种情况,我们将他们都取出来,做Motif搜索,一般可以搜索出若干保守位点的Motif信息
  2. 假若两个基因之间呈现很明显的负相关关系,则说明二者比较有可能是反向抑制的上下游调控关系,这种情况下可能对Motif搜索没有太多帮助
Fig. 4 Weighted correlation network analysis (WGCNA) identifies IFNα-regulated mRNA and protein modules

Colli, M.L., Ramos-Rodríguez, M., Nakayasu, E.S. et al. An integrated multi-omics approach identifies the landscape of interferon-α-mediated responses of human pancreatic beta cells. Nat Commun 11, 2584 (2020). https://doi.org/10.1038/s41467-020-16327-0

除了我们通过上面的手动方式做相关性网络,我们也可以是直接通过WGCNA方法进行共表达相关性网络模块的划分的方式来获取Motif聚类搜索所需要的基因集信息。

基于上面的两个生物学假设前体下进行Motif搜索得到相应的结果,我们就可以得到了某些搜索出来的Motif与基因的对应关系。但是我们现在仍然不知道这些所搜索出来的Motif是什么含义。那这个时候我们就需要基于一定的数据库之中的参考信息来进行相应的注释操作了。在进行转录调控因相关的数据库方面,目前在这方面的研究成果非常多。我们随便在Google上做相关搜索,结果就可以出来一大堆。下面我列举了一些比较常用的转录因子Motif注释相关的数据库:

数据库名称 说明信息 网址 DOI引用
ChIPBase ChIPBase a database for Transcription factor-binding sites, motifs (~1290 transcription factors) and decoding the transcriptional regulation of LncRNAs, miRNAs and protein-coding genes from ~10,200 curated peak datasets derived from ChIP-seq methods in 10 species http://rna.sysu.edu.cn/chipbase/ 10.1093/nar/gks1060
ChEA transcription factor regulation inferred from integrating genome-wide ChIP-X experiments. http://amp.pharm.mssm.edu/lib/chea.jsp 10.1093/bioinformatics/btq466
CIS-BP collection of transcription factor binding sites models inferred by binding domains. http://cisbp.ccbr.utoronto.ca/ 10.1016/j.cell.2014.08.009
CistromeMap a knowledgebase and web server for ChIP-Seq and DNase-Seq studies in mouse and human. http://cistrome.dfci.harvard.edu/pc/ 10.1093/bioinformatics/bts157
CTCFBSDB a database for CTCF binding sites and genome organization database http://insulatordb.uthsc.edu/ 10.1093/nar/gks1165
Factorbook a Wiki-based database for transcription factor-binding data generated by the ENCODE consortium. http://www.factorbook.org/ 10.1093/nar/gks1221
hmChIP a database and web server for exploring publicly available human and mouse ChIP-seq and ChIP-chip data. http://jilab.biostat.jhsph.edu/database/cgi-bin/hmChIP.pl 10.1093/bioinformatics/btr156
HOCOMOCO a comprehensive collection of human and mouse transcription factor binding sites models. http://hocomoco.autosome.ru/ 10.1093/nar/gkv1249
JASPAR The JASPAR CORE database contains a curated, non-redundant set of profiles, derived from published collections of experimentally defined transcription factor binding sites for eukaryotes. http://jaspar.genereg.net/ 10.1093/nar/gkz1001
MethMotif An integrative cell-specific database of transcription factor binding motifs coupled with DNA methylation profiles. http://bioinfo-csi.nus.edu.sg/methmotif/ 10.1093/nar/gky1005
SwissRegulon a database of genome-wide annotations of regulatory sites. https://web.archive.org/web/20140529224906/ 10.1093/nar/gks1145
RegPrecise The RegPrecise is a database for capturing, visualization and analysis of transcription factor regulons that were reconstructed by the comparative genomic approach in a wide variety of prokaryotic genomes. https://regprecise.lbl.gov/ 10.1186/1471-2164-14-745

基于RegPrecise数据库的转录调控因子注释

对于我而言,RegPrecise数据库是一个比较好用的转录调控因子数据库。在这个数据库里面其主要记录了原核生物细胞内的调控因子和对应的转录因子结合位点的信息。基于这些信息,我们就可以对我们所搜索出来的Motif信息进行相关搜索注释

在转录调控因子注释方面,如果我们需要进行本地注释的话,可以基于双向最佳blastp的方法做转录因子蛋白的搜索注释。如果想在线做相应的转录因子注释,那么我们可以基于KEGG网站或者NCBI网站上的相应的blastp注释工具来完成。进行蛋白搜索注释之后,我们可以得到我们的目标基因组内同源的基因编号,将得到的基因编号列表与RegPrecise数据库之中所记录的基因编号列表取交集,我们就可以得到目标基因组内的转录因子结果了。

组装全基因组转录表达调控网络

在上面所列举出来的数据库之中,一般都会包含有Motif注释信息以及Motif位点所对应的转录调控因子。所以我们只需要将搜索出来的Motif基于上面的数据库内容进行匹配注释,得到对应的Motif编号;再将基因组中的所有基因对象,基于上面的数据库之中所提供的调控因子的基因编号进行序列比对注释,就可以将基因组内的调控基因与Motif所对应的下游基因关联起来,组装成一个全基因组范围内的转录调控网络了。

Fig. 6 GRN analysis of IPF and control lungs.

T. S. Adams, J. C. Schupp, S. Poli, E. A. Ayaub, N. Neumark, F. Ahangari, S. G. Chu, B. A. Raby, G. DeIuliis, M. Januszyk, Q. Duan, H. A. Arnett, A. Siddiqui, G. R. Washko, R. Homer, X. Yan, I. O. Rosas, N. Kaminski, Single-cell RNA-seq reveals ectopic and aberrant lung-resident cell populations in idiopathic pulmonary fibrosis. Sci. Adv.6, eaba1983 (2020).
DOI: 10.1126/sciadv.aba1983

谢桂纲
Latest posts by 谢桂纲 (see all)

Attachments

No responses yet

Leave a Reply

Your email address will not be published. Required fields are marked *

博客文章
April 2024
S M T W T F S
 123456
78910111213
14151617181920
21222324252627
282930  
  1. 针对图对象进行向量化表示嵌入: 首先,通过node2vec方法,将node表示为向量 第二步,针对node向量矩阵,进行umap降维计算,对node进行排序,生成node排序序列 第三步,针对node排序序列进行SGT序列图嵌入,实现将网络图对象嵌入为一维向量