估计阅读时长: 7 分钟

假设现在存在有这样子的一个人群等位基因统计结果信息表格:

Populations AA Aa aa
Subpopulation 1 125 250 125
Subpopulation 2 50 30 20
Subpopulation 3 100 500 400

现在设定符号N作为每一个人群的基因型数量总和,也就是上面的表格中的每一行的总和,可以得到下面的人群总数统计结果:

Population 1:   500
Population 2:   100
Population 3:   1,000

由于在人类遗传学之中,基因型是由两个等位基因组合所产生的,所以在这里等位基因的数量应该是上面的人群总数的2倍

第一步:计算等位基因频率

在这里每个纯合子(AA以及aa)有两个等位基因,每个杂合子(Aa)有一个等位基因。所以可以得到分母将是N的两倍(等位基因是个体的两倍)。可以得到下面的频率分布结果:



p1可以表示等位基因A在人群1中的频率,以此类推p2和p3分别为等位基因A在人群2和3中所出现的频率。

第二步:哈代-温伯格定律

“哈迪-温伯格定律”是指在理想状态下,各等位基因的频率在遗传中是稳定不变的,即保持着基因平衡。该定律运用在生物学、生态学、遗传学。条件:①种群足够大;②种群个体间随机交配;③没有突变;④没有选择;⑤没有迁移;⑥没有遗传漂变。

我们可以计算Hardy-Weinberg基因平衡下的预期基因型计数,然后计算每个人群亚群中纯合子的显著差异性(过量或缺乏):

Pop. 1  Expected AA = 500*0.5^2       = 125   (= observed)
        Expected Aa = 500*2*0.5*0.5   = 250   (= observed)
        Expected aa = 500*0.5^2       = 125   (= observed)

Pop. 2  Expected AA = 100*0.65^2      = 42.25 (observed has excess of 7.75)
        Expected Aa = 100*2*0.65*0.35 =  45.5 (observed has deficit of 15.5)
        Expected aa = 100*0.352       = 12.25 (observed has excess of 7.75)

因为分布频率总和为1的原因,所以两种类型的纯合子的总和=杂合子缺乏的量。这些量必须平衡(这是数学上的必要条件,因为p + q = 1)。

Pop. 3  Expected AA = 1,000*0.35^2      = 122.5 (observed has deficiency of 22.5)
        Expected Aa = 1,000*2*0.65*0.35 =  455  (observed has excess of 45)
        Expected aa = 1,000*0.352       = 422.5 (observed has deficiency of 22.5)

基于哈代-温伯格定律,我们可以做出总结判断:

  • 人群1:观察值 = 预期:完美拟合
  • 人群2:过量的15.5纯合子:存在有一些近亲繁殖
  • 人群3:缺乏45个纯合子:近交或出现了华伦德效应(分离断裂)。

群体遗传学--华伦德效应(Wahlund effect)

群体遗传学中,假定生物由一系列地方群体构成,每个地方群体都符合理想群体的条件,但是不同地方群体中等位基因的频率不同,如果将这些地方群体是为一个整体,那么整体中等位基因的频率等于各地方群体中等位基因频率的平均值;但是按照Hardy-Weinberg法则估算的整个群体中纯合体的频率比各地方群体中的纯合体频率的平均值要低。该现象叫Wahlund's effect 或者隔离断裂效应(isolate breaking).

第三步:计算局部观察到的杂合子

计算每个亚群的局部观察到的杂合度,将结果值设定为符号Hobs。在这里,我们分别对前面提到的三个人群计算基因型:

Hobs 1 = 250/500  = 0.5
Hobs 2 =  30/100  = 0.3
Hobs 3 = 500/1000 = 0.5

第四步:计算每个亚群的局部预期杂合度或基因多样性



在这里p1和q1指的是在前面我们分别对三个人群亚群基因频率的统计结果值。

第五步:F检验计算显著性差异

之后,基于前面两步的计算结果,我们就可以计算出每个亚群的本地近亲繁殖系数:

其中 s下标(s = 1 到 3)是指最开始我们所提到的三个人群亚群编号

F1 = (0.5 - 0.5) / 0.5     =  0
F2 = (0.455 - 0.3) / 0.455 =  0.341 [positive F means fewer heterozygotes than expected indicates inbreeding]
F3 = (0.455 — 0.5) / 0.455 = -0.099 [negative F means more heterozygotes than expected means excess outbreeding]

第六步:总人群分布计算

1. 等位基因A (p-bar)

(2*125+250+2*50+30+2*100+500)/(1000+200+2000)=0.4156  {genotype splitting method}

或者

(0.5*1000+0.65*200+0.35*2000)/(1000+200+2000)=0.4156  {using Eqn FST.1 values for ps}

上面都是经过人群规模作大小做为加权计算因子的。

2. 等位基因a (q-bar)

同样的,有

(2*125+250+2*20+30+2*400+500)/(1000+200+2000)=0.5844

因为p+q应该要等于1,所以在这里我们检查一下结果:p-bar + q-bar = 0.4156 + 0.5844 = 1.0。虽然在这里的频率结果数据检查并不能保证我们的结果是正确的,但如果它们的总和不是一,那我们肯定可以知道我们计算错误了。

第七步:计算全局杂合指数

请注意,在这里的两个计算过程都采用了整个人群亚群产生的加权平均值。

HI的计算结果基于亚群个体中观察到的杂合子统计

HS则是基于亚群预期杂合子统计

HT基于总人口的预期杂合性

或者我们也可以通过下面的简单计算来完成:2*p-bar *q-bar = 2 * 0.4156 * 0.5844 = 0.4858

第八步:计算全局F检验

将下面的全局FIS与步骤5计算得到的本地近亲繁殖系数Fs进行比较和对比。在这里,我们使用所有亚群中单个杂合子的加权平均值。FIS和FS都基于观察到的杂合性,而FST和FIT基于预期的杂合性。



在这里下标 I、S 和 T 用于表明我们分析的水平。I指的是基于亚群个体中观察到的杂合子统计结果;S为基于亚群预期杂合子统计;T则是基于总人口的预期杂合性统计。

最后:我们可以对种群及其亚群的遗传结构得出一些结论

  1. 我们可以得出的符合哈代-温伯格定律可能的一个结论:

    • 人群1与哈代-温伯格定律计算步骤 2 的结果一致
  2. 我们可以从步骤5中得出两个可能的“本地近亲繁殖”结论:

    • 人群 2 是近交系(步骤 5 的结果),以及
    • 人群 3 可能有分离交配或正在经历 Wahlund 效应(杂合子比预期的要多)。
  3. 关于遗传分化总体程度(FST)的结论

    • 可能是由于遗传漂移带来的种群分化,约占总遗传变异的3.4%
  4. 在总群体中没有杂合子的过量或缺乏(FIT几乎为零)。

谢桂纲
Latest posts by 谢桂纲 (see all)

Attachments

  • 41598_2021_92984_Fig1_HTML • 2 MB • 194 click
    28.05.2022

  • p1 • 7 kB • 158 click
    28.05.2022

  • p2 • 7 kB • 169 click
    28.05.2022

  • p3 • 7 kB • 166 click
    28.05.2022

  • H_exp1 • 11 kB • 154 click
    28.05.2022

  • H_exp2 • 12 kB • 156 click
    28.05.2022

  • H_exp3 • 12 kB • 149 click
    28.05.2022

  • Fs • 4 kB • 170 click
    28.05.2022

  • HI • 14 kB • 168 click
    28.05.2022

  • HS • 14 kB • 163 click
    28.05.2022

  • HT • 8 kB • 163 click
    28.05.2022

  • FIS • 8 kB • 174 click
    28.05.2022

  • FIT • 8 kB • 159 click
    28.05.2022

  • FST • 8 kB • 159 click
    28.05.2022

One response

  1. […] 对于具体的F检验计算的应用,最常见的就是在进行t-检验之前我们会需要进行方差齐性检验来判断是否可以使用参数检验,这个方差齐性的判断就是基于F检验的结果来完成的。对于F检验,其还有另一个比较常见的用途,就是在群体遗传学之中做遗传特征的统计分析等。 […]

    来自中国

Leave a Reply

Your email address will not be published. Required fields are marked *

博客文章
September 2024
S M T W T F S
1234567
891011121314
15161718192021
22232425262728
2930  
  1. 在mysql之中,针对24小时内的数据按照半个小时进行一次统计数量: ```sql SELECT DATE_FORMAT(FROM_UNIXTIME(FLOOR(UNIX_TIMESTAMP(add_time) / 1800) * 1800), '%Y-%m-%d %H:%i') AS half_hour, COUNT(*) AS count FROM user_track.page_view WHERE add_time >=…

  2. 针对图对象进行向量化表示嵌入: 首先,通过node2vec方法,将node表示为向量 第二步,针对node向量矩阵,进行umap降维计算,对node进行排序,生成node排序序列 第三步,针对node排序序列进行SGT序列图嵌入,实现将网络图对象嵌入为一维向量