【群体遗传学】群体基因型的F检验原理

文章阅读目录大纲

估计阅读时长: 7 分钟

F统计量是群体遗传学中由Sewall Wright提出的重要统计量，用于衡量遗传变异在群体中的分布情况。它提供了对群体遗传结构和遗传分化的定量描述。F统计量主要有三种类型：Fis、Fit和Fst，分别反映个体内的、总体的和群体间的遗传分化。F统计量在群体遗传学中通常指的是Fst（Fixation Index，固定指数），它是一个衡量群体间遗传差异的指标。Fst的值范围从0到1，其中0表示群体间没有差异，1表示群体间完全分离。在群体遗传学研究中，Fst常用于评估群体的遗传多样性、群体间的迁移率以及自然选择的压力等。

假设现在存在有这样子的一个人群等位基因统计结果信息表格：

Populations	AA	Aa	aa
Subpopulation 1	125	250	125
Subpopulation 2	50	30	20
Subpopulation 3	100	500	400

现在设定符号N作为每一个人群的基因型数量总和，也就是上面的表格中的每一行的总和，可以得到下面的人群总数统计结果：

Population 1:   500
Population 2:   100
Population 3:   1,000

由于在人类遗传学之中，基因型是由两个等位基因组合所产生的，所以在这里等位基因的数量应该是上面的人群总数的2倍。

第一步：计算等位基因频率

在这里每个纯合子（AA以及aa）有两个等位基因，每个杂合子（Aa）有一个等位基因。所以可以得到分母将是N的两倍（等位基因是个体的两倍）。可以得到下面的频率分布结果：

p1可以表示等位基因A在人群1中的频率，以此类推p2和p3分别为等位基因A在人群2和3中所出现的频率。

第二步：哈代-温伯格定律

“哈迪-温伯格定律”是指在理想状态下，各等位基因的频率在遗传中是稳定不变的，即保持着基因平衡。该定律运用在生物学、生态学、遗传学。条件：①种群足够大；②种群个体间随机交配；③没有突变；④没有选择；⑤没有迁移；⑥没有遗传漂变。

我们可以计算Hardy-Weinberg基因平衡下的预期基因型计数，然后计算每个人群亚群中纯合子的显著差异性(过量或缺乏)：

Pop. 1  Expected AA = 500*0.5^2       = 125   (= observed)
        Expected Aa = 500*2*0.5*0.5   = 250   (= observed)
        Expected aa = 500*0.5^2       = 125   (= observed)

Pop. 2  Expected AA = 100*0.65^2      = 42.25 (observed has excess of 7.75)
        Expected Aa = 100*2*0.65*0.35 =  45.5 (observed has deficit of 15.5)
        Expected aa = 100*0.352       = 12.25 (observed has excess of 7.75)

因为分布频率总和为1的原因，所以两种类型的纯合子的总和=杂合子缺乏的量。这些量必须平衡（这是数学上的必要条件，因为p + q = 1）。

Pop. 3  Expected AA = 1,000*0.35^2      = 122.5 (observed has deficiency of 22.5)
        Expected Aa = 1,000*2*0.65*0.35 =  455  (observed has excess of 45)
        Expected aa = 1,000*0.352       = 422.5 (observed has deficiency of 22.5)

基于哈代-温伯格定律，我们可以做出总结判断：

人群1：观察值 = 预期：完美拟合
人群2：过量的15.5纯合子：存在有一些近亲繁殖
人群3：缺乏45个纯合子：近交或出现了华伦德效应（分离断裂）。

群体遗传学--华伦德效应（Wahlund effect）

群体遗传学中，假定生物由一系列地方群体构成，每个地方群体都符合理想群体的条件，但是不同地方群体中等位基因的频率不同，如果将这些地方群体是为一个整体，那么整体中等位基因的频率等于各地方群体中等位基因频率的平均值；但是按照Hardy-Weinberg法则估算的整个群体中纯合体的频率比各地方群体中的纯合体频率的平均值要低。该现象叫Wahlund's effect 或者隔离断裂效应（isolate breaking）.

第三步：计算局部观察到的杂合子

计算每个亚群的局部观察到的杂合度，将结果值设定为符号Hobs。在这里，我们分别对前面提到的三个人群计算基因型：

Hobs 1 = 250/500  = 0.5
Hobs 2 =  30/100  = 0.3
Hobs 3 = 500/1000 = 0.5

第四步：计算每个亚群的局部预期杂合度或基因多样性

在这里p1和q1指的是在前面我们分别对三个人群亚群基因频率的统计结果值。

第五步：F检验计算显著性差异

之后，基于前面两步的计算结果，我们就可以计算出每个亚群的本地近亲繁殖系数：

其中 s下标（s = 1 到 3）是指最开始我们所提到的三个人群亚群编号

F1 = (0.5 - 0.5) / 0.5     =  0
F2 = (0.455 - 0.3) / 0.455 =  0.341 [positive F means fewer heterozygotes than expected indicates inbreeding]
F3 = (0.455 — 0.5) / 0.455 = -0.099 [negative F means more heterozygotes than expected means excess outbreeding]

第六步：总人群分布计算

1. 等位基因A (p-bar)

(2*125+250+2*50+30+2*100+500)/(1000+200+2000)=0.4156  {genotype splitting method}

或者

(0.5*1000+0.65*200+0.35*2000)/(1000+200+2000)=0.4156  {using Eqn FST.1 values for ps}

上面都是经过人群规模作大小做为加权计算因子的。

2. 等位基因a (q-bar)

同样的，有

(2*125+250+2*20+30+2*400+500)/(1000+200+2000)=0.5844

因为p+q应该要等于1，所以在这里我们检查一下结果：p-bar + q-bar = 0.4156 + 0.5844 = 1.0。虽然在这里的频率结果数据检查并不能保证我们的结果是正确的，但如果它们的总和不是一，那我们肯定可以知道我们计算错误了。

第七步：计算全局杂合指数

请注意，在这里的两个计算过程都采用了整个人群亚群产生的加权平均值。

HI的计算结果基于亚群个体中观察到的杂合子统计

HS则是基于亚群预期杂合子统计

HT基于总人口的预期杂合性

或者我们也可以通过下面的简单计算来完成：2*p-bar *q-bar = 2 * 0.4156 * 0.5844 = 0.4858

第八步：计算全局F检验

将下面的全局FIS与步骤5计算得到的本地近亲繁殖系数Fs进行比较和对比。在这里，我们使用所有亚群中单个杂合子的加权平均值。FIS和FS都基于观察到的杂合性，而FST和FIT基于预期的杂合性。

在这里下标 I、S 和 T 用于表明我们分析的水平。I指的是基于亚群个体中观察到的杂合子统计结果；S为基于亚群预期杂合子统计；T则是基于总人口的预期杂合性统计。

最后：我们可以对种群及其亚群的遗传结构得出一些结论

我们可以得出的符合哈代-温伯格定律可能的一个结论：
- 人群1与哈代-温伯格定律计算步骤 2 的结果一致
我们可以从步骤5中得出两个可能的“本地近亲繁殖”结论：
- 人群 2 是近交系（步骤 5 的结果），以及
- 人群 3 可能有分离交配或正在经历 Wahlund 效应（杂合子比预期的要多）。
关于遗传分化总体程度（FST）的结论
- 可能是由于遗传漂移带来的种群分化，约占总遗传变异的3.4%
在总群体中没有杂合子的过量或缺乏（FIT几乎为零）。

Author
Recent Posts

谢桂纲

高级数据科学家 at 苏州帕诺米克

Working on Engineered bacteria CAD design on its genome from scratch. Writing scientific computing software for Tianhe & Sunway TaihuLight supercomputer. Do scientific computing programming in R/R# language, he is also the programming language designer of the R# language on the .NET runtime.

Attachments

41598_2021_92984_Fig1_HTML • 2 MB • 676 click
2022年5月28日
p1 • 7 kB • 593 click
2022年5月28日
p2 • 7 kB • 610 click
2022年5月28日
p3 • 7 kB • 557 click
2022年5月28日
H_exp1 • 11 kB • 576 click
2022年5月28日
H_exp2 • 12 kB • 599 click
2022年5月28日
H_exp3 • 12 kB • 576 click
2022年5月28日
Fs • 4 kB • 601 click
2022年5月28日
HI • 14 kB • 624 click
2022年5月28日
HS • 14 kB • 583 click
2022年5月28日
HT • 8 kB • 600 click
2022年5月28日
FIS • 8 kB • 599 click
2022年5月28日
FIT • 8 kB • 605 click
2022年5月28日
FST • 8 kB • 591 click
2022年5月28日

打赏赞(7)

algorithm F-statistics Fst genotypic math population genetics statistics

One response

【统计检验】ANOVA检验的代码实现 – この中二病に爆焔を！ says:

2022年5月28日 at 6:29 PM

[…] 对于具体的F检验计算的应用，最常见的就是在进行t-检验之前我们会需要进行方差齐性检验来判断是否可以使用参数检验，这个方差齐性的判断就是基于F检验的结果来完成的。对于F检验，其还有另一个比较常见的用途，就是在群体遗传学之中做遗传特征的统计分析等。 […]

来自中国

Reply

【群体遗传学】群体基因型的F检验原理

第一步：计算等位基因频率

第二步：哈代-温伯格定律

第三步：计算局部观察到的杂合子

第四步：计算每个亚群的局部预期杂合度或基因多样性

第五步：F检验计算显著性差异

第六步：总人群分布计算

1. 等位基因A (p-bar)

2. 等位基因a (q-bar)

第七步：计算全局杂合指数

第八步：计算全局F检验

最后：我们可以对种群及其亚群的遗传结构得出一些结论

Attachments

Related

One response

Leave a Reply to 【统计检验】ANOVA检验的代码实现 – この中二病に爆焔を！ Cancel reply

Recent Posts

Archives

博客文章

【群体遗传学】群体基因型的F检验原理

第一步：计算等位基因频率

第二步：哈代-温伯格定律

第三步：计算局部观察到的杂合子

第四步：计算每个亚群的局部预期杂合度或基因多样性

第五步：F检验计算显著性差异

第六步：总人群分布计算

1. 等位基因A (p-bar)

2. 等位基因a (q-bar)

第七步：计算全局杂合指数

第八步：计算全局F检验

最后：我们可以对种群及其亚群的遗传结构得出一些结论

Order by Date Name Attachments

Related

One response

Leave a Reply to 【统计检验】ANOVA检验的代码实现 – この中二病に爆焔を！ Cancel reply

Recent Posts

Archives

博客文章

Tags

Attachments