人口遗传学(三)

两基因座群体遗传学中的一个关键概念是联系,或两个基因座之间的独立性。 为了了解联动,考虑由A1B1 / A2B2基因型的生物体产生的一组配子,即双重杂合子。 如果两个基因座被解释,那么该集合的组成(平均)将是{

1

4

a1b1,

1

4

a1b2,

1

4

a2b1,

1

4

A2B2}即,所有四种配子类型都同样表示。 (这假设Mendel的第一批法律在两个位置都持有。)所以取消链接的基因座是独立的 - 这使得Allele在轨迹处拥有的所有机构都告诉我们它在B座位上的所有等位基因都没有告诉我们。 相反的极端是完美的联系。 如果两个基因座完全链接,那么A1B1 / A2B2双杂合子产生的一组配子具有组合物(

1

2

a1b1,

1

2

a2b2}; 这意味着如果配音在轨迹处接收A1等位基因,则它必须在B座位处接收B1等位基因,反之亦然。

在物理术语中,完美的连杆意味着A和B座位位于同一染色体上靠近; 因此,两个基因座处的等位基因被继承为单个单元。 未链接的基因座在不同的染色体上,或在同一染色体上,但是通过相当多的距离分离,因此可能通过重组分解。 如果位点在同一染色体上,完美的连杆和完全缺乏连杆是连续统一体的两端。 通过重组分数r测量连接程度,其中0≤r≤

1

2

。 由A1B1 / A2B2基因型的生物体产生的一组配子的组成可以根据R编写,如下:

a1b1

1

2

(1-r)

a1b2

1

2

r

a2b1

1

2

r

a2b2

1

2

(1-r)

很容易看到r =

1

2

意味着基因座是未链接的,而r = 0表示它们完全链接。

在两个轨迹模型中,即使在没有选择,突变,迁移和漂移的情况下,游戏型(和因此基因型)频率也不是几代人的常数,同样与单轨箱中不同。 (虽然在没有这些进化力的情况下,但是等位基因频率将是恒定的。)可以从前一代中的频率加上复合分数来推导出配子频率的复发方程

x

'

1

=的x1 + r(x2x3-x1x4)

x

'

2

=×2 + r(x2x3-x1x4)

x

'

3

= x3 + r(x2x3-x1x4)

x

'

4

= x4的+ r(x2x3-x1x4)

(参见1969年的Ewens 1969或Edwards 2000,用于显式推导这些方程式。)

从复制方程,它遵循的是,杂种(和因此基因型)频率将跨越稳定,即,x

'

一世

=每个I的Xi,在两个条件中的任何一个下:(i)r = 0,或(ii)x2x3-x1x4 = 0。 条件(i)意味着两个基因座完全链接,因此实际上表现为一个; 条件(ii)意味着两个基因座处于“连锁平衡”,使得A-LOCU的等位基因与B-LOCU的等位基因中的随机关联。 更确切地说,联动平衡意味着AIBI配子的宽频率等于AI等位基因频率乘以BI等位基因的频率。

两个轨迹理论的一个重要结果表明,给定随机交配,量(X2x3-x1x4)将每一代降低,直到它达到零 - 此时基因型频率将处于平衡状态。 因此,最初在连锁不平衡中的人群将以取决于R的速率,重组级分的速率接近多种世代的联系平衡。 注意与单轨箱的对比,只需一轮随机交配就足以使基因型频率降至平衡。

4.随机漂移

随机遗传漂移是指有机群体中产生的基因频率的机会波动。 在许多进化模型中,包括在上面第3节中概述的模型。 假设群体非常大(从技术上,无限),以便抽出这种波动。 但虽然在数学上方便,但这种假设往往是不现实的。 在现实生活中,特别是小尺寸的人口,随机性是进化变化的重要来源。 因此,给定的等位基因可能会增加或减少频率,而不是由于它对有机生存期或繁殖的任何影响,但简单地偶然。 了解基因频率的这种随机变化及其与自然选择的互动,是人口遗传学,过去和现在的主要话题。

“随机漂移”一词具有狭义和广义(Kimura 1964; Rice 2004; Millstein 2016)。 在狭义的意义上,它指的是从配子的随机采样产生的基因频率变化以形成后代生成。 (这里的那一点是,生物产生更多的配子,而不是将其变成受精的酒精,只有二倍体生物的基因的一半被传送到每个配子)。 在更广泛的感觉中,漂移是指所有随机因素产生的基因频率变化,包括例如选择强度的随机波动,或在生存和交配成功中。 这里使用较窄的术语感。

随机漂移大大复杂化人口遗传学家的任务。 对于在漂移存在下,不再可以从其组合物中推导出T + 1中的群体的遗传组成; 因此,可以导出在上面的等式(1)中表达的等级频率的等位基因频率的复发关系。 相反,目的必须是向T + 1中的所有可能的遗传组合物推导出概率分布。 由此,有时可以提取关于等位基因的长期命运的预测。

用于分析随机漂移的最简单和最广泛使用的模型称为赖特 - Fisher模型。 该模型涉及包含N二倍体生物的有限群体。 对于几代人(可能是因为生态约束)被假设恒定。 几代人是非重叠的,这意味着父母一旦复制,而且交配是随机的。 假设选择,迁移和突变。 通过由父母生成产生的配子的随机采样2N来形成后代生成。 时间是离散的,一代对应于一个时间段。 考虑感兴趣的特定等位基因。 让X(t)表示生成T的群体中等位基因拷贝的数量,其中0≤x(t)≤2n(由于生物是二倍体)。 等位基因的频率p(t)然后等于

1

2n

x(t),其中0≤p(t)≤1。

我们对x(t + 1)和p(t + 1),分别发电T + 1的等位基因的拷贝数和频率感兴趣。 (它们与p(t + 1)=相关

1

2n

x(t + 1)。)现在,x(t + 1)是一个随机变量,可以从集合{0,1,2,...,2n}中取出任何2n + 1可能的值。 由于从父母配子池中随机抽样形成后代生成,因此X(T + 1)的概率分布由二项式分布给出:

概率(x(t + 1)= x)=(

2n

x

)p(t)x(1-p(t))2n-x

该公式告诉我们,对于x(t + 1)的每个可能值,其概率是群体尺寸n的函数,并且在父母生成p(t)中的等位基因的频率。 由此,我们可以轻松计算x(t + 1)的预期值,表示为e(x(t + 1)),这使得简单地等于x(t)。 这是非常直观的:由于第二代由随机采样形成,因此等位基因的副本数量与降低可能增加,所以生成T + 1中的预期拷贝数等于生成T中的实际拷贝数。 因此,等位基因频率从生成T到T + 1的预期变化表示为E(ΔP)等于零。

E(ΔP)= 0并不意味着漂移将没有进化效果的事实。 对于ΔP可以在零的平均值周围具有大致方差(取决于N的值),因此ΔP可以通过大量偏离零点。 (同样,如果一个人翻转一次硬币20次,则预期的头部数量为10,但实际头部的概率为8或更小是相当大的 - 约25%)。 在Wright-Fisher模型中,ΔP的变化结果变为var(Δp)=

1

2n

p(1-p)。 因此,随着人口大小的增加,ΔP的变化变小和更小,这表示随机漂移在小于大人物中的时间更为重要。

长期会发生什么? 在Wright-Fisher模型的假设下,连续几代的等位基因频率序列{P(0),P(1),P(2),...}构成称为Markov链的内容,即随机变量序列(随机过程),其中任何变量的概率分布仅取决于紧接在前变量的值。 也就是说,等位基因在生成T + 1中具有(例如)0.8的频率的概率,表示的prob(p(t + 1)= 0.8)取决于p(t)的值,等位基因在第1代中的频率,但不在早期的频率上几代人。 重要的是,该马尔可夫链具有特殊特征,即P(t),即0和1的两个极值值是吸收边界,这意味着如果系统达到其中一个界限,它将保持在那里。 也就是说,如果等位基因在一起T次灭绝,所以具有零的频率,然后在所有后续世代中,其频率也将是零(因为我们忽略突变)。 同样,如果等位基因在第一个中进行固定,则它将保持在后续几代内固定。 正式,我们可以表达这些事实为:prob(p(t + 1)= 0 | p(t)= 0)= 1和prob(p(t + 1)= 1 | p(t)= 1)= 1。 由于几代人数量没有上限,因此最终随机漂移必须导致等位基因灭绝或固定在人口中(并且类似地用于其他等位基因)。 这是因为吸收边界假设,这意味着每次随机轨迹最终必须以P(t)= 0或p(t)= 1,用于某种值。

这将自然引导到以下问题。 等位基因将在人口中固定的可能性是什么,而不是灭绝? Wright-Fisher模型产生了对这个问题的一个非常简单的答案。 如果给定的(中性)等位基因生成T的频率p(t),则它最终修复的概率是简单的p(t)。 这是一个相当直观的结果。 因为如果等位基因很少见,很可能偶然将从人口中丢失。 相反,如果等位基因很常见,最不可能从人口中丢失,因为这需要一个不可能的一系列机会事件。 这一结果的立即后果是,通过散发突变在人群中发现的新型(中性)遗传变异的概率是

1

2n

- 因为最初有一个人口中的新型变异副本。 因此,对于可观的N,它绝对可能是任何给定的新型变体都会丧失遗传漂移。 这说明了遗传漂移在许多代种过程中具有均质化趋势的一般事实,降低了群体的遗传变异。

重要的是,等位基因的当前频率之间的平等及其变得固定的概率假定存在的等位基因以及相同轨迹处的其他等位基因,是选择性中立的 - 意味着随机漂移是频率变化的唯一决定因素。 如果这种假设放宽,事情变得更加复杂。 等位基因的命运依赖于漂移和选择性优势或缺点。 这将使我们超越了简单的赖特渔民模型的范围,因为现在有两个演化因素在工作 - 随机漂移和自然选择。 在有限群体中,选择性地有利的等位基因具有正选择系数,将具有中性等位基因的固定概率更高; 并相反,对于选择性地不利的人。 这相当明显。 什么不太明显,但仍然是真的,即使产生一种赋予显着的选择性优势的新型变体,它仍然更有可能被漂移消除而不是固定。 为了定量研究选择和漂移的组合效果,人口遗传学家使用称为扩散分析的先进概率技术,其超出了本文的范围(参见2004 CH.5,Hartl 2020,CH.6。或OTTO和2007年,CH.15)。 但是一个关键的结果值得提及,这就是等位基因的最终命运取决于两个数量的相对幅度,即4ne和s。 这里NE表示“有效的人口大小”(纠正实际的人口大小,以考虑赖特 - 费舍尔模型的理想化假设的偏差),并且S是选择系数,这是对等位基因的生物相对适应性的测量生物体没有,其中0≤s≤1。 事实证明,如果4所9,那么自然选择将确定等位基因的命运,而如果4NES]然后漂移将决定其命运。

如引言所指出的(参见Dietrich 1994)所指出的,20世纪60年代和20世纪70年代,分子演化中漂移和自然选择的各个作用是在20世纪60年代和20世纪70年代的选择主义者争议。 由Kimura领导的中和营地认为,大多数分子变异对表型没有影响,因此不受自然选择的影响; 随机漂移是他们命运的主要决定因素。 Kimura认为,蛋白质氨基酸序列的显然恒定率,以及在天然群体中观察到的遗传多态性的程度,可以最好地解释中和的假设(Kimura 1977,1994)。 选择主义者反击自然选择也能解释观察到的多态性。 争议结束了任何一方都没有明确的胜利,部分是由于数据的缺乏。 然而,选择和漂移之间的反对仍然是今天分子群体遗传学中的中心课题,其中有丰富的天然群体的DNA序列变异数据。 已经开发了复杂的方法,以允许研究人员在现代生物的基因组中寻找过去选择的签名。 已经明显,DNA序列的中性分子变化确实存在如此(部分原因是由于“同义”突变,其使基因码的蛋白质的氨基酸序列保持不变)。 然而,还有许多证据表明,当代物种的基因组基本上受到自然选择的影响(Casillas和Barbadilla 2017,Kern和2018年)。 此外,随着原始中等者持有的,漂移是中性变体频率的唯一决定因子并不一定是真实的。 由J.Gillespie(2004)支持的另一种可能性是,中性变异在人口中的差异可能受到连接基因座的选择受到严重影响,该过程称为“搭便车”或“遗传草案”; 有关讨论,请参阅船长(2004)。 最近对选择与漂移问题的评估得出结论认为“DNA序列进化的程度是由选择与漂移引起的程度,仍然是一个重要的未答复一般问题”(Charlesworth和Charlesworth 2017,第6页)。

虽然在数学上很好地理解随机漂移,并且是生物学的大量实证研究的主题,但许多哲学家建议它在概念上比人们想象的更少清晰。 因此,例如,Millstein(2002)所说,生物学家使用的术语“随机漂移”通常与过程(例如随机抽样)和结果(例如基因频率的变化)之间存在模糊。 Millstein的观点对术语“漂移”和“选择”的究竟具有相当大的哲学文献; 查看遗传漂移的条目以进行讨论和参考。

4.1联合

上述分类的传统人口遗传学模型是“前瞻性”,因为他们的目标是基于关于工作中的进化过程的各种假设来预测人口的未来遗传成分或等位基因的命运。 从20世纪80年代开始,由于应用概率(Kingman 1982)的工作,最初被称为“膨胀理论”的不同方法被称为“膨胀理论”。 膨胀理论具有“倒退的”方向:它旨在基于从目前人群中汲取的基因样本(Wakeley 2008)的基因样本来提高人口的历史。 与传统的前瞻性模型相比,结束理论允许提出不同一套进化问题,并且还产生更简单的方式来计算传统模型的某些兴趣,例如固定概率(大米2004,CH.5)。 此外,聚结理论产生预测,例如关于DNA序列变异的量,我们应该期望在来自天然群体的基因样本中找到,这可以直接测试数据。

结束理论全都是关于(二倍体)人群的基因之间的追踪线。 通常,我们认为有机体的祖先后代谱系,但我们同样可以(实际上更容易)在轨迹处的基因谱系中思考,同时简单地忽略了基因在内部的生物体。 结束理论的起点是观察到当前群体中轨迹处的所有基因最终必须源于过去的单一祖先基因副本(“最近的常见祖先”或MRCA)。 这实际上是遗传漂移的倒侧。 如果我们在人口的血统中回到足够的时候,我们必须到达所有基因栏的一点,所以所有基因杆没有目前人口中没有后代。 这是因为,在每一轮再现时,给定的基因拷贝有一定的机会不在下一代中留下任何后代,即被漂移消除。 这意味着,当我们及时追溯时,基因谱系将加入或“合并”。

最简单的聚结方法使用赖特 - 渔夫模型,以上阐述。 回想一下,该模型涉及固定尺寸N的二倍体群,其中选择不存在,交配是随机的,并且几代人是非重叠的。 通过随机采样由前一代产生的配子的随机采样2N来形成每一代。 为了说明聚结,假设我们从目前人口随机挑选两种基因副本。 那时有两种可能性:两者都从前一代中的单个副本,或者它们没有。 这两个事件发生了概率

1

2n

(1-

1

2n

)分别。 要看到这一点,请注意,我们选择的第一个基因必须在上一代中有一些父母或其他父母; 因此,我们在前一代中选择的两个基因从单一副本中获得的概率只是第二种基因与第一个相同的父母的概率 由于有2N可能的父母,这等于

1

2n

。 因此,替代的可能性,这两个基因在前一代没有聚结,具有互补概率(1-

1

2n

)。

这种推理可以自然地重复。 假设我们选择的两种基因不会在上一代的立即结合,即,他们有不同的父母。 然后,这两个父母基因本身将来自上一代中的单一副本,或者它们不会。 如果是这样,那么我们所选择的两个基因将为两代代以前派对,即,来自单个祖父母基因。 概率是

1

2n

×(1-

1

2n

)。 通过迭代这一推理,我们可以解决当前一代中的两种随机选择的基因拷贝的概率分布来自共同的祖先T世代。 这是:

Prob(coalescence t generations ago)=

1

2n

×(1-

1

2n

)t-1。

问的下一个问题是这个分布的预期价值是什么,即联合的平均时间是多少? 答案结果大约是2n。 因此,平均而言,在给定基因座的一对随机挑选的基因将在2N世代后聚结,其中N是群体尺寸。 然而,关于这种均值存在相当大的变化,这意味着聚结会发生的很大程度上会更快,或者比这更慢。 通过建立这种简单的分析,达到的膨胀理论允许一系列更复杂的问题,涉及例如多个等位基因,次分群体,随着时间的推移变化的群体,以及与基本赖特 - 费舍尔模型的假设的其他偏差。 例如,膨胀理论产生了直接计算的直接计算,我们必须平均地找到许多不同基因的MRCA(Otto和Day 2007,Ch。13)。

(本章完)

相关推荐