查看: 855|回复: 3

[动植物重测序] 种群历史有效群体大小——PSMC案例讲解

[复制链接]
  • TA的每日心情
    忙~
    2019.12.2 17:10
  • 签到天数: 1 天

    连续签到: 1 天

    [LV.1]初来乍到

    管理员

    Rank: 15Rank: 15Rank: 15Rank: 15Rank: 15

    主题
    83
    奥币
    682
    积分
    770
    注册时间
    2019.7.8
    在线时间
    146 小时

    发表于 2020.1.7 09:58:04 | 显示全部楼层 |阅读模式
    在上一篇文章《种群历史有效群体大小——PSMC原理介绍》中,周老师给大家简要介绍了PSMC的分析原理。那么这么厉害的方法,具体在文章中要怎样应用呢?本期为大家带来四篇PSMC经典文章解读,一起来看看吧~

    美洲旅鸽的遗传灭绝原因

    先从一篇北美旅鸽种群历史研究的PNAS文章开始[1]。1866年,一群旅鸽途经了加拿大安大略省南部。鸟群约1600米宽,480千米长,飞越一地需要14个小时。据估计,这条“羽之河流” 大约由35亿只旅鸽形成。在这个时期,整个北美大陆东部可能有多达50亿只旅鸽。

    但短短半个世纪后,由于被不断猎杀,以及禽类中的鸡新城疫,外加其一次仅产一枚卵,旅鸽数量逐步减少,直至1914年9月1日彻底灭绝。尽管有以上的不良环境因素,但按理来说50亿只个体的种群应该有极高的遗传多样性,为什么会在如此短的时间灭绝呢?

    科学家利用古代DNA提取技术得到了三只旅鸽标本里的基因组序列数据,然后开展种群历史有效群体大小分析(PSMC)。文章的核心就是对以下这张PSMC结果的解读。

    图1 近百万年间的旅鸽有效群体大小变化

    从图中可以看出,尽管在19世纪中叶旅鸽看起来数量巨大,但实际上其有效群体大小Ne在近百万年间,一直在0.5~1.7×10^5左右上下波动。而它们的在19世纪中叶的普查群体大小Nc大概是3~5×10^9,那么Ne/Nc约等于0.0001。这一数值比其他鸟类低得多(0.05-0.74)。这说明旅鸽群体实际的遗传多样性并不高。


    从图1中,我们可以发现,旅鸽在近百万年中,有效群体大小一直处于周期性的波动,经历了一次又一次瓶颈效应(种群规模突然大规模降低)。其中这些变化也与某些地质时期吻合。比如,在从末次间冰期(1.1~1.3×10^5年前,相对温暖的地质时期)后,其种群有效规模开始持续降低,在末次盛冰期(约2.1×10^4年前,严寒的地质时期)降到最低,然后种群再次恢复。总之,这个物种由于气候、食物供应等因素,总是处于周期性的种群大小波动中。

    我们在前面的文章提到过,对于物种来说,累积新的突变是非常缓慢的,遗传多样性一旦下降就很难恢复。所以,在种群收缩期,旅鸽丢失大量遗传多样性。而在种群扩张期虽然其群体个体数迅速增加,但实际从遗传学角度看,都是遗传上高度相似的“冗余拷贝”,群体的遗传多样性并没有充分增长。


    PSMC的分辨率只能分析到1万年前的水平,所以图1在1万年前的位置就戛然而止了。但我们可以想象,按照旅鸽群体规模的历史波动规律,在近万年的历史中其种群本来应该处于规模下降的趋势中。恰好19世纪,欧洲人大量在北美洲定居,带来大量捕杀、栖息地破坏等不利因素。两种效应叠加在一起,大大加剧了旅鸽的群体衰减。一旦群体大小低于一定的阈值,低于这个物种群体自我维系的水平,那么它们就会迅速走向灭绝。


    猛犸象的灭绝之谜

    我们再来看看这篇有趣的猛犸象种群历史研究。这个研究团队由瑞典自然历史博物馆的研究人员领导。他们对两头猛犸象的标本进行了测序,一头来自西伯利亚的oimyakon,距今约45,000年,另一头则生活在北冰洋的wrangle岛,距今约4,300年,猛犸象大概就是在这个时期灭绝[2]。文章对两个样本的古DNA进行全基因组测序,然后推测它们的种群历史。

    图2 两个样本的样本获得地点(A),估算年代和测序数据量(B),以及PSMC分析结果(C)

    文章篇幅不长,大部分内容是围绕以下图中PSMC的分析结果展开的。从PSMC结果中,我们可以看到两个猛犸象的个体的PSMC分析结果基本是重叠的(注意:oimyakon来自于4.5万年前,所以对应的预测范围也做了调整,仅止于约4.5万年前)。从图中可以看到猛犸象群体经历过两次瓶颈效应(有效群体大小下降)。文章中对两次瓶颈期的解读,也结合了对应的地质时期。


    (1)较远那次瓶颈期

    较远那次是在早期或中期更新世期间,约是285,000 年前。因为这个时间点早于倒数第二次间冰期(也叫埃姆间冰期,Eemian Interglacial,约116,000–130,000 年前,对应图2C中右侧的竖阴影)。间冰期气温会持续上升,这理论上会对缩小习惯极低寒冷环境的猛犸象的栖息地范围。但这次瓶颈效应早于埃姆间冰期,因此这瓶颈效应不大可能是埃姆间冰期的气候剧变导致的。

    (2)较近那次瓶颈期

    更近那一次瓶颈期,则是大概12,000年前有效群体大小开始下降,直到灭绝。12,000年前这个时期对应更新世和全新世过渡期(Pleistocene/Holocene transition,对应图中2C中的左侧的竖阴影线)。

    为了让大家初步了解更新世和全新世的关系,可以参阅表1。在更新世和全新世过渡期,冰期结束气温上升,海平面上升导致Wrangel与大陆隔离成为了岛屿。同一时期,欧亚大陆的猛犸象消失了,猛犸象这个物种仅仅在Wrangel岛存活,直到约4000年前灭绝。

    表1 第四纪地质时期时间表

    关于这个这次瓶颈期的分析讨论,应该说不是有新发现,而是与已有的研究结果吻合。对应的猛犸象的灭绝,可以百度“第四纪灭绝事件”。在更新世和全新世过渡期,在全球各个地区出现大量巨型动物群的灭绝事件,其中就包括猛犸象。其中原因包括气候突变(气温突变对大型动物冲击更大),人类猎杀(人类在这个时期从非洲扩散到全球,相比已经适应并惧怕人类的非洲大型哺乳动物,其他地区动物则对人类的力量一无所知)等。


    总之,最后的这一批猛犸象仅仅在Wrangel岛存活(大概是因为属于北极岛屿,比较寒冷,适合猛犸象生存,且与世隔绝可以减少人类的捕杀)。但生存了几千年后,Wrangel岛上的猛犸象也灭绝了。


    这其中很重要的原因就是因为岛屿上猛犸象的种群大小有限,无法维持足够高的遗传多样性。我们上文提到过,一个物种有效群体大小如果低于一定阈值,就将无法抵御遗传漂变导致的遗传多样性丢失,导致物种走向灭绝的不归路。


    这篇文章中,通过分析两个样本的基因组杂合度,发现Wrangel岛上的猛犸象相比它四万年前西伯利亚的同类,基因组的确杂合率显著降低(个体杂合度低就是群体多样性低的一个体现)。所以,多样性持续下降导致残留在Wrangel岛上的猛犸象群体对环境变化的适应性进一步降低,这是它们最终灭绝的因素之一。


    值得注意的是,任何基于序列的分析,本质上只能获得序列的差异度(核酸替换率),然后基于该物种的突变速率,将序列差异度换算为序列的分化时间。在该文章图2C的PSMC图的X轴是双坐标轴。下沿X坐标轴用的单位是核酸差异度(K),这是PSMC分析的直接结果。上沿X坐标轴用的单位才是我们熟悉的分化时间(T),这是基于每一代核酸突变速度u将K换算为T的结果。


    如同我们上文提到过,某个物种的核酸突变速度本身也是基于各种渠道时间的预估,不同来源的数据差异范围很大。所以你注意的话,图2C的上沿X坐标的时间刻度有一个相当大估算预期波动范围(括号中的数字),这实际上就对应不同来源的u值估算的T值的波动。


    这再印证了我之前的建议,进化的东西都是推测已经消失的东西,无法大部分无法实在实证伪,只求逻辑自洽。如果有多种不同来源的突变速率数据,选择1个符合自己预期的即可。


    须鲸种群规模史


    PSMC当然不仅仅用于研究古DNA分析,更多还是用于研究现存的物种。现在随着基因组denovo测序的降价,组装几个基因组变得很容易,那么寻找生物学亮点“拼凑”出一篇文章,就显得尤为重要。

    基于新组装的基因组,开展PSMC分析研究物种的种群规模史,当然一种即简单又有一定创新性的分析点(既然是新基因组,自然是前人没有做过的)。比如这篇2018年研究,须鲸多个物种基因组的文章[3]。其中,PSMC也是文章中重要的一部分内容,我们简要解读一下这个部分。


    图3 六种须鲸的历史有效群体大小(Ne)

    图3中的6种须鲸,包括蓝鲸(blue whale)、鳁鲸(Sei whale)、小须鲸(Minke whale)、灰鲸(gray whale)、座头鲸(humpback whale )、长须鲸(Finwhale)。亮棕色竖阴影是更新世的间冰期,灰色竖阴影则分别对应MPT(Mid-Pleistocenetransition,中更新世过渡期)和PPT(Plio-Pleistocene transition,上新世-更新世转换期,大概2.6百万年)。


    将这些地质时期描绘到图中,就很容易将气候变化(地质时期对应的就是气候的变化)与种群的变化对应起来。比如,在PPT期各种须鲸都保持了很大的Ne;在MPT期后,大部分须鲸Ne(有效群体大小)保持稳定,但蓝鲸经历了一次剧烈的Ne下降;而在末次间冰期后(大概10万年前),各个种的Ne开始有缓慢降低等等。


    所以,要解读PSMC的结果,比较重要的一点就是搜集重要地质时期的具体时间,以及对应的已经报道的物种兴衰史。提前做好这些功课,才能把一张枯燥的PSMC图讨论出花样。


    大熊猫的种群规模史

    在大熊猫重测序的文章中也使用了PSMC的方法拟合了历史上大熊猫的群体有效大小(图4a)[3]。对于熊猫的历史有效群体大小变化过程,主要也是和地质时期共同讨论,这里就不再详细描述。


    比如,较早的一次瓶颈效应对应更新世的冰期,较近的一次瓶颈效应则发生在大概2万年前,对应的是末次盛冰期,这部分内容详细的描述建议可以查看原文。值得注意的是,这张图中也加入了另一个气候指标——历史上中国黄土的堆积速度。这一指标和气候的干燥与湿润相关,可以看出这个指标与大熊猫的Ne负相关(r=-0.3)。


    值得关注的是,PSMC由于只利用1个个体两个单倍型间的差异,来预估两个等位基因间的分化时间以及对应时期的有效群体大小。如果是更近的时间范围内(1万年内),由于积累的变异太少,PSMC的方法则无法准确估计Ne值。这篇文章中,用了∂a∂i的方法来弥补PSMC的不足,估算了1万年以内的大熊猫有效群体大小。因为只有到1万年内,才能更好讨论人类的活动,对大熊猫群体的影响。


    但∂a∂i这个软件使用比较复杂,需要预设多种模型,才能用于模拟群体的变化过程。那么,对于想估计1万年以内的Ne值,又想使用方法简单,还有什么选择呢?大家可以关注后续对PSMC的改进型方法的介绍。


    图4 PSMC和∂a∂i 分别估计较远和较近时代的大熊猫有效群体大小

    今天的文章分享就到这里,如果你还觉得意犹未尽,可以来我们的Omicshare课堂,学习周老师这两节与物种分化相关的在线课程。


    视频观看方式

    电脑端:
    登录Omicshare课堂

    手机端:
    通过点击基迪奥微信公众号底部菜单栏【视频教程】观看学习

    课程链接:

    参考文献:
    [1] Hung C M, Shaner P J L, Zink R M, et al. Drastic populationfluctuations explain the rapid extinction of the passenger pigeon[J].Proceedings of the National Academy of Sciences, 2014, 111(29): 10636-10641.
    [2] Palkopoulou E, Mallick S, Skoglund P, et al. Completegenomes reveal signatures of demographic and genetic declines in the woollymammoth[J]. Current Biology, 2015, 25(10): 1395-1400.
    [3] Árnason Ú, Lammers F,Kumar V, et al. Whole-genome sequencing of the blue whale and other rorqualsfinds signatures for introgressive gene flow[J]. Science advances, 2018, 4(4):eaap9873.
    [4] Zhao S, Zheng P, Dong S,et al. Whole-genome sequencing of giant pandas provides insights intodemographic history and local adaptation[J]. Nature Genetics, 2013, 45(1): 67.


    本文作者:基迪奥-周老师

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有帐号?立即注册

    x
    回复

    使用道具 举报

  • TA的每日心情
    yes!
    2020.1.8 09:56
  • 签到天数: 35 天

    连续签到: 2 天

    [LV.5]常住居民I

    钵水母

    Rank: 3Rank: 3

    主题
    2
    奥币
    94
    积分
    72
    注册时间
    2018.1.10
    在线时间
    20 小时

    发表于 2020.1.7 15:23:40 | 显示全部楼层
    在公众号上面看到了周老师的分享,首先表示感谢!非常赞!
    同时我也在公众号上问了一个问题就是:关于样本只有单倍体样本的该如何进行种群大小的推断。老师给的回复是:将两个单倍体基因组合在一起构建假二倍体进行后续分析。
    我想在次追问一下老师:是通过calling出的snp直接人为的组合成0|0,0|1的形式还是合并reads后重新进行snp calling呢?如果不是随机两两组合,感觉会人为引入误差。应该怎么随机组合操作,以减少误差呢?
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    忙~
    2019.12.12 09:00
  • 签到天数: 105 天

    连续签到: 1 天

    [LV.6]常住居民II

    管理员

    Rank: 15Rank: 15Rank: 15Rank: 15Rank: 15

    主题
    47
    奥币
    6595
    积分
    4970
    注册时间
    2015.12.5
    在线时间
    516 小时

    活跃会员论坛元老


    发表于 2020.1.7 17:54:22 | 显示全部楼层
    tpwang 发表于 2020.1.7 15:23
    在公众号上面看到了周老师的分享,首先表示感谢!非常赞!
    同时我也在公众号上问了一个问题就是:关于样本 ...

    PBMC分析,导入的是bam文件。所以,你需要把两份bam文件合并。随机两两组合就可以了。
    回复 支持 1 反对 0

    使用道具 举报

  • TA的每日心情
    yes!
    2020.1.8 09:56
  • 签到天数: 35 天

    连续签到: 2 天

    [LV.5]常住居民I

    钵水母

    Rank: 3Rank: 3

    主题
    2
    奥币
    94
    积分
    72
    注册时间
    2018.1.10
    在线时间
    20 小时

    发表于 2020.1.8 09:55:01 | 显示全部楼层
    基迪奥-周煌凯 发表于 2020.1.7 17:54
    PBMC分析,导入的是bam文件。所以,你需要把两份bam文件合并。随机两两组合就可以了。 ...

    感谢周老师的回复
    回复 支持 反对

    使用道具 举报

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则

    快速回复 返回顶部 返回列表