查看: 211|回复: 3

[动植物重测序] 种群历史有效群体大小——PSMC后续改进

[复制链接]
  • TA的每日心情
    忙~
    2019.12.2 17:10
  • 签到天数: 1 天

    连续签到: 1 天

    [LV.1]初来乍到

    管理员

    Rank: 15Rank: 15Rank: 15Rank: 15Rank: 15

    主题
    77
    奥币
    525
    积分
    698
    注册时间
    2019.7.8
    在线时间
    136 小时

    发表于 2020.1.15 09:44:52 | 显示全部楼层 |阅读模式
    上一次推送中,周老师讲解了四个经典的PSMC案例,相信大家都对这个神奇的分析方法有了兴趣。那么,如果说,这个方法还有改进的余地,你想知道吗?一起来看看周老师的分享吧!

    PSMC改进型的方法比较有代表性包括MSMC[1]和SMC++[2]。这两种方法都是突破了PSMC一次只能分析1个样本的局限,而是可以整合并同时分析多个等位基因序列间的最近共祖时间,从而提高了有效群体大小(Ne)预测的精度并提高了效率。

    由于是多个个体单倍型之间的比较,因此可以提供更多突变时间更近的变异信息(突变是随着时间累积的,所以分化时间越近的序列之间,变异越稀有),从而提高了这些方法对较近时间点(1万年以内)的Ne的估算精度。

    图1 MSMC算法原理示意图

    但MSMC的方法有个不足,就是运算量依然非常大,一般一次最多只能分析4个个体(8条单倍型)。如果项目中重测序的样本数非常大,MSMC就无法充分使用全部样本的信息,最后还是和PSMC一样,挑选代表性的样本进行分析。

    MSMC的方法还有一个不足:用于分析的数据必须是相邻等位基因间相位状态已知的基因型数据(phased genotype)。这里,我先解释一下什么叫相位。在重测序结果中,每个位点的基因型都是孤立的。比如图2中的基础基因型数据(可以重测序),我们知道两个位点的基因型分别是A/C和C/T。但实际上,这是个二倍体生物,每个位点的两种等位其实是分别分布在两条同源染色体上。

    但仅仅基于重测序的结果,我们并不知道这两个相邻位点的单倍型构成是相位类型1还是相位类型2(即我们不知道第一个位点A到底是第二个位点的C还是T在一条染色体上)。这还仅仅是两个位点,如果是3个以上位点,相位的构成将更加复杂(即单倍型构成更加复杂)。

    图2 基因型与相位

    相位分型(genotype phasing)的过程,可以理解为将1个孤立的基因型转为确定的单倍型信息的过程。这一般需要较大的重测序样本量,用Beagle和Shapeit等软件将原始的基因型数据转为phased基因型,既获得个体的单倍型信息。这就依赖于:

    1)较大样本量(比如数百个个体);
    2)较复杂的数据处理过程。

    但对非模式物种,不一定每个重测序项目都有足够多的样本量,那么进行准确的phasing是很困难的事情(模式物种,例如人,本身已经有大量重测序数据报道了,所以可以基于已报道的数据进行phasing)。而MSMC就必须依赖于phased的基因型数据。如果数据phased的不准确,则会导致MSMC结果的准确性大打折扣。

    MSMC的以上不足,更新的一款软件MSC++得到了很大改进。MSC++分析的总体思路和MSMC类似,也是可以整合多个样本进行Ne估测。但通过算法的改进,MSC++的优点体现在:

    1)可拓展性运算效率高,可以一次分析多个样本,突破了MSMC一般只能同时分析4个样本的限制。
    2)结果更准确由于整合多个样本的信息,因此结果更加准备,且对近期事件(1万年以内的历史)解析精度大大提高。
    3)不需要phasing,基础的重测序数据即可
    4)结果以拟合线的形式展示,更顺滑直观; 在一些文章里,为了保证历史Ne预估结果的可靠性,也会同时用两三种方法同时分析,然后比较是否一致。

    以下,我们也可以看几篇MSMC和SMC++相关研究论文的比较。

    我们上文用的案例都是动物的,对于有性繁殖的植物当然也可以用这类模型分析(个体内也存在分化时间各不相同的重组片段)。我们来看一篇非洲稻研究的案例。在这个研究中对163株非洲栽培稻和83株非洲野生稻进行全基因组重测序,然后研究非洲稻的种群历史。图3就是非洲稻的历史Ne大小分析结果。

    值得先解释的是,哪怕是PSMC的方法,在水稻里也能比较精确估计到4000千年前左右,这比人类通常只能在1万以前才能获得稳定的估计结果相比,的确更接近现代。这和水稻突变速率较快有关(是人类的6倍以上),突变越快,越能快速累积突变,有利于解析较近的种群历史。

    从图3中不同方法比较,我们可以注意到各个方法在较远的尺度上(5千年以前),结果基本是一致的。但越近的时间点,尤其1千年以内,只有SMC++才有足够精确的解析能力,因为它可以充分利用该项目中163株栽培稻的变异信息。

    图3 非洲稻历史有效群体大小估计。图A, PSMC、MSMC分析非洲栽培稻(O. glaberrima)的历史有效群体大小;图B,PSMC分析非洲栽培稻和野生稻(O. barthii)的有效群体大小;图C,SMC++分析非洲栽培稻的有效群体大小。

    从图3B中,我们可以看到在1万多年前,栽培稻和野生稻群体Ne都开始下降。这个时期人类也开始进行非洲稻的驯化。因为驯化过程中,会淘汰大量不符合预期的个体,导致栽培群体遗传多样性下降,对应群体Ne值也持续下降。但由于野生稻的群体在这个时期Ne也在下降,所以驯化不是Ne下降的唯一因素。

    在这个时期开始,撒哈拉地区开始变得更加干燥,因此人类因素(驯化)和气候因素(干燥)是共同导致非洲稻在1万多年前Ne值开始下降。但这次瓶颈效应的结束时期,在两个水稻群体却不同。

    大概在3000多年前,非洲野生稻的群体规模开始恢复,对应这个时期撒哈拉地区的干燥时期结束。但栽培稻的Ne值迅速恢复要推迟到大概2000年前(图3B,C),这是因为直到这个时期水稻的驯化才接近完成(化石证据)。

    从这里,给我们的一个启示是,当我们无法判断1个群体的Ne值变化是哪些因素导致的时候,可以多研究几个群体,甚至生存地点相似的不同物种,通过比较可以得到更准确的结论。比如在这个案例中,如果只研究栽培稻,会误认为1万年前开始的瓶颈效应仅仅是人类驯化导致的。引入野生稻分析后,才能发现环境变化也是重要的因素(野生稻理论上没有人类驯化的影响)。

    至于1千年以内的时期,只有SMC++的结果中才有。500年前后,非洲栽培稻的Ne值又开始下降。对应的解释是由于这个时期非洲开始引入亚洲栽培稻,所以非洲栽培稻种植面积开始下降,对应多样性也在下降。这还可以和非洲地区特有的历史事件关联。由于这个时期非洲奴隶贸易兴起,导致非洲壮劳力不足。非洲稻种植比亚洲稻需要更多的劳动力,所以亚洲稻比非洲稻更符合这一时期非洲的需求。

    从这个例子中我们也可以看出,对于与人类存在强关联的栽培物种或濒危动物,讲其种群规模的变化史与人类历史关联在一起,会让文章更加生动。由于人类历史的剧变集中在较近的两千年内,所以要开展相关的讨论,必须用类似SMC++这样对近期变化分辨率更高的方法才行。

    SMC++在其他人类的研究里,也呈现出对近期种群历史的更好的分辨力。比如在意大利撒丁岛的人群研究里,SMC++可以清晰展示撒丁岛人群在新石器时代以来(1万年以内),有效群体大小一直低于意大利人和其他欧洲人,体现出作为一个独立分支演化的特性(图4)。

    图4 撒丁岛人种以及相关人种的历史有效群体大小。TSI,托斯卡纳人(意大利人种),Ogliastra(撒丁岛的一个省份),CEU:北欧和西欧人种。图中竖线阴影代表新石器时代,对应大概4500~8000年前。注意,图中X轴使用的单位为世代,一个世代对应30年。

    在一项对日本人种的研究中,也使用SMC++的方法,对3份不同的日本人重测序数据进行分析,得出的结果基本相似[5]。在近5000年的范围内,可以看到日本人的群体有效规模在快速增加。

    图5 日本人的历史有效群体大小,1个世代对应的时间是29年。

    今天的文章分享就到这里,如果你还觉得意犹未尽,可以来我们的Omicshare课堂,学习周老师这两节与物种分化相关的在线课程,文章中讲到的物种分化时间预估和有效群体分析都有详解哦。

    视频观看方式

    电脑端:登录Omicshare课堂www.omicshare.com/class观看学习

    手机端:通过点击基迪奥微信公众号底部菜单栏【视频教程】观看学习
    课程链接:https://www.omicshare.com/class/home/index/series?id=53


    参考文献:
    [1]Schiffels S, Durbin R.Inferring human population size and separation history from multiple genomesequences[J]. Nature genetics, 2014, 46(8): 919.
    [2]Terhorst J, Kamm J A, SongY S. Robust and scalable inference of population history from hundreds ofunphased whole genomes[J]. Nature genetics, 2017, 49(2): 303.
    [3]Cubry P,Tranchant-Dubreuil C, Thuillet A C, et al. The rise and fall of African ricecultivation revealed by analysis of 246 new genomes[J]. Current Biology, 2018,28(14): 2274-2282. e6.
    [4] Chiang C W K, Marcus J H, Sidore C, et al. Genomic historyof the Sardinian population[J]. Nature genetics, 2018, 50(10): 1426.
    [5] Okada Y, Momozawa Y, Sakaue S, et al. Deepwhole-genome sequencing reveals recent selection signatures linked to evolutionand disease risk of Japanese[J]. Nature communications, 2018, 9(1): 1631.


    本文作者:基迪奥-周老师



    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有帐号?立即注册

    x
    回复

    使用道具 举报

  • TA的每日心情
    忙~
    2020.1.15 09:39
  • 签到天数: 5 天

    连续签到: 2 天

    [LV.2]偶尔看看I

    钵水母

    Rank: 3Rank: 3

    主题
    0
    奥币
    4
    积分
    71
    注册时间
    2019.12.21
    在线时间
    3 小时

    发表于 2020.1.15 10:07:52 | 显示全部楼层
    感谢楼主分享!
    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    5 天前
  • 签到天数: 4 天

    连续签到: 2 天

    [LV.2]偶尔看看I

    钵水母

    Rank: 3Rank: 3

    主题
    0
    奥币
    77
    积分
    68
    注册时间
    2020.1.16
    在线时间
    2 小时

    发表于 4 天前 | 显示全部楼层
    学习
    回复

    使用道具 举报

  • TA的每日心情
    好棒
    3 天前
  • 签到天数: 6 天

    连续签到: 6 天

    [LV.2]偶尔看看I

    钵水母

    Rank: 3Rank: 3

    主题
    0
    奥币
    56
    积分
    37
    注册时间
    2019.3.14
    在线时间
    5 小时

    发表于 3 天前 | 显示全部楼层
    谢谢分享
    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则

    快速回复 返回顶部 返回列表