查看: 1275|回复: 13

[多样性测序] 你是否真的了解PCA?

  [复制链接]
  • TA的每日心情
    好棒
    3 天前
  • 签到天数: 89 天

    连续签到: 1 天

    [LV.6]常住居民II

    管理员

    Rank: 15Rank: 15Rank: 15Rank: 15Rank: 15

    主题
    280
    奥币
    890
    积分
    4290
    注册时间
    2018.4.19
    在线时间
    709 小时

    推广达人宣传达人


    发表于 2018.11.19 09:20:17 | 显示全部楼层 |阅读模式
      PCA分析使用非常广泛,一直是个热门话题。介绍PCA的文章很多,无论原理、图形解读、绘制方法,应有尽有。它的使用范围也很广,转录组、群体进化、微生物生态、甚至金融、教育领域。
    今天仅以微生物群落研究为出发点,简单介绍PCA分析与微生物物种多样性的关系。微生物群落研究中,正常的PCA图形是图1这样子的,一般用二维坐标展示,图形中样本是点,物种是箭头。

    平常看到的很多PCA图没有箭头,是因为没有展示,但实际最原始的PCA图都带有箭头。这种图形又称为biplot图,意思是一个图形同时展示了物种和样本两种信息。



    图1. 典型PCA图

    主坐标(或主成分)
    PCA很大的一个特征就是具有“主坐标”,这应该在大多数的解释中都有提及。什么是主坐标?这里举一个简单例子,如表1的物种x样本的丰度表格,包含S1-S6的6个样本点和A,B,C三个物种,其中S1、S2和S3是一个分组,其他三个样本是另外一个分组。

    因为一般实验设计都是按照一定的性质来对样本进行分组,同一分组内的物种理论上会存在较相似的丰度模式,那么实际上就可以通过某些物种来判断样本之间的关系。通过表1我们可以发现,A、B两个物种在不同样本中丰度并不一样,而C是一样的,所以利用C,我们无法将样本区分,因此只有A、B适合用于区分样本。
    但A和B两个在区分的程度上有所差别,A在所有样本中的跨度更大,而且呈现前三个样本和后三个样本分别聚集的趋势;B则是在所有样本中等差分布,因此A比B更有能区分样本分组。在这里, A更能解释样本分布规律,也就是“第一主坐标”,B是“第二主坐标”,C由于区分度最差,是“第三主坐标”。

    表1 物种丰度表格


    聚类

    PCA的作用其实就是通过物种丰度模型,寻找样本的远近关系,目的让同一个分组的点在图形中更为靠近。怎么做到?再举一个简单例子。我们将上标数据利用omicshare工具绘制一个3D散点图看看,结果如图2。为方便解释,我顺便标注了A、B、C三个物种坐标轴和所有样本点。
    从图中可以简单看到,通过三维空间发现,物种丰度模式越相似的点(如S1、S2、S3),在图形中靠的越近,形成“聚类”效果。那么,最极端的是,如果S1,S2,S3全都是A:100,B:45,C:80,那三个点就会完全重合!


    图2.三维效果图

    降维

    降维,是PCA中提到最多的一个词。群落中被测到的微生物成千上百万,之前已经提到,一个物种是一个维度,那1000个物种就是个1000维的空间。我们正常人是无法识别和理解这么高维度的空间,这需要把高维度空间简化为三维甚至二维,让大家理解,降维就是如此产生。
    降维的理解和实现,需要借助之前“主坐标”这个概念。我把图2的三维图分别投影在A、B、C坐标上,就是图3的效果。图3,本质就是三维降到一维,是比较简单的降维例子。降维之后,我们可以把A、B、C三个投影与原来图2的三维图进行比较发现,A轴上的点聚类模式最能还原原来三维图,C轴投影还原效果最差(简直就是误解!)。

    原来降维是会有可能失真的!怎么办?联合主坐标的重要性可以发现,之前从数据表格看到A轴数据最有代表性,从降维图中A的效果也是最好,所以我们在降维的时候,必须要保证挑选的坐标轴是最有代表性的,那么图形失真的比例就自然减低。


    图3. 降维效果图

    坐标变换

    这一部分应该是最难理解和解释,在这里不打算花太多篇幅去说明。上面降维提到,尽可能找到最有代表性的物种来作为坐标轴展示图形,以减少失真效果。但实际上,由于数据的复杂性,很难有一个“已知的物种”来直接用作坐标,这时候我们必须要“造”一个虚假的物种。

    表1的A,B,C三个物种中恰好A物种很有代表性。但实际数据往往如表2,A、B、C都不是很适合用来做代表物种。非得降维,怎么办?在物种足够多的时候,空间维度也会很高,通过空间的不断投影和变换(这是我们无法理解的),我们就总会找到一个新的物种坐标A’、B’。

    A‘和B’在算法上是通过其他物种分解合成而来的,它不存在,但它在作图上最有代表性。这类似于图4的投影,我们不断挪动灯泡位置,总能在白纸上发现一个最合理的点的投影。这时候白纸所在的坐标就是我们所提到的新合成的坐标。

    表2. 物种丰度表


    图4. 灯泡投影效果

    实际应用

    不可忽视一点就是,PCA在群落研究中的应用其实已经越来越少,主要是与它的线性模型有关,它会默认所有物种都是沿着环境梯度有线性的变化,但实际上这是不可能的(对线性的解释,有兴趣可自行搜索)。需要解决这个问题,就需要借助CA、PCoA等方法。

    另外,由于PCA的线特质,会让它过分强调群落中优势物种的作用,这在稀有物种较多的样本(例如环境土壤样本),PCA的分析效果有可能会很差,这值得注意。

    本文作者:基迪奥小师兄


    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有帐号?立即注册

    x
    回复

    使用道具 举报

  • TA的每日心情

    昨天 22:08
  • 签到天数: 804 天

    连续签到: 1 天

    [LV.10]以坛为家III

    中华鲟

    Rank: 5Rank: 5

    主题
    0
    奥币
    2892
    积分
    820
    注册时间
    2016.4.8
    在线时间
    529 小时

    发表于 2018.11.20 09:20:37 | 显示全部楼层
    灯泡投影的解释,有点明白了,多谢分享!
    战拖
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    吃饭
    2019.6.7 20:40
  • 签到天数: 507 天

    连续签到: 1 天

    [LV.9]以坛为家II

    中华鲟

    Rank: 5Rank: 5

    主题
    14
    奥币
    1248
    积分
    708
    注册时间
    2017.3.27
    在线时间
    134 小时

    发表于 2018.11.20 09:25:32 | 显示全部楼层
    PCA主成分分析,可以用的地方好多啊
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    害羞
    前天 13:33
  • 签到天数: 559 天

    连续签到: 10 天

    [LV.9]以坛为家II

    迅猛龙

    Rank: 8Rank: 8

    主题
    25
    奥币
    3422
    积分
    1605
    注册时间
    2016.1.8
    在线时间
    363 小时

    发表于 2018.11.22 13:28:52 | 显示全部楼层
    好帖子
    回复

    使用道具 举报

  • TA的每日心情
    忙~
    前天 22:29
  • 签到天数: 247 天

    连续签到: 1 天

    [LV.8]以坛为家I

    中华鲟

    Rank: 5Rank: 5

    主题
    5
    奥币
    1270
    积分
    639
    注册时间
    2017.4.28
    在线时间
    90 小时

    发表于 2018.11.23 13:16:09 | 显示全部楼层
    解释的很详细啊,赞
    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    昨天 10:58
  • 签到天数: 151 天

    连续签到: 10 天

    [LV.7]常住居民III

    钵水母

    Rank: 3Rank: 3

    主题
    0
    奥币
    452
    积分
    164
    注册时间
    2018.10.6
    在线时间
    49 小时

    最佳新人


    发表于 2018.11.27 09:12:01 | 显示全部楼层
    学习学习
    回复

    使用道具 举报

  • TA的每日心情
    yes!
    2019.1.17 08:59
  • 签到天数: 12 天

    连续签到: 1 天

    [LV.3]偶尔看看II

    钵水母

    Rank: 3Rank: 3

    主题
    0
    奥币
    162
    积分
    70
    注册时间
    2017.7.7
    在线时间
    41 小时

    发表于 2018.12.10 17:39:58 | 显示全部楼层
    PCA主成分分析,可以用的地方好多啊
    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2019.3.7 20:53
  • 签到天数: 1 天

    连续签到: 1 天

    [LV.1]初来乍到

    草履虫

    Rank: 2

    主题
    1
    奥币
    29
    积分
    17
    注册时间
    2019.2.23
    在线时间
    9 小时

    发表于 2019.2.26 10:59:20 | 显示全部楼层
    简单易懂,比网上搜的那些资料要好。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    好棒
    3 天前
  • 签到天数: 89 天

    连续签到: 1 天

    [LV.6]常住居民II

    管理员

    Rank: 15Rank: 15Rank: 15Rank: 15Rank: 15

    主题
    280
    奥币
    890
    积分
    4290
    注册时间
    2018.4.19
    在线时间
    709 小时

    推广达人宣传达人


     楼主| 发表于 2019.2.26 11:49:16 | 显示全部楼层
    FXX2017 发表于 2018.12.10 17:39
    PCA主成分分析,可以用的地方好多啊

    对呀
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    好棒
    3 天前
  • 签到天数: 89 天

    连续签到: 1 天

    [LV.6]常住居民II

    管理员

    Rank: 15Rank: 15Rank: 15Rank: 15Rank: 15

    主题
    280
    奥币
    890
    积分
    4290
    注册时间
    2018.4.19
    在线时间
    709 小时

    推广达人宣传达人


     楼主| 发表于 2019.2.26 11:49:29 | 显示全部楼层
    frylhc 发表于 2019.2.26 10:59
    简单易懂,比网上搜的那些资料要好。

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    吃饭
    7 天前
  • 签到天数: 806 天

    连续签到: 11 天

    [LV.10]以坛为家III

    中华鲟

    Rank: 5Rank: 5

    主题
    15
    奥币
    2761
    积分
    780
    注册时间
    2016.7.20
    在线时间
    397 小时

    发表于 2019.3.2 14:38:52 | 显示全部楼层
    代谢产物的最爱
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    钵水母

    Rank: 3Rank: 3

    主题
    7
    奥币
    620
    积分
    142
    注册时间
    2016.12.13
    在线时间
    41 小时

    发表于 2019.5.29 17:46:05 | 显示全部楼层
    PC1和PC2需要累积贡献率到95%以上才能有效的区分群体吗?我看到好多PCA分析中PC1和PC2的累积贡献率可能只有50%多?这其中的意义是什么
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    吃饭
    2019.6.8 11:15
  • 签到天数: 17 天

    连续签到: 1 天

    [LV.4]偶尔看看III

    草履虫

    Rank: 2

    主题
    0
    奥币
    121
    积分
    34
    注册时间
    2018.10.15
    在线时间
    10 小时

    发表于 2019.5.31 22:18:25 | 显示全部楼层
    有没有主成分分析相关的软件及教程?
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    好棒
    3 天前
  • 签到天数: 89 天

    连续签到: 1 天

    [LV.6]常住居民II

    管理员

    Rank: 15Rank: 15Rank: 15Rank: 15Rank: 15

    主题
    280
    奥币
    890
    积分
    4290
    注册时间
    2018.4.19
    在线时间
    709 小时

    推广达人宣传达人


     楼主| 发表于 2019.6.13 16:40:06 | 显示全部楼层
    廖海浪 发表于 2019.5.31 22:18
    有没有主成分分析相关的软件及教程?

    论坛还有其他帖子,您可以自己搜搜看
    回复 支持 反对

    使用道具 举报

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则

    快速回复 返回顶部 返回列表