2018-05-29
文案 | 轉(zhuan)錄調控事業部
小伙伴兒們在拿到轉錄組結題報告后,會發現一張名為PCA的主成分分析圖,如下所示:
PCA圖到(dao)底代表什么意義?是怎么得到(dao)的?
今天我們一一闡明。
PCA(Principal Component Analysis)官方(fang)定義如(ru)下:
是一(yi)(yi)種通(tong)過(guo)線性(xing)變換(huan)將原(yuan)始數據變換(huan)為一(yi)(yi)組各維度線性(xing)無關表示的數據分(fen)析方(fang)法。
對于(yu)沒有相關背景的童(tong)鞋們來(lai)說,看完(wan)定義(yi)好像更加摸(mo)不著頭(tou)腦了(le)。讓(rang)我們先用社會通用語翻(fan)譯一下這個定義(yi):PCA算法主(zhu)要是用于(yu)提取大數據的主(zhu)要特征分量(liang),又稱為主(zhu)成分分析。
那(nei)主成(cheng)分又(you)是什(shen)么(me)概念(nian)呢?
要搞(gao)明白數據(ju)的(de)(de)主成(cheng)分(fen),就(jiu)不得不從數據(ju)降(jiang)維說起。數據(ju)降(jiang)維也是PCA分(fen)析(xi)的(de)(de)思想。
舉個(ge)(ge)簡單(dan)直觀的例子:假設三維(wei)空間中有(you)一(yi)系列點,這(zhe)些點分布(bu)在(zai)一(yi)個(ge)(ge)過(guo)原點的斜面上,如果用自(zi)然(ran)坐(zuo)標系x,y,z這(zhe)三個(ge)(ge)軸來表示這(zhe)組(zu)數(shu)據(ju)(ju)的話,需要使用三個(ge)(ge)維(wei)度(du)。這(zhe)時我們把x,y,z坐(zuo)標系旋轉一(yi)下,使數(shu)據(ju)(ju)所在(zai)平面與x,y平面重(zhong)合(he),把旋轉后的坐(zuo)標系記為x',y',z',那么(me)這(zhe)組(zu)數(shu)據(ju)(ju)的表示只用x'和y'兩個(ge)(ge)維(wei)度(du)表示即可。即從三維(wei)降到了二維(wei)。
我們都知道,三點(dian)一(yi)定(ding)共面,也(ye)就是(shi)說三維(wei)空間中任(ren)意(yi)三點(dian)中心化后都是(shi)線性相關的,按照這(zhe)個(ge)思(si)路而言(yan),n維(wei)空間中的n個(ge)點(dian)一(yi)定(ding)能在一(yi)個(ge)k(k<n)維(wei)空間中分析。
降(jiang)維(wei)意味著信息(xi)(xi)的丟失,為了盡(jin)力將信息(xi)(xi)的損失盡(jin)量降(jiang)低(di),我們(men)鑒于實(shi)際(ji)數(shu)據本身常(chang)常(chang)存在的相關性,可以選擇k維(wei)空間中累計貢獻(xian)度(du)最(zui)大的前兩(liang)個向量作為數(shu)據源進行降(jiang)維(wei)分析,最(zui)終得(de)到主(zhu)(zhu)成分Y1、Y2,主(zhu)(zhu)成分定義如下:
設X =( x1, x2,…… xp)’是(shi)(shi)p維隨機向(xiang)(xiang)量(liang),二(er)階矩(ju)存在(zai)。若向(xiang)(xiang)量(liang)t1’=(*11,*12……t*1P) 在(zai)|t1|= 1的條件下(xia)使(shi)(shi)得Varp(t'1X) 最大(da), 則稱Y1 =t'1X 是(shi)(shi)X的第一主(zhu)成(cheng)分或(huo)第一主(zhu)分量(liang); 若向(xiang)(xiang)量(liang)t2’=(*21,*22……t*2P)在(zai)|t2|=1; Cov(t'2X, Y1)=0的條件下(xia)使(shi)(shi)得Varp(t'2X) 最大(da),則稱Y2 =t'2X 是(shi)(shi)X的第二(er)主(zhu)成(cheng)分或(huo)第二(er)主(zhu)分量(liang)。
好了(le),理論(lun)知識準(zhun)備好了(le),回到(dao)(dao)我(wo)們(men)(men)(men)最初的(de)(de)目(mu)的(de)(de)上(shang)(shang)(shang)來,我(wo)們(men)(men)(men)拿(na)到(dao)(dao)了(le)一(yi)(yi)組(zu)轉錄(lu)組(zu)數(shu)據,每一(yi)(yi)個(ge)(ge)檢測到(dao)(dao)的(de)(de)基因(yin)都有一(yi)(yi)個(ge)(ge)表(biao)達量數(shu)值(FPKM/RPKM/TPM),所有基因(yin)的(de)(de)表(biao)達量都在(zai)(zai)二維(wei)(wei)空(kong)間(jian)(jian)中轉化為一(yi)(yi)組(zu)向(xiang)量,假設我(wo)們(men)(men)(men)此次檢測到(dao)(dao)一(yi)(yi)萬個(ge)(ge)基因(yin),那(nei)理論(lun)上(shang)(shang)(shang)全部數(shu)據的(de)(de)空(kong)間(jian)(jian)分(fen)布可能涉(she)及到(dao)(dao)一(yi)(yi)萬個(ge)(ge)維(wei)(wei)度,根據我(wo)們(men)(men)(men)的(de)(de)降維(wei)(wei)思路,n維(wei)(wei)空(kong)間(jian)(jian)中的(de)(de)n個(ge)(ge)點(dian)一(yi)(yi)定能在(zai)(zai)一(yi)(yi)個(ge)(ge)k(k<n)維(wei)(wei)空(kong)間(jian)(jian)中分(fen)析,我(wo)們(men)(men)(men)就可以通過線性變(bian)換將高(gao)維(wei)(wei)數(shu)據最終壓縮到(dao)(dao)第(di)一(yi)(yi)、第(di)二特征(zheng)分(fen)量所在(zai)(zai)的(de)(de)二維(wei)(wei)平面上(shang)(shang)(shang),最終得到(dao)(dao)我(wo)們(men)(men)(men)看到(dao)(dao)的(de)(de)以PC1、PC2展(zhan)示的(de)(de)圖片效果。
關(guan)于PCA的降維(wei)思想,你get到了(le)嗎?