2021-10-26
連鎖不(bu)平衡(linkage disequilibrium, LD)分(fen)(fen)析(xi)是群(qun)體遺傳學(xue)研(yan)究中常見(jian)的(de)分(fen)(fen)析(xi)內容,也(ye)是關聯分(fen)(fen)析(xi)的(de)基(ji)礎,在很多的(de)GWAS文章中都會(hui)出現LD衰減圖(tu)及單倍型block圖(tu),接下來一起連鎖不(bu)平衡(heng)(linkage disequilibrium, LD)初探。
圖1 水(shui)稻自(zi)然群體連鎖不(bu)平(ping)衡衰減與桃(tao)果糖(tang)含(han)量位點相關單倍型區塊
1、LD的概念
當位(wei)(wei)(wei)于(yu)某一(yi)座(zuo)位(wei)(wei)(wei)的(de)特定等(deng)位(wei)(wei)(wei)基(ji)因與(yu)另一(yi)座(zuo)位(wei)(wei)(wei)的(de)某一(yi)等(deng)位(wei)(wei)(wei)基(ji)因同時出現(xian)(xian)的(de)概率大于(yu)群體中因隨機分布的(de)兩(liang)個(ge)等(deng)位(wei)(wei)(wei)基(ji)因同時出現(xian)(xian)的(de)概率時,稱這(zhe)兩(liang)個(ge)座(zuo)位(wei)(wei)(wei)處于(yu)連(lian)鎖不平衡(heng)狀態(tai)。
2、LD的計算方法與度量指標
2.1 D值的計算(suan)
LD的基本單位(wei)是(shi)D值,度量觀(guan)察到的單倍型頻率(lv)與平衡狀態(tai)下(xia)期望頻率(lv)的偏差(cha)。D值根據單倍型頻率(lv)必≥0,計(ji)算取值范圍為(wei)[-0.25,0.25]。
D=Pr(A,B)-Pr(A)×Pr(B)
=PAB-PAPB
=PAB-(1-Pa)(1-Pb)
=PAB-(1-Pa-Pb+PaPb)
=PAB-(PA-Pb+PaPb)
=PAB-[PAB+PAb-(PAb+Pab)+PaPb)]
=PAB-(PAB-Pab+PaPb)
=Pab-PaPb
2.2 標準化指標:D’和r2
由于D值嚴格依賴于等位基因頻率(allele frequency),故不適合應用于表述實際的LD強度,最常用度量LD的是D’和r2,兩者都基于D。D’反應群體的重組歷史,適用于研究群體連鎖不平衡程度,r2反應等位基因相關程度,適用于GWAS。LD衰減作圖中通常采用r2來表示群體的LD水平;Haplotype Block中通常采用D'來定義Block;遷移、突變、選擇、有限的群體大小以及其他引起等位基因頻率改變的因素,這些都會引起LD變化,下面嘗試計算一下LD吧~
圖2 D’和r2的計算
小Tips:
當D'=0,r2=0時,處于完全連鎖平衡狀態
當D'=1,r2=1時,處于完全連鎖不平衡狀態。
其中,從0—1之間的(de)度量越高(gao)(gao),LD越高(gao)(gao),如果兩個位點(dian)連鎖(suo),連鎖(suo)程度也越高(gao)(gao)。
3、LD衰減
LD衰(shuai)(shuai)減(jian)(jian)(jian)指位點間(jian)由連(lian)鎖(suo)不(bu)(bu)平(ping)衡到(dao)(dao)連(lian)鎖(suo)平(ping)衡的(de)演變(bian)過程(cheng);LD衰(shuai)(shuai)減(jian)(jian)(jian)的(de)速度(du)在不(bu)(bu)同物(wu)(wu)種(zhong)間(jian)或同物(wu)(wu)種(zhong)的(de)不(bu)(bu)同亞(ya)群間(jian),差異非常(chang)大。所以,通常(chang)會使用(yong)“LD衰(shuai)(shuai)減(jian)(jian)(jian)距離(li)”來描述LD衰(shuai)(shuai)減(jian)(jian)(jian)速度(du)的(de)快慢,不(bu)(bu)同文(wen)章(zhang)中“LD衰(shuai)(shuai)減(jian)(jian)(jian)距離(li)”標(biao)準不(bu)(bu)同,常(chang)見的(de)標(biao)準有:LD系數降低到(dao)(dao)最大值的(de)一半、LD系數降低到(dao)(dao)0.5以下、LD系數降低到(dao)(dao)不(bu)(bu)同物(wu)(wu)種(zhong)的(de)基線水平(ping)等,我們在閱讀文(wen)獻時(shi)有必要留意(yi)文(wen)章(zhang)使用(yong)的(de)標(biao)準~
LD衰(shuai)(shuai)減距離在(zai)群(qun)體遺(yi)傳學(xue)中的(de)應用也非常廣泛,一方面可以判斷GWAS所需(xu)標記量(liang),決定GWAS的(de)檢測效力以及精度;另外也可以輔助分(fen)析進(jin)化(hua)與(yu)選擇,在(zai)同一個連(lian)鎖群(qun)上,LD衰(shuai)(shuai)減慢說明該群(qun)體受到(dao)選擇,一般來說,野生群(qun)體比(bi)馴化(hua)改良群(qun)體LD衰(shuai)(shuai)減快,異花授粉(fen)植物比(bi)自(zi)花授粉(fen)植物LD衰(shuai)(shuai)減快。
圖3 LD下降到最大值一半對應的物理距離
4、LD分析的軟件與畫圖命令
目前(qian)比(bi)較常用(yong)(yong)的(de)(de)計(ji)算(suan)(suan) LD 的(de)(de)軟件為 PLINK ,但(dan)不(bu)支持(chi)直接讀取 VCF 格(ge)式(shi)的(de)(de)文件,使用(yong)(yong) PLINK 計(ji)算(suan)(suan) LD 之前(qian)需(xu)要先將 VCF 格(ge)式(shi)的(de)(de)文件轉(zhuan)換(huan)為 PED 格(ge)式(shi)或 bed + bim + fam 的(de)(de)格(ge)式(shi)。這(zhe)樣(yang)的(de)(de)格(ge)式(shi)轉(zhuan)換(huan)會造成額外的(de)(de)存儲(chu)負擔。而另一款軟件PopLDdecay 一個主要的(de)(de)優(you)點在(zai)于可以讀取 VCF 格(ge)式(shi)的(de)(de)文件,直接生成 LD 統計(ji)數據(ju)并(bing)畫出 LD 的(de)(de)衰減圖。以軟件PopLDdecay計(ji)算(suan)(suan)繪制LD圖的(de)(de)命(ming)令(ling)如(ru)下(xia):
#PopLDdecay -InVCF Final_snps.vcf -OutStat Out.LDdecay -SubPop pop.list
PopLDdecay軟(ruan)件常用參數(shu)如下:
Usage: PopLDdecay -InVCF <in.vcf.gz> -OutStat <out.stat>
-InVCF <str> Input SNP VCF Format
-InGenotype <str> Input SNP Genotype Format
-OutStat <str> OutPut Stat Dist ~ r^2 File
-SubPop <str> SubGroup SampleList of VCFFile [ALLsample]
-MaxDist <int> Max Distance (kb) between two SNP [300]
-MAF <float> Min minor allele frequency filter [0.005]
-Het <float> Max ratio of het allele filter [0.88]
-Miss <float> Max ratio of miss allele filter [0.25]
-EHH <str> To Run EHH Region decay set StartSite [NA]
-OutFilterSNP OutPut the final SNP to calculate
-OutType <int> 1: R^2 result 2: R^2 & D' result 3:PairWise LD Out[1]
See the Help for more OutType [1-8] details
-help Show more help [hewm2008 v3.41]
更多技(ji)術咨(zi)詢,請關注(zhu)派(pai)森諾官(guan)網doudin.cn