2021-10-19
一. GWAS與群體結構
(1)群(qun)體(ti)(ti)遺(yi)傳(chuan)結構(gou):群(qun)體(ti)(ti)水平大尺(chi)度遺(yi)傳(chuan)差異,亞群(qun)水平等位基(ji)因頻率差異,不同祖先來源(yuan),個體(ti)(ti)間親緣(yuan)關系,家系等不同的(de)群(qun)體(ti)(ti)結構(gou)。 圖1 群體結構類型 (2)群(qun)(qun)體(ti)結(jie)(jie)構對(dui)(dui)GWAS的(de)(de)影響:GWAS的(de)(de)研究對(dui)(dui)象包括自然(ran)群(qun)(qun)體(ti)、種(zhong)質資源,半同(tong)胞家(jia)(jia)(jia)系(xi),混(hun)合家(jia)(jia)(jia)系(xi),MAGIC/NAM家(jia)(jia)(jia)系(xi)等(deng)。自然(ran)群(qun)(qun)體(ti)內性狀變(bian)(bian)異(yi)和(he)遺傳(chuan)(chuan)變(bian)(bian)異(yi)豐富,群(qun)(qun)體(ti)內積累許多重組和(he)突(tu)變(bian)(bian)信(xin)息(xi),使用GWAS定位(wei)(wei)的(de)(de)分(fen)(fen)辨率大大提高;使用人工設(she)計(ji)群(qun)(qun)體(ti)進行GWAS一方(fang)面(mian)降低群(qun)(qun)體(ti)內分(fen)(fen)化情況(kuang),另(ling)一方(fang)面(mian)避免稀有等(deng)位(wei)(wei)變(bian)(bian)異(yi)的(de)(de)丟失。但是,GWAS分(fen)(fen)析時也存在困(kun)難,每個亞群(qun)(qun)樣(yang)本(ben)共享(xiang)一種(zhong)生活方(fang)式,導(dao)致許多目標性狀直接與(yu)亞群(qun)(qun)或世系(xi)相關;亞群(qun)(qun)間(jian)本(ben)身的(de)(de)表型差(cha)異(yi);群(qun)(qun)體(ti)內等(deng)位(wei)(wei)基因頻率差(cha)異(yi)大的(de)(de)位(wei)(wei)點(dian)與(yu)表型關聯,導(dao)致出現假陽性。所以,GWAS需要選(xuan)擇(ze)統計(ji)學模型(如GLM、MLM)校(xiao)正群(qun)(qun)體(ti)結(jie)(jie)構,我們在選(xuan)擇(ze)材料(liao)時,保持群(qun)(qun)體(ti)豐富遺傳(chuan)(chuan)變(bian)(bian)異(yi)的(de)(de)同(tong)時,也要盡量避免過于復雜的(de)(de)群(qun)(qun)體(ti)結(jie)(jie)構。 二. 群體結構分析 (1)主成分分析 通過正交交換將一組(zu)可(ke)能存在相關(guan)(guan)性的變(bian)(bian)量轉換為一組(zu)線性不(bu)相關(guan)(guan)的變(bian)(bian)量,PCA分析展示比較能區分群體(ti)的2-3個主成分。 (2)系統進化樹 表示(shi)生物的進(jin)化歷程和親緣關系,基于不同算法(fa)可以構建(jian)NJ樹(MEGA)、ML樹(RAxML)、貝葉斯樹(ExaBayes)等(deng)。 (3)structure 反映遺傳(chuan)變(bian)異在物(wu)種或群體的分布,推斷(duan)群體數目(mu),判斷(duan)某個體屬于哪個群體,基(ji)于不同算法的分析軟件有STRUCTURE、ADMIXTURE、fastSTRUCTURE、TeraStructue等。 (4)遺傳關系矩陣 包括血緣,共(gong)同祖先及其(qi)他共(gong)同特(te)征的關(guan)系,可以根據系譜關(guan)系、標(biao)記(ji)基(ji)因型(AA、Aa、aa)、標(biao)記(ji)歐氏距離(ED值(zhi))等方法推斷,MLM可以作為協方差控制假陽性。 圖2 群體結構分析 三. 經典文獻——GWAS解析二倍體棉關鍵農藝性狀的遺傳基礎 (1)實驗材(cai)料: 重測序230份亞洲棉材料(G. arboreum)和13份草棉材料(G. herbaceum),收集來自華南(SC)、長江流域(YZR)和黃河流域(YER),代表中國二倍體棉的表型和地理多樣性。 (2)測序方(fang)案: Illumina HiSeq 2500,PE125,每份材料~6.0×,過濾得到72419 SNPs。 (3)部分結論: 雷德蒙氏棉(G. raimondii)作為外類群構建NJ樹發現亞洲棉和草棉分成兩個獨立枝,亞洲棉劃分出SC、YZR、YER等地理分組,PCA分析進一步驗證,說明亞洲棉和草棉從不同野生祖先獨立馴化。SC分組核苷酸多態性更高(π=0.211×10?3),說明亞洲棉最初在SC栽培然后傳播到YZR和YER,亞洲棉(r2=0.40)和草棉(r2=0.39)LD值相似于大豆和水稻地方品種,明顯高于玉米栽培品種。Model-based 群體結構分析發現YER顯著區別于SC、YER,說明人工選擇在作物馴化中起重要作用。11個重要性狀GWAS發現98個顯著關聯信號,25個在基因區域,農藝性狀相關的主效GWAS信號在形態上表現地理分化,如花期、棉鈴重和抗病性等,所以成熟度、產量和抗病性狀一直處于強烈的人工/地理選擇。 圖3 二倍體棉基因組與地理差異