2025-06-16
Highlights
1.群(qun)體遺(yi)傳(chuan)結構(gou)與(yu)系(xi)統進化分(fen)析為GWAS提供基礎框架,通過主成(cheng)分(fen)分(fen)析(PCA)、系(xi)統進化樹和群(qun)體遺(yi)傳(chuan)結構(gou)解析樣(yang)本間的(de)親緣關系(xi)與(yu)群(qun)體分(fen)層。
2.基于基因組關系矩陣(zhen)(GRM)校正(zheng)個體間親(qin)緣關系,結合(he)連鎖不平(ping)衡衰減(LD decay)和LD Block聯(lian)(lian)合(he)分析,精準定(ding)位變異并區分信(xin)號,從而(er)提升(sheng)關聯(lian)(lian)結果的(de)生物學可解釋(shi)性。
3.派森諾提供(gong)全基因(yin)組(zu)關(guan)聯分析(GWAS)一(yi)站式解決方案(an):從(cong)樣(yang)本檢測(ce)到基因(yin)定位(wei),專業解析復雜性狀遺傳機制,助力(li)精(jing)準育種與醫學研(yan)究(jiu)突破。
全基因(yin)組關聯分析(GWAS)是一種(zhong)通過高通量測序或(huo)芯片技術檢測動植物(wu)群體中的遺傳變異(如SNP),并(bing)結合表(biao)型(xing)數據,挖掘與重要農(nong)藝性(xing)狀或(huo)適應性(xing)特(te)征顯著關(guan)聯的基因位(wei)點的方(fang)法。在動植物(wu)研(yan)究中,GWAS通常利用自(zi)然群體或(huo)人工(gong)選(xuan)育群體,分析基因型(xing)與表(biao)型(xing)(如產(chan)量、抗病性(xing)、生(sheng)長速度等)的統(tong)計學關(guan)聯,從而定位(wei)關(guan)鍵候選(xuan)基因或(huo)調(diao)控區域。
常(chang)見GWAS關聯分析結果圖(tu)詳(xiang)解
一(yi)、系統進化樹
系統進化樹(phylogenetic tree):用來表示群(qun)體內(nei)物種間親緣關系遠近的樹狀(zhuang)結構圖。
在樹中(zhong),每(mei)(mei)個(ge)節點代(dai)(dai)表其(qi)各(ge)分(fen)支的(de)(de)最(zui)近(jin)共同祖先,而(er)節點間(jian)(jian)的(de)(de)線(xian)段長(chang)度對應(ying)(ying)演(yan)化(hua)距離(li)(如估計的(de)(de)演(yan)化(hua)時(shi)間(jian)(jian))。根據不同物種(zhong)間(jian)(jian)的(de)(de)親緣關系遠(yuan)近(jin),將各(ge)個(ge)物種(zhong)分(fen)別放置在有分(fen)枝的(de)(de)樹狀圖(tu)上。進(jin)化(hua)樹上每(mei)(mei)個(ge)葉子結(jie)點代(dai)(dai)表其(qi)中(zhong)一個(ge)物種(zhong),兩個(ge)葉子結(jie)點之間(jian)(jian)的(de)(de)距離(li)長(chang)短(duan)表示相應(ying)(ying)的(de)(de)兩個(ge)物種(zhong)之間(jian)(jian)的(de)(de)分(fen)化(hua)程度。
二、主成分(fen)分(fen)析
主成分(fen)分(fen)析(xi)(Principal Component Analysis,PCA):一種分(fen)析(xi)、簡化數(shu)據(ju)集的(de)統(tong)計方(fang)法。PCA 分(fen)析(xi)經常用于(yu)減少數(shu)據(ju)集的(de)維數(shu),同時保持數(shu)據(ju)集中(zhong)的(de)對(dui)方(fang)差貢獻最大的(de)特(te)征。在(zai)群體研究中(zhong),通常利用個(ge)體基因組 SNP 的(de)差異(yi),將不同個(ge)體按照主成分(fen)聚類(lei)成不同的(de)亞群。
將待分(fen)群(qun)的(de)(de)(de)多(duo)個(ge)個(ge)體(ti)的(de)(de)(de) SNP 數(shu)據組成矩(ju)陣(zhen),提取該(gai)(gai)矩(ju)陣(zhen)向量的(de)(de)(de)特(te)征向量(主成分(fen),通(tong)常為(wei) 3 個(ge)),并用其中兩個(ge)特(te)征向量繪制(zhi)散點圖(tu)。根據散點圖(tu)的(de)(de)(de)分(fen)布情況,推知待分(fen)群(qun)個(ge)體(ti)的(de)(de)(de)亞群(qun)劃分(fen)。該(gai)(gai)方法通(tong)常和群(qun)體(ti)遺傳結構分(fen)析(xi)方法、基于(yu) SNP 的(de)(de)(de)系統進化(hua)分(fen)析(xi)等方法相互印證(zheng)。圖(tu)中不(bu)同的(de)(de)(de)點代表不(bu)同的(de)(de)(de)個(ge)體(ti)。
三、群體遺傳(chuan)結構
群(qun)體(ti)遺(yi)(yi)(yi)傳結構:指(zhi)遺(yi)(yi)(yi)傳變異(yi)在物種或群(qun)體(ti)中的(de)分布。群(qun)體(ti)的(de)遺(yi)(yi)(yi)傳結構受到多個(ge)因(yin)素的(de)影響,包括突變、選擇、遷移、群(qun)體(ti)大小、環境(jing)條件等(deng)等(deng)。
利用 SNP 信息分(fen)析群(qun)體的(de)遺(yi)傳結構,設置不(bu)(bu)同K值(zhi)(即假設存在多(duo)個祖(zu)先(xian)群(qun)體)模(mo)型(xing)選擇(ze)為(wei)混合模(mo)型(xing),圖片(pian)中每一列代表(biao)一個個體,不(bu)(bu)同顏色片(pian)段(duan)的(de)長度表(biao)示該個體基因組中某個祖(zu)先(xian)群(qun)體片(pian)段(duan)所占的(de)比例。
四(si)、全基因組關系矩(ju)陣(Genomic relationship matrix)
全基因組關(guan)系(xi)(xi)矩(ju)陣(GRM)是用SNP標記去估計個體間親緣關(guan)系(xi)(xi)的(de)一種計算(suan)值。
G值(zhi)是GRM中的(de)(de)(de)元素,表(biao)(biao)(biao)示(shi)兩個(ge)個(ge)體(ti)間標(biao)準化的(de)(de)(de)基因(yin)組(zu)相(xiang)似(si)性。橫縱坐(zuo)標(biao)為樣本ID,即每一個(ge)方塊表(biao)(biao)(biao)示(shi)對應(ying)橫縱坐(zuo)標(biao)的(de)(de)(de)兩個(ge)樣本間的(de)(de)(de)G值(zhi)大小。方塊的(de)(de)(de)顏(yan)色越(yue)接近紅(hong)色,表(biao)(biao)(biao)示(shi)G值(zhi)越(yue)大,關系越(yue)近;顏(yan)色越(yue)藍,表(biao)(biao)(biao)示(shi)G值(zhi)越(yue)小,關系越(yue)遠。其中,對角線元素表(biao)(biao)(biao)示(shi)個(ge)體(ti)自身的(de)(de)(de)基因(yin)組(zu)相(xiang)似(si)性;非對角線元素表(biao)(biao)(biao)示(shi)個(ge)體(ti)間的(de)(de)(de)親緣關系相(xiang)似(si)性。
五、連鎖不平衡(heng)衰(shuai)減(LD decay)分析
連鎖(suo)不平(ping)衡(heng)衰減(jian)(LD Decay)分(fen)析是研究基(ji)因組(zu)中連鎖(suo)不平(ping)衡(heng)(Linkage Disequilibrium, LD)隨物理距離(li)增(zeng)加而減(jian)弱趨勢(shi)的分(fen)析方法,其(qi)核心目的是評(ping)估(gu)SNP標記之(zhi)間的關聯程(cheng)度如何(he)隨距離(li)增(zeng)大而下降。
連(lian)鎖不平衡(heng)是指不同(tong)位點上的(de)等(deng)位基因非(fei)隨(sui)機組(zu)(zu)合(he)的(de)現象(xiang)。LD衰(shuai)減是指隨(sui)著SNP間物理距(ju)離(如堿(jian)基對,bp)的(de)增加,LD強(qiang)(qiang)度逐(zhu)漸降低的(de)現象(xiang)。衰(shuai)減速率受群體歷史(如瓶頸效應、選擇)、重組(zu)(zu)率、突(tu)變率等(deng)因素(su)影(ying)響。常(chang)用 r 2(相關(guan)系(xi)數(shu)平方)衡(heng)量兩(liang)SNP的(de)關(guan)聯強(qiang)(qiang)度。例(li)如:r 2=1 表示完全連(lian)鎖不平衡(heng),r 2=0 表示完全獨立。圖(tu)中橫坐標為(wei)SNP間的(de)物理距(ju)離,縱坐標為(wei)平均LD值( r 2表示)。
六、全基(ji)因組關聯(lian)分析
全基(ji)因組(zu)關聯分(fen)(fen)析(Genome-Wide Association Study, GWAS)是(shi)一種利用高通(tong)量基(ji)因分(fen)(fen)型技(ji)術(如測序),在全基(ji)因組(zu)范圍(wei)內掃描與目標性(xing)(xing)狀(zhuang)(如農藝(yi)性(xing)(xing)狀(zhuang)、疾病等)顯著關聯的遺傳變異(如SNP)的分(fen)(fen)析方法。常用曼哈頓圖(tu)和QQplot圖(tu)來展示分(fen)(fen)析結果(guo)。
曼哈頓圖,橫(heng)坐(zuo)標為染(ran)色(se)體物理位置,縱坐(zuo)標為P值取-log10。一(yi)(yi)個(ge)(ge)點(dian)代表一(yi)(yi)個(ge)(ge)SNP。P值越小,即-log10(P value)越大,該位點(dian)與性(xing)(xing)狀的(de)相關(guan)性(xing)(xing)越強。虛線表示-log10(P)的(de)閾(yu)值,超過閾(yu)值的(de)是和性(xing)(xing)狀關(guan)聯的(de)候選位點(dian)。
QQ圖,橫坐(zuo)標為-log10(P value)的期望值(zhi),縱坐(zuo)標為其(qi)觀(guan)測(ce)值(zhi)。QQ圖為評價GWAS結果的可靠性,用于檢驗關聯分析(xi)得到的p值(zhi)分布是否符合(he)預期。通(tong)常在越靠近橫坐(zuo)標0的位置(zhi),期望值(zhi)和觀(guan)測(ce)值(zhi)應該比較接近,橫坐(zuo)標值(zhi)越大,觀(guan)測(ce)值(zhi)應該高(gao)于期望值(zhi)。換句話說散點緊貼對角(jiao)線(xian)分布,僅(jin)在尾部(高(gao) -log??(p) 區(qu)域)略微上翹(qiao)為正常情況。若(ruo)整(zheng)體偏(pian)離(li)對角(jiao)線(xian)提升分析(xi)可能存(cun)在誤差問題(ti)。
七(qi)、LDBlock聯合分析(xi)
連鎖不平衡(heng)區塊(LD Block)聯合分析是GWAS研究中用于精細定位和(he)解釋遺傳信(xin)(xin)號的重要方法,其(qi)核心(xin)目的是利(li)用SNP之(zhi)間的連鎖不平衡(heng)(LD)結構,將關聯信(xin)(xin)號劃分為具(ju)有生物學(xue)意(yi)義的連續區塊,從而(er)更(geng)準確地(di)定位潛在因果變異或(huo)功能基因。
一(yi)般情況下,全基因組關(guan)(guan)聯分析(xi)的曼哈頓(dun)圖常常與(yu)(yu)染色體位(wei)置、LD-Block圖進行(xing)聯合分析(xi),根據顯(xian)著關(guan)(guan)聯的SNP位(wei)點(dian)確(que)定注釋的染色體區域,同時(shi)在(zai)該區域進行(xing)LD-Block分析(xi),找(zhao)到(dao)與(yu)(yu)該位(wei)點(dian)連(lian)鎖較強的其他(ta)SNP位(wei)點(dian),并對其所在(zai)的基因進行(xing)功能注釋。
上(shang)圖(tu)曼哈頓圖(tu)表示(shi)關(guan)聯(lian)位點(dian),橫坐(zuo)標表示(shi)分布于(yu)每(mei)條染色(se)體上(shang)的SNP位點(dian),縱坐(zuo)標表示(shi)每(mei)個位點(dian)的-log10(P)值;下圖(tu)表示(shi)關(guan)聯(lian)區域內的BLOCK分析,圖(tu)上(shang)部為標記在染色(se)體上(shang)的位置(zhi),下部的倒三角圖(tu)表示(shi)每(mei)個SNP位點(dian)和(he)其它位點(dian)之間(jian)的r2值,顏(yan)色(se)越(yue)深表示(shi)連鎖關(guan)系(xi)越(yue)強。