2021-09-14
導讀
歲歲年年花相似,細細推敲,實則(ze)年年歲歲花不同。人(ren)類(lei)進化(hua)歷程中,萬事萬物(wu)都在悄然(ran)的變化(hua)著(zhu),這積沙成塔的量到質的跳(tiao)躍,正(zheng)是無數科(ke)研(yan)人(ren)員孜孜以(yi)求的方(fang)向--群體進化(hua)。
群(qun)體(ti)進化研究(jiu)(jiu)是指通過(guo)獲得某物(wu)種(zhong)自然(ran)群(qun)體(ti)各亞群(qun)的(de)SNP、InDel等變異信息(xi)(xi)。然(ran)后基于群(qun)體(ti)變異信息(xi)(xi),解析群(qun)體(ti)的(de)遺傳多樣性、遺傳結(jie)構(gou)、基因交流(liu)情況、物(wu)種(zhong)形成機制(zhi)以(yi)及群(qun)體(ti)進化動(dong)態等生物(wu)學問題,從分子層面深入研究(jiu)(jiu)該物(wu)種(zhong)的(de)進化歷程。
而其中(zhong)比較重要的(de)一(yi)趴就(jiu)是進化樹,今天我(wo)們就(jiu)先從群體進化開(kai)局--進化樹開(kai)聊。
一、何為進化樹?
系統(tong)樹(shu)(shu)(Phylogenetic Tree)或(huo)者進(jin)化(hua)樹(shu)(shu)(Evolutionary Tree)是描述基因、個體(ti)、種群(qun)、物種之間系統(tong)發生關系假說的(de)樹(shu)(shu)狀結(jie)構,其核心要(yao)素是拓撲(pu)結(jie)構和分支長度。 進化樹的形式 根(gen)(gen)(gen)據拓撲(pu)結構展(zhan)現形式的(de)(de)不同(tong),進化樹的(de)(de)常見形式有“有根(gen)(gen)(gen)樹”和“無(wu)根(gen)(gen)(gen)樹”。 經典有根樹 有(you)根樹:有一(yi)(yi)個(ge)特殊(shu)的根節點,表示所有進(jin)化(hua)枝(zhi)的共同(tong)祖先(一(yi)(yi)般是(shi)假設原始祖先),從根節點只有唯一(yi)(yi)路徑(jing)經進(jin)化(hua)到達其他任何節點,即有方向性。 輻射狀進化樹 無根樹圈狀進化樹(含外群) 無根(gen)樹(shu):只(zhi)表(biao)明了節點之間的關(guan)系(xi),沒有進化方向,其中線(xian)段的兩個演化方向都有可(ke)能(neng),通過引入外群(Outgroup)可(ke)在無根樹中指派根節點。 2、具體解讀進化樹 再來順(shun)順(shun)幾個關鍵名(ming)詞(ci): 距離標(biao)尺:生物或(huo)序列見差異數值(zhi)的(de)單位長度,相當于(yu)進化樹的(de)比例(li)尺。 進(jin)化分支長度:代(dai)表進(jin)化(hua)分支(zhi)變化(hua)的程度(du),越短代(dai)表差異(yi)越小,進(jin)化(hua)距離越近。如(ru)上圖NNE1與(yu)NND1的遺傳(chuan)變異(yi)度(du)為(wei)0.69+0.50=1.19。變異(yi)度(du)的計算方法(fa)很簡單,即變異(yi)度(du)=變異(yi)堿(jian)基(ji)數/總(zong)堿(jian)基(ji)數(%),這樣看是不是很容易理(li)解? Bootstrap檢驗,也叫自(zi)展值,是一種放回(hui)(hui)式抽(chou)樣(yang)統計方法(fa),具體是對數據(ju)集有放回(hui)(hui)的(de)多次(ci)重(zhong)復抽(chou)樣(yang),構建多個(ge)進化樹(shu),用來檢(jian)查給定樹(shu)的(de)分(fen)支可(ke)(ke)(ke)信(xin)度,一般抽(chou)樣(yang)次(ci)數>1000。雖(sui)然根據(ju)嚴格的(de)統計學概念,自(zi)展值需要大于95%才較為可(ke)(ke)(ke)信(xin)。而在實際應用中,一般任務節點的(de)Bootstrap value>70,這個(ge)分(fen)組就(jiu)是可(ke)(ke)(ke)靠的(de)。 上圖中(zhong)大家有(you)沒有(you)好奇,為(wei)(wei)什(shen)么(me)根節點處的(de)(de)自展值(zhi)是(shi)98%,而NNF3與NNG1節點的(de)(de)自展值(zhi)為(wei)(wei)33%,會不(bu)會太低不(bu)可信?這里(li)說明下(xia):如(ru)果低Bootstrap value靠(kao)近(jin)支末端,則可能是(shi)因為(wei)(wei)兩支相似度太高(gao),而很(hen)難分開;如(ru)果Bootstrap value更(geng)靠(kao)近(jin)根節點,則表示相似度較(jiao)低。 二、構樹三種方法綜述 構建進(jin)化(hua)樹可以是蛋白序(xu)列也(ye)可以是核酸序(xu)列,用類(lei)似樹狀分(fen)支(zhi)的圖表示各種(類(lei))物種之間親緣關系,并推(tui)測物種的進(jin)化(hua)歷史。 構樹三種方法: 1.鄰接(鄰位)法(NJ, Neighbor-joining):適用于大樣本量,快速構建進化樹。代表軟件MEGA。 2.極大似然法(ML, Maximum likelihood):代表軟件RAxml,RAxml可間接利用測序數據得到的vcf文件多線程、長時間分析來構建進化樹。速度慢于NJ法。 3.貝葉斯法(Bayes):考慮構樹參數且模型(默認JC模型)較多,一般要對核酸或蛋白序列做模型預測和各堿基先驗頻率。蛋白序列可選Prottest軟件預測,核酸序列可用Modeltest軟件預測。速度更慢于ML法。代表軟件MrBayes。 三、回歸文章 1、如(ru)果你(ni)的(de)進化樹(shu)看似樣本(ben)(ben)混亂交叉,實則有實際生物學意(yi)義,不(bu)妨參考本(ben)(ben)文的(de)描(miao)述,會有提神(shen)醒腦之效喲。 江(jiang)豚(tun)(tun)(tun)分(fen)為(wei)窄脊和寬(kuan)(kuan)脊,上圖進(jin)化樹圖可以看(kan)出:寬(kuan)(kuan)脊江(jiang)豚(tun)(tun)(tun)包含(han)了南海(hai)和黃海(hai)的(de)個(ge)體(ti)(ti);窄脊江(jiang)豚(tun)(tun)(tun)則主要由黃海(hai)、南海(hai)和長江(jiang)流(liu)域個(ge)體(ti)(ti)組成,而且只(zhi)有(you)來(lai)自長江(jiang)的(de)所有(you)個(ge)體(ti)(ti)單(dan)獨聚到一個(ge)亞群內,說明長江(jiang)江(jiang)豚(tun)(tun)(tun)的(de)特異性(xing),為(wei)文章(zhang)長江(jiang)江(jiang)豚(tun)(tun)(tun)為(wei)一個(ge)獨立(li)物種的(de)結論(lun)提供了有(you)力支撐。 2、進(jin)化(hua)樹與Strucutre以及(ji)表型數據(ju)結合,構建抓人眼球的酷炫圖 最內圈的(de)分(fen)支(zhi)(zhi)狀(zhuang)為進化樹,包(bao)含(han)16個(ge)亞群(qun)和一個(ge)外類群(qun),分(fen)支(zhi)(zhi)顏色(se)(se)與最外圈樣本ID顏色(se)(se)對應。其余圈層從A~L為群(qun)體結構,分(fen)別(bie)代表種(zhong)(zhong)群(qun)結構、品種(zhong)(zhong)群(qun)和各種(zhong)(zhong)性狀(zhuang)表型(花(hua)(hua)瓣色(se)(se)、柱頭(tou)色(se)(se)、花(hua)(hua)萼(e)色(se)(se)、花(hua)(hua)蕾色(se)(se)、雄蕊花(hua)(hua)絲色(se)(se)、木色(se)(se)等,每個(ge)圓(yuan)圈中(zhong)的(de)顏色(se)(se)代表性狀(zhuang)的(de)表型)。 四、總結 達(da)爾(er)文曾大膽猜想“所有生(sheng)物(wu)(wu)來(lai)自于(yu)一個共同祖(zu)先,現存的(de)(de)(de)和滅絕(jue)了的(de)(de)(de)所有物(wu)(wu)種(zhong)組成了一個宏偉的(de)(de)(de)‘生(sheng)命之樹’,或稱為系統(tong)發育樹”。隨著測序(xu)技術的(de)(de)(de)發展,越(yue)(yue)來(lai)越(yue)(yue)多物(wu)(wu)種(zhong)從原(yuan)來(lai)的(de)(de)(de)依據(ju)外部(bu)特征(zheng)、SSR等分子標(biao)記(ji),走向(xiang)了基因組DNA水平分類(lei),各(ge)種(zhong)酷炫(xuan)的(de)(de)(de)進化樹應用(yong)而生(sheng),是(shi)不是(shi)漸欲迷人眼?
更多技術資訊,請關注派森諾官網