2020-06-29
群體(ti)進化(hua)第(di)一(yi)期(qi)帶大(da)家實戰(zhan)了(le)基于群體(ti)SNP的(de)PCA分析(xi),相信(xin)大(da)家都已經練得(de)很(hen)熟了(le),那我們今天帶大(da)家進行實戰(zhan)進化(hua)樹分析(xi),依然含分析(xi)和繪圖代(dai)碼哦。
系(xi)(xi)統進化(hua)樹(Phylogenetic tree,又稱Evolutionary tree進化(hua)樹)是描述群(qun)體(ti)間(jian)分(fen)化(hua)順序的(de)分(fen)支(zhi)圖或(huo)樹,用來表示(shi)群(qun)體(ti)間(jian)的(de)進化(hua)關(guan)系(xi)(xi)。根據群(qun)體(ti)的(de)物理或(huo)遺傳(chuan)學特征等(deng)方面的(de)共同點或(huo)差異可以推(tui)斷(duan)出它們的(de)親緣關(guan)系(xi)(xi)遠近。
實戰之前我們(men)先熟悉一下進化樹的分類。
有根樹(shu):是具有方向的樹(shu),包(bao)含唯一的節點,將該節點作為樹(shu)中所(suo)有物種的最近共同祖先(xian)。反映時間(jian)順(shun)序。
無根樹(shu):是沒有(you)方(fang)向的,只(zhi)指(zhi)明種屬的相互(hu)關系,沒有(you)確定共同祖先,線段(duan)的兩個演化(hua)方(fang)向都有(you)可能,樹(shu)枝長短表(biao)示(shi)兩個物種之間進化(hua)距離(li)的遠近。反(fan)映進化(hua)距離(li)。
標度樹(shu)(shu):分(fen)支(zhi)的長(chang)度代表分(fen)化程度。非標度樹(shu)(shu):分(fen)支(zhi)只(zhi)表示進化關系(xi),支(zhi)長(chang)無意義(yi)。
物種(zhong)樹:代表(biao)一個(ge)物種(zhong)或群(qun)體進化(hua)歷史(shi)的(de)(de)進化(hua)樹,兩個(ge)物種(zhong)分歧的(de)(de)時(shi)(shi)間即是兩個(ge)物種(zhong)發生(sheng)生(sheng)殖隔離的(de)(de)時(shi)(shi)間。
基因樹(shu):由來自各物種(zhong)的一個(ge)基因構建的進(jin)化(hua)樹(shu),分(fen)歧(qi)時間代表基因分(fen)離的時間。
舉例來(lai)說(shuo):對于(yu)某(mou)一被研究的基因,可(ke)能存在(zai)種(zhong)(zhong)內多態性,即在(zai)物(wu)種(zhong)(zhong)分(fen)化(hua)之前,該(gai)基因可(ke)能已經開始分(fen)化(hua)。兩物(wu)種(zhong)(zhong)間(jian)該(gai)基因的分(fen)化(hua)時間(jian)可(ke)能早于(yu)這兩個物(wu)種(zhong)(zhong)的分(fen)化(hua)的時間(jian),根據這個基因計算(suan)而來(lai)的分(fen)支長度(分(fen)歧時間(jian))可(ke)能偏離。
群體進(jin)化分(fen)析中(zhong)的(de)(de)進(jin)化樹(shu)構(gou)(gou)建(jian)是基(ji)(ji)于群體SNP的(de)(de)VCF文(wen)件(jian)(jian)進(jin)行(xing)的(de)(de),如果樣本數目比較多(duo),VCF文(wen)件(jian)(jian)也會比較大,通常在構(gou)(gou)樹(shu)前都要(yao)對(dui)原始的(de)(de)VCF文(wen)件(jian)(jian)進(jin)行(xing)過濾,過濾的(de)(de)標準有:SNP在樣本中(zhong)的(de)(de)缺失(shi)率、質(zhi)量值、多(duo)態(tai)位(wei)點、深度(du)、次(ci)等位(wei)基(ji)(ji)因頻率等。SNP過濾后(hou)得到用于構(gou)(gou)樹(shu)的(de)(de)VCF文(wen)件(jian)(jian),接下來就是進(jin)化樹(shu)構(gou)(gou)建(jian)的(de)(de)實戰部分(fen)了(le)!
以下為實戰數據(ju)鏈(lian)接://pan.baidu.com/s/1flth4p-ORJakQbQqwkXdxQ 提取碼:k6tr
VCF文件格式(shi)轉換為fasta格式(shi)
下載一個python腳本:(//github.com/edgardomortiz/vcf2phylip),然后用vcf2phylip.py將(jiang)VCF文件轉成(cheng)fasta格式(也(ye)可以選(xuan)擇轉為phylip、nexus格式,如果(guo)有外(wai)群(qun)也(ye)可以指定外(wai)群(qun)),該(gai)腳本用法如下:
usage: vcf2phylip.py [-h] -i FILENAME [-m MIN_SAMPLES_LOCUS] [-o OUTGROUP] [-p] [-f] [-n] [-b]
-h, --help show this help message and exit
-i --input 輸(shu)入vcf文件,甚至是可(ke)以壓縮(suo)后的vcf文(wen)件
-m --min-samples-locus 缺(que)失的(de)個(ge)數,每(mei)個(ge)位(wei)點至少(shao)有多少(shao)個(ge)SNP,默認值為4
-o --outgroup 輸入(ru)外群樣本ID,這樣外(wai)群樣本會(hui)放(fang)在第一(yi)個。
-p, --phylip-disable 輸出格式為phy
-f, --fasta 輸出格式(shi)為fasta
-n, --nexus 輸出格(ge)式為(wei)nexus
-b, --nexus-binary 輸出格(ge)式為二(er)進制
具體使用命(ming)令:
./vcf2phylip.py -i test.vcf -f
得到的(de)結果文(wen)件test.fasta。
MEGA進(jin)行進(jin)化(hua)樹(shu)構(gou)建
用(yong)(yong)于構建進(jin)化(hua)樹的(de)軟(ruan)件(jian)有很多(比如(ru):MEGA、Phylip、RaxML、MrBayes等),這里我們(men)使(shi)用(yong)(yong)大家常用(yong)(yong)的(de)MEGA軟(ruan)件(jian)來(lai)進(jin)行進(jin)化(hua)樹構建。具體步(bu)驟是:打開(kai)MEGA軟(ruan)件(jian),File--導(dao)入文件(jian)test.fasta--Analysis,Data Type選(xuan)擇(ze)Nucleotide Sequences,然(ran)后建樹方法(fa)選(xuan)擇(ze)neighbor-joining(NJ),點擊(ji)“PHYLOGENY”→“Construct/Test Neighbor”計算模(mo)型可以選(xuan)擇(ze)p-distance,最終將構建的(de)樹保存為test.nwk。
因為MEGA顯示的進化樹不(bu)是很美觀(guan),我們(men)需要借助一(yi)些軟件來(lai)美化一(yi)下。這(zhe)里給大家推薦一(yi)款在線軟件Evolview:
(
Step1:點(dian)擊“Use without an account”→“upload tree file”→“test.nwk”(##點(dian)擊下(xia)圖箭頭(tou)位置(zhi),導入進化樹文件(jian),點(dian)擊“Submit”上傳(chuan)樹文件(jian))。
Step2:點擊箭頭所指的位置,修改樹的形狀為圓形。
Step3:對連(lian)續的樹枝進行(xing)上色。點擊“Annotation upload”→“unload data for coloring branches(help)”→“branch.txt”,配置(zhi)文(wen)件branch.txt中列(lie)與(yu)列(lie)之間采用Tab鍵(jian)進行(xing)分割,具體文(wen)件格式如下(xia):
Step4:對連續(xu)的樹枝背(bei)景進行上色(se)。點擊“Annotation upload”→“unload data for leaf label(help)”→“branch.txt”,為了(le)保持(chi)群(qun)體(ti)分支和背(bei)景顏(yan)色(se)一致(zhi)所以依舊用(yong)branch.txt。
Step5:按照樣本分(fen)組指定群體。點擊“Annotation upload”→“unload data for group label(help)”→“group.txt”。
以上就是基于群體SNP進行進化樹分(fen)析和圖形美化的方(fang)法,如此簡單(dan),趕快用自(zi)己的數據(ju)試(shi)試(shi)吧(ba)!
如果大(da)家(jia)實戰分析(xi)的(de)過程中有任何疑(yi)問,可在文(wen)末(mo)留言或者郵件交流(genome_support@doudin.cn),歡迎和我們(men)一(yi)起探討。下(xia)面是動植物產品(pin)(pin)線(xian)的(de)產品(pin)(pin)類型,如果對其他產品(pin)(pin)比較感興趣的(de),也可以郵箱(xiang)反饋我們(men),后續我們(men)一(yi)一(yi)為大(da)家(jia)安排。
那(nei)下一期《群(qun)體(ti)進化之群(qun)體(ti)遺(yi)傳(chuan)結構(gou)分析》再見嘍(lou)!