2018-11-07
文案 | 動植物基(ji)因(yin)組事業(ye)部(bu)
在基(ji)(ji)于SNP等(deng)分(fen)子標記(ji)的(de)(de)群(qun)體(ti)遺(yi)傳進(jin)化分(fen)析中,有(you)時會產生構建的(de)(de)系(xi)統發(fa)育樹(shu)(shu)(shu)與(yu)(yu)預期不(bu)(bu)符(fu)的(de)(de)情(qing)況(kuang),包括分(fen)子系(xi)統樹(shu)(shu)(shu)與(yu)(yu)基(ji)(ji)于表型的(de)(de)系(xi)統樹(shu)(shu)(shu)不(bu)(bu)符(fu)、與(yu)(yu)基(ji)(ji)于氨基(ji)(ji)酸序列的(de)(de)系(xi)統樹(shu)(shu)(shu)不(bu)(bu)符(fu)、與(yu)(yu)基(ji)(ji)于葉綠體(ti)/線粒體(ti)序列的(de)(de)系(xi)統樹(shu)(shu)(shu)不(bu)(bu)符(fu)等(deng)情(qing)況(kuang)。對于這(zhe)一類(lei)情(qing)況(kuang),排除(chu)采樣和測序造成(cheng)的(de)(de)誤差,我們需要考(kao)察(cha)造成(cheng)這(zhe)種現象的(de)(de)原因(yin),并(bing)針對不(bu)(bu)同(tong)原因(yin)找到解決方法。
通常情況下(xia),可能的原因有趨同進化(hua)、ILS效(xiao)(xiao)應、長枝吸引效(xiao)(xiao)應等。
趨同進化
趨(qu)同進化(hua)是指(zhi)是指(zhi)親緣(yuan)關系較(jiao)遠的(de)(de)生物,由于生活(huo)(huo)環境、生活(huo)(huo)方式(shi)相似而在長期(qi)的(de)(de)適應過(guo)程(cheng)中所形成(cheng)的(de)(de)體形或器官等(deng)異常相似的(de)(de)現(xian)象。通常情況(kuang)下,氨(an)基酸(suan)序列(lie)比核(he)苷(gan)(gan)酸(suan)序列(lie)更容(rong)易受到趨(qu)同進化(hua)的(de)(de)影響。因(yin)此可能造成(cheng)核(he)苷(gan)(gan)酸(suan)進化(hua)樹與氨(an)基酸(suan)進化(hua)樹不一致的(de)(de)情況(kuang)。
圖1: 基于DNA序列(A)與基于蛋白序列(B)的進化樹(shu)不一致;海豚(tun)與蝙蝠在(zai)蛋白樹(shu)中(zhong)聚類到一起(qi)但在(zai)DNA樹(shu)中(zhong)沒(mei)有聚在(zai)一起(qi)
為了進(jin)一步鑒定趨(qu)同進(jin)化(hua)(hua)(hua)的(de)信號(hao),可(ke)以采用(yong)選(xuan)擇壓(ya)力(li)分析或祖先序列與現(xian)存序列比較(jiao)等方法。例如,在選(xuan)擇壓(ya)力(li)分析中,通過計算非同義突變(bian)與同義突變(bian)率(ω),鑒定位(wei)點(dian)受選(xuan)擇的(de)情況(kuang)(ω接近0:純化(hua)(hua)(hua)選(xuan)擇;ω大于1:正(zheng)向選(xuan)擇)。趨(qu)同進(jin)化(hua)(hua)(hua)位(wei)點(dian)的(de)ω>1且與氨(an)基酸(suan)進(jin)化(hua)(hua)(hua)樹顯著相關。
圖2:縱軸表示(shi)對基因樹(shu)的支(zhi)持率(lv),橫軸表示(shi)ω值(zhi);綠(lv)點(dian)為趨同進(jin)化信號位點(dian),藍點(dian)受(shou)到純(chun)化選擇,紅(hong)點(dian)受(shou)到中性選擇
ILS效(xiao)應
不(bu)(bu)完(wan)全譜(pu)系(xi)分(fen)類(incomplete lineage sorting, ILS)是指(zhi)基(ji)(ji)(ji)(ji)于單個(ge)(ge)基(ji)(ji)(ji)(ji)因(yin)的系(xi)統(tong)樹與基(ji)(ji)(ji)(ji)于物(wu)種或群體的系(xi)統(tong)樹不(bu)(bu)一致的現象。當一個(ge)(ge)具有(you)等位基(ji)(ji)(ji)(ji)因(yin)多態性的祖先種分(fen)化(hua)為兩(liang)個(ge)(ge)類群時,兩(liang)個(ge)(ge)等位基(ji)(ji)(ji)(ji)因(yin)在后代(dai)群體中都(dou)得到了保(bao)留,當后代(dai)群體進一步分(fen)化(hua)時,該基(ji)(ji)(ji)(ji)因(yin)的系(xi)統(tong)發育(yu)關系(xi)可(ke)能與物(wu)種進化(hua)關系(xi)不(bu)(bu)符。
圖3:基于不(bu)同(tong)基因組片(pian)段(duan)構建進化(hua)樹間不(bu)一致
ILS效(xiao)應常由(you)于(yu)物種快速形成,或(huo)經歷了快速分化,單個基因的水平上沒有演(yan)化出足夠多的序(xu)列差(cha)異造成。
為了檢測ILS效(xiao)應,可對(dui)全部(bu)SNP使用非重疊滑窗法或抽樣法生成若干SNP子(zi)集,基(ji)(ji)于每個子(zi)集的(de)SNP分別構(gou)(gou)建進化樹,即(ji)基(ji)(ji)因(yin)(yin)樹。若存在(zai)ILS效(xiao)應,不同基(ji)(ji)因(yin)(yin)樹的(de)拓(tuo)撲結(jie)構(gou)(gou)之間將存在(zai)嚴重的(de)不一(yi)致現象(xiang)。在(zai)這(zhe)種情況(kuang)下,可整合全部(bu)基(ji)(ji)因(yin)(yin)樹,計算每個分枝上支(zhi)持(chi)不同拓(tuo)撲結(jie)構(gou)(gou)的(de)SNP的(de)比(bi)例,從(cong)而(er)證明ILS的(de)作(zuo)用大小。
長枝吸(xi)引效應
系統(tong)發育分析中(zhong),“長(chang)枝吸引”(Long-branch Attraction, LBA)假(jia)象(xiang)是(shi)最為(wei)困擾(rao)研究者的(de)(de)問題。“長(chang)枝吸引”假(jia)象(xiang)由(you)Felsenstein(1978)首次提(ti)出,是(shi)指在(zai)用(yong)系統(tong)發育分析方(fang)法分析一個有限數據集時,由(you)于(yu)高頻(pin)率的(de)(de)相似變化(如(ru)趨同(tong)、平行進化)和加速(su)的(de)(de)進化速(su)率等(deng)因素的(de)(de)存(cun)在(zai),使序(xu)列(lie)達到(dao)相同(tong)狀態(tai),從(cong)而人為(wei)地將(jiang)這些不是(shi)來自(zi)于(yu)共同(tong)祖先的(de)(de)序(xu)列(lie)的(de)(de)代表分類元(yuan)聚(ju)在(zai)一起,使這些分類元(yuan)之(zhi)間相互“吸引”。
圖4:無根(gen)樹和有根(gen)樹的長枝吸引
因(yin)此,在(zai)進行系統發育(yu)(yu)分析(xi)時,應盡可能避免(mian)“長枝(zhi)吸引(yin)”假象(xiang)的產生,從而(er)構建出可靠(kao)的系統發育(yu)(yu)樹。
圖5:小孢子蟲(chong)的(de)線粒(li)體和核糖(tang)體系統樹的(de)長枝吸引,示Microsporidia, Trichomonadida, Euglenozoa三個群體的(de)rDNA樹有錯位現象
有研究表明似(si)然法(fa)不容(rong)易產生“長枝(zhi)吸引”現象,但并(bing)不絕(jue)對,因此需(xu)要將幾種方法(fa)結合使用來(lai)避免“長枝(zhi)吸引”。
? 模型優化法(fa):分析中考慮位點替(ti)換速率(lv)的異(yi)質(zhi)性,通過(guo)設定(ding)gamma分布參(can)數優化核苷酸替(ti)換模型;
? 排(pai)除(chu)法:包括剔除(chu)序列中第三密碼子位點、剔除(chu)分類(lei)群中進化速率較(jiao)快(kuai)的長枝分類(lei)元等;
? 打斷法:增加(jia)與長枝分類(lei)元(yuan)關系近(jin)的分類(lei)元(yuan)以(yi)打斷長枝;
? 無關聯(lian)數據(ju)整合(he)(he)分析(xi)法(fa):如結合(he)(he)形態和(he)分子兩方面的(de)數據(ju)聯(lian)合(he)(he)分析(xi)。
看了(le)以(yi)上內容,仍然覺(jue)得意(yi)猶未盡?
歡迎關注(zhu)
(? 點擊下(xia)方標題跳轉(zhuan)詳情(qing))
(上海,2018年11月(yue)14日~16日)
在這里,你(ni)可(ke)以:
參加培(pei)訓課程,掌握(wo)群體進(jin)化分析流程
與生信(xin)分析工程師面對面交流(liu),解決你的分析相關(guan)問(wen)題
參觀派森諾工作環境,體驗生信分析工作氛圍
培訓(xun)內容(rong)
參考文(wen)獻
[1].Shen, Y-Y, Liang, L, Li, G-S, Murphy, RW, and Zhang, Y-P (2012) Parallel Evolution of Auditory Genes for Echolocation in Bats and Toothed Whales. PLoS Genetics 8(6): e1002788. doi:10.1371/journal.pgen.1002788
[2].Liu Y, Cotton J A, Shen B, et al. Convergent sequence evolution between echolocating bats and dolphins[J]. Current Biology, 2010, 20(2):R53-R54.
[3].Scornavacca C, Galtier N. Incomplete Lineage Sorting in Mammalian Phylogenomics.[J]. Systematic Biology, 2016, 66(1):syw082.
[4].Bergsten J. A review of long-branch attraction[J]. Cladistics-the International Journal of the Willi Hennig Society, 2010, 21(2):163-193.
[5].Philippe H. Opinion: long branch attraction and protist phylogeny[J]. Protist, 2000, 151(4):307-316.