2024-11-04
隨著基(ji)因組(zu)測序(xu)技(ji)術的進步,植(zhi)物(wu)基(ji)因組(zu)組(zu)裝的成本已(yi)大幅降低,甚至不足十年前的10%。這使得基(ji)因組(zu)數(shu)據(ju)的獲取變得更加容易和經(jing)濟,但同時也帶來了新的挑(tiao)戰:如(ru)何(he)在(zai)眾多基(ji)因組(zu)數(shu)據(ju)中挖掘出有價值的信息,發表高(gao)質量的研(yan)究文章。僅依靠基(ji)因組(zu)組(zu)裝和注釋的結果(guo)已(yi)經(jing)難以滿足當前高(gao)水平期刊的要求。
2020年,三篇同時(shi)(shi)發表Nature的比(bi)(bi)較基(ji)因(yin)組(zu)學文章告訴了我(wo)們答(da)案,也將比(bi)(bi)較基(ji)因(yin)組(zu)學分析推向了黃金時(shi)(shi)代!
1.Zoonomia C, Genereux, DP, Serres A, et al. A comparative genomics multitool for scientific discovery and conservation. Nature. 2020 587: 240-245.
2.Armstrong J, Hickey G, Diekhans M, et al. Progressive Cactus is a multiple-genome aligner for the thousand-genome era. Nature. 2020 587: 246-251. .
3.Feng S, Stiller J, Deng Y, et al. Dense sampling of bird diversity increases power of comparative genomics. Nature 2020 587: 252-257.
01、比較基因組學是什么?
顧名思義,比較(jiao)基(ji)(ji)因(yin)(yin)組(zu)(zu)(zu)學(xue)專注于探究不同(tong)物種(zhong)基(ji)(ji)因(yin)(yin)組(zu)(zu)(zu)之間(jian)相似性和(he)(he)差異性的分(fen)析,通過(guo)比較(jiao)組(zu)(zu)(zu)間(jian)的基(ji)(ji)因(yin)(yin)組(zu)(zu)(zu)序列,來(lai)揭示基(ji)(ji)因(yin)(yin)組(zu)(zu)(zu)的結構、功能(neng)(neng)、進化(hua)和(he)(he)調控(kong)機(ji)制。在植物領域(yu),比較(jiao)基(ji)(ji)因(yin)(yin)組(zu)(zu)(zu)學(xue)分(fen)析不僅可用(yong)于評估個(ge)體(ti)間(jian)不同(tong)級別基(ji)(ji)因(yin)(yin)組(zu)(zu)(zu)組(zu)(zu)(zu)裝(zhuang)質量(liang)(T2T基(ji)(ji)因(yin)(yin)組(zu)(zu)(zu)和(he)(he)泛基(ji)(ji)因(yin)(yin)組(zu)(zu)(zu)等)和(he)(he)挖(wa)掘新功能(neng)(neng)基(ji)(ji)因(yin)(yin),同(tong)時也多用(yong)于探究物種(zhong)進化(hua)的分(fen)子和(he)(he)遺傳機(ji)制。
02、比較(jiao)基因組能(neng)做什么?
基(ji)因家族比較鑒定
基(ji)因家族是來源于同一(yi)個祖(zu)先,由一(yi)個基(ji)因通(tong)過基(ji)因重復而產生(sheng)兩(liang)個或更多的拷貝而構(gou)成的一(yi)組(zu)基(ji)因,它(ta)們在(zai)結構(gou)和功能上(shang)具有(you)明顯的相(xiang)似性, 編碼相(xiang)似的蛋白(bai)質產物。比較基(ji)因組(zu)可識別(bie)不同物種間基(ji)因家族的差異,包括基(ji)因家族的鑒定、特異性、收縮和擴張。
圖1 不同物種間基因(yin)家(jia)族(zu)鑒定及特有基因(yin)家(jia)族(zu)分(fen)析(xi)
分歧進(jin)化時間及基因家族擴張和收縮
一(yi)般而言, 同一(yi)基(ji)因(yin)(yin)家(jia)族內的(de)(de)各個基(ji)因(yin)(yin)具有(you)相似的(de)(de)生化(hua)功(gong)能(neng)(neng)。一(yi)個物(wu)種某個基(ji)因(yin)(yin)家(jia)族的(de)(de)擴張往往意味著(zhu)該物(wu)種在這(zhe)方面功(gong)能(neng)(neng)得到加強;反之, 某個基(ji)因(yin)(yin)家(jia)族的(de)(de)收縮則意味著(zhu)該物(wu)種在這(zhe)方面功(gong)能(neng)(neng)的(de)(de)減弱甚至喪(sang)失。
圖2 收(shou)縮(suo)與擴張的基因家族分析
分(fen)歧(qi)進化時間及(ji)基因(yin)家族擴張和(he)收縮
共線(xian)性(xing)是(shi)指同(tong)源基(ji)因(yin)在(zai)(zai)物(wu)種(zhong)內或(huo)者物(wu)種(zhong)之間的(de)(de)分(fen)布或(huo)排列(lie)(lie)關系(xi)。有(you)(you)相(xiang)當多的(de)(de)基(ji)因(yin)在(zai)(zai)一(yi)個(ge)物(wu)種(zhong)中不是(shi)以單拷貝(bei)的(de)(de)形式出現, 而(er)是(shi)多拷貝(bei), 具有(you)(you)基(ji)因(yin)序(xu)(xu)列(lie)(lie)重(zhong)復事件(jian), 也就(jiu)是(shi)說(shuo)能行使相(xiang)同(tong)功能的(de)(de)同(tong)源基(ji)因(yin)在(zai)(zai)同(tong)一(yi)個(ge)物(wu)種(zhong)內可能不只有(you)(you)一(yi)條序(xu)(xu)列(lie)(lie), 研究這些(xie)同(tong)源基(ji)因(yin)在(zai)(zai)同(tong)一(yi)個(ge)物(wu)種(zhong)內的(de)(de)重(zhong)復事件(jian)的(de)(de)時(shi)候(hou),就(jiu)是(shi)物(wu)種(zhong)內的(de)(de)共線(xian)性(xing)分(fen)析, 研究同(tong)源基(ji)因(yin)在(zai)(zai)不同(tong)物(wu)種(zhong)內的(de)(de)分(fen)布情況(kuang), 就(jiu)是(shi)物(wu)種(zhong)間的(de)(de)共線(xian)性(xing)分(fen)析。
圖3 物種間基因家(jia)族共線性分析
全基因組復(fu)制事件及正選擇分析(xi)
全基(ji)(ji)因(yin)加倍/復制(zhi)(whole genome duplication, WGD) 事(shi)件是指基(ji)(ji)因(yin)組內的所有序(xu)列都發生(sheng)(sheng)重(zhong)復。在選擇壓(ya)力條件下,重(zhong)復為生(sheng)(sheng)物(wu)進化(hua)提供了原始的遺(yi)傳(chuan)材料, 使植物(wu)基(ji)(ji)因(yin)組快(kuai)速重(zhong)組, 丟失大量基(ji)(ji)因(yin), 增加結構變異(yi),對植物(wu)進化(hua)極其重(zhong)要(yao)。
圖4 4dtv分(fen)布圖及正選擇基因功能注(zhu)釋
基因組(zu)圈圖
基(ji)因(yin)組圈圖可以很直觀的反(fan)映基(ji)因(yin)組的基(ji)因(yin)密(mi)度分(fen)布, 轉座子密(mi)度分(fen)布, 基(ji)因(yin)組共(gong)線性關系(xi)等信息。
圖(tu)5 基因組(zu)圈圖(tu)展(zhan)示
由(you)外到內依次為 A:染色(se)體核(he)型分析結果(guo);B:GC 含量;C:蛋(dan)白質編碼基因密度(du);D:LTR 轉座因子密度(du);E:染色(se)體間共線性(xing)
03、比較基因組分析物種如(ru)何選擇?
選(xuan)擇合(he)適的物種進(jin)行(xing)比較基因(yin)組(zu)學分析(xi)是一個綜合(he)性的過程,需要考慮(lv)基因(yin)組(zu)數據的可用性、組(zu)裝質量、親緣關(guan)系、倍性一致(zhi)性以及與研究(jiu)目的的相關(guan)性等(deng)多(duo)個因(yin)素。
1.參(can)考基(ji)(ji)因組(zu)的(de)可(ke)用(yong)性:選擇的(de)物種應當有可(ke)用(yong)的(de)參(can)考基(ji)(ji)因組(zu),包(bao)(bao)括蛋白(bai)質序列文件和基(ji)(ji)因注釋文件。常用(yong)的(de)基(ji)(ji)因組(zu)數據(ju)下載網站包(bao)(bao)括NCBI、Ensemble和Phyzome。
2.基(ji)因組(zu)組(zu)裝(zhuang)質(zhi)量:為(wei)了研究的準確性,應選(xuan)擇基(ji)因組(zu)組(zu)裝(zhuang)連(lian)續性好的物種(zhong)。若要(yao)進(jin)行(xing)共線性分(fen)析,則該(gai)物種(zhong)的基(ji)因組(zu)需要(yao)達到染(ran)色體(ti)水平。
3.親(qin)緣關(guan)系(xi)的(de)遠(yuan)(yuan)近:可(ke)以從分類系(xi)統(tong)出發,更好地從親(qin)緣關(guan)系(xi)水平尋找近緣物種(zhong)(zhong)。與研究目(mu)(mu)的(de)物種(zhong)(zhong)的(de)親(qin)緣關(guan)系(xi)不宜太遠(yuan)(yuan),數目(mu)(mu)也(ye)不宜過多(通常在6-10個左(zuo)右)。物種(zhong)(zhong)間親(qin)緣關(guan)系(xi)越(yue)遠(yuan)(yuan),可(ke)獲取的(de)單拷貝直系(xi)同(tong)源基因數目(mu)(mu)越(yue)少,這會影響進化樹的(de)準確性(xing)。
4.已發(fa)(fa)表的近緣物(wu)種(zhong)基(ji)(ji)(ji)因(yin)組文(wen)章:可以從已發(fa)(fa)表的近緣物(wu)種(zhong)基(ji)(ji)(ji)因(yin)組文(wen)章中(zhong)的進(jin)化樹內進(jin)行挑選,以此作為參(can)考;或是直接從基(ji)(ji)(ji)因(yin)組發(fa)(fa)表網站上進(jin)行挑選,避免(mian)所(suo)選物(wu)種(zhong)無基(ji)(ji)(ji)因(yin)組數據而反(fan)復挑選查找(zhao)的麻煩(fan)。
5.倍(bei)性一致性:為了(le)避免基因(yin)家(jia)族擴張(zhang)與收縮(suo)分(fen)析結果(guo)受到干擾,所分(fen)析物(wu)種的倍(bei)性最好保持一致。異源多倍(bei)體通常(chang)需要拆分(fen)成亞基因(yin)組對應的蛋白質序列進(jin)行分(fen)析。
6.關注物種的(de)(de)選擇:需要(yao)包含與目標(biao)物種具(ju)有相(xiang)似/相(xiang)反生物功能的(de)(de)物種,通過物種間的(de)(de)比較可以解釋(shi)說明一定(ding)的(de)(de)生物問題,同時(shi)也利于后續基因家族功能故事的(de)(de)闡述。
7.物(wu)種(zhong)(zhong)(zhong)的代表(biao)性(xing):在進(jin)行(xing)物(wu)種(zhong)(zhong)(zhong)選擇時(shi),主要遵循了兩個原(yuan)則:①尋求最大化進(jin)化分支的長度,每個科中至少包括(kuo)一個物(wu)種(zhong)(zhong)(zhong);② 優(you)先考慮生物(wu)或生物(wu)多樣性(xing)保護感興(xing)趣的物(wu)種(zhong)(zhong)(zhong)。
04、派森諾比較(jiao)基因組案例精選