国产午夜精品无码一区二区,国产成人无码网站,日本少妇xxxx做受,欧美视频二区欧美影视,女人被躁到高潮嗷嗷叫游戏

首頁> 關于我們 >新聞中心>技術分享>新聞詳情

宏組學潮流分析方法大盤點(一)

2022-12-02

宏基(ji)因組(Metagenome)宏轉(zhuan)錄組(Metatranscriptome)是通(tong)過鳥(niao)槍(qiang)法(fa)測序技術(Shotgun sequencing),結合(he)全微生(sheng)物(wu)組關(guan)聯分(fen)析(Microbiome-Wide Association Studies,MWAS)的策略,分別從DNA/RNA水平,全面精細地展示整個微生物群落物種組成譜、功能代謝譜、表達譜,進而從原理上闡明微生物群落在生態系統中發揮作用的根本機制。

5f1fd51a6cfdf72b6d9b2298417bcaba.jpg


對于(yu)數(shu)(shu)據(ju)(ju)(ju)量和信息量都非(fei)常龐大(da)的(de)宏(hong)組(zu)學研(yan)究(jiu)而(er)(er)言,選對分析(xi)軟件(jian)和數(shu)(shu)據(ju)(ju)(ju)庫至關(guan)重(zhong)要(yao)。歷(li)經多年發展(zhan),目(mu)前能用于(yu)宏(hong)基(ji)因組(zu)和宏(hong)轉錄組(zu)分析(xi)的(de)軟件(jian)已然(ran)數(shu)(shu)不勝數(shu)(shu),對于(yu)分析(xi)者而(er)(er)言,可謂“甜蜜的(de)煩惱”!那么,在琳瑯(lang)滿(man)目(mu)的(de)分析(xi)方法中,究(jiu)竟哪(na)些才是當前宏(hong)組(zu)學的(de)“網紅”呢?本期,我(wo)們為您推(tui)薦以下軟件(jian)和數(shu)(shu)據(ju)(ju)(ju)庫,大(da)家走過路過千萬不要(yao)錯過哦(e)~


MMseqs2

MMseqs2 (Many-against-Many sequence searching,//github.com/soedinglab/mmseqs2)是一款(kuan)集核苷酸、蛋白質序(xu)列檢索、回帖、聚(ju)類、注(zhu)釋等功能模塊于一體的強大軟件。今天(tian),我們就來介紹(shao)MMseqs2 的taxonomy模塊。作為宏基因組微生物物種注(zhu)釋的新工(gong)具,MMseqs2_taxonomy發表在2021年的Bioinformatics上(//academic.oup.com/bioinformatics/article/37/18/3029/6178277?login=false)。

ae2e817b1cf804a9bf7df9b60a3f81fc.png

對于待注釋的氨基酸/核酸序列,MMseqs2_taxonomy 首先通過其search模塊提取數據庫中所有可能的氨基酸序列片段,并快速保留有助于分類注釋的片段,再通過加權方式確定其分類身份(如下圖A)。其亮點是在于提出了2bLCA (dual BLAST based last common ancestor) 和 a-2bLCA (Approximate 2bLCA) 算法,來解決LCA算法在實際操作過程中如何確定備選序列數目的難題,在確保穩健性的同時,顯著提高了宏基因組物種分類注釋的精準度(如圖C)。

e49d524dac3f7b70bcaaf4bb1d1a911c.jpg


為(wei)進(jin)(jin)一步展(zhan)示(shi)a-2bLCA算(suan)法的(de)(de)優(you)勢(shi),小編特(te)意使用(yong)宏(hong)基(ji)因組(zu)的(de)(de)實際數據,將(jiang)該算(suan)法與(yu)LCA和TopHit算(suan)法進(jin)(jin)行(xing)了比較(jiao)(如下圖(tu)),圖(tu)中(zhong)是(shi)(shi)s1-5表(biao)示(shi)采用(yong)的(de)(de)靈敏(min)度等級(ji)。結(jie)果(guo)顯示(shi),TopHit算(suan)法雖然獲得了精(jing)細的(de)(de)注(zhu)釋信息(更(geng)多注(zhu)釋到了species水(shui)平(ping)),但(dan)由于是(shi)(shi)單(dan)一選擇匹配(pei)度最高的(de)(de)注(zhu)釋結(jie)果(guo),其結(jie)果(guo)并不穩健;而將(jiang)a-2bLCA的(de)(de)結(jie)果(guo)與(yu)LCA進(jin)(jin)行(xing)比較(jiao),可以(yi)發(fa)現2bLCA算(suan)法能精(jing)確到species水(shui)平(ping)的(de)(de)序(xu)列更(geng)多。

90263b1825dbc9f51de07d8d2eef8ee8.png


LCA vs. 2bLCA vs. TopHit算法在(zai)不同分(fen)類水平下注釋到的序列比例


GTDB基因組分類數據庫

GTDB基因組分類數據(ju)庫(//gtdb.ecogenomic.org/),全稱Genome Taxonomy Database,它基(ji)于(yu)大量基(ji)因組(zu)系(xi)統發育分(fen)(fen)析構建(jian)(jian)的基(ji)因組(zu)分(fen)(fen)類(lei)(lei)標準流程體系(xi),對(dui)現(xian)有的大量微生(sheng)物(wu)基(ji)因組(zu)進行了重分(fen)(fen)類(lei)(lei)。該數據(ju)庫(ku)(ku)已經于(yu)2018/2020連續發表兩篇Nature Biotechnology,配套軟(ruan)件(jian)GTDB-tk于(yu)2019發表于(yu)Bioinformatcs,在(zai)提供微生(sheng)物(wu)分(fen)(fen)類(lei)(lei)參考數據(ju)庫(ku)(ku)的同(tong)時,也提供了微生(sheng)物(wu)基(ji)因組(zu)物(wu)種分(fen)(fen)類(lei)(lei)、進化樹(shu)構建(jian)(jian)的全套工(gong)具,絕(jue)對(dui)是服務到家的好工(gong)具。

9851078a7f6f271a69833bfe17064721.png


目前該數(shu)據庫涵蓋了317542個(ge)(ge)(ge)微(wei)生物基(ji)因組(zu)(zu),由(you)311480個(ge)(ge)(ge)細菌(jun)和6062個(ge)(ge)(ge)古菌(jun)基(ji)因組(zu)(zu)組(zu)(zu)成(如下圖);并分為65703個(ge)(ge)(ge)種(zhong)水平分類(lei)單元,由(you)62291個(ge)(ge)(ge)細菌(jun)和3412個(ge)(ge)(ge)古細菌(jun)構成(如下圖)。

45c9388aa97697b26103a3979c84cac4.png

ca9ee7ee94c65a5f0f101534d186247d.png


下圖顯示了GTDB的(de)65703個(ge)(ge)代表基因組(zu)的(de)新(xin)注釋結果與其在(zai)NCBI分類系(xi)統中(zhong)的(de)差(cha)異(yi)分布。如(ru)(ru)果一個(ge)(ge)基因組(zu)的(de)新(xin)物種名稱(cheng)與其在(zai)NCBI分類系(xi)統中(zhong)相同,則(ze)標(biao)注為Unchanged(不改變其分類);如(ru)(ru)果NCBI中(zhong)沒有物種分配,則(ze)標(biao)注為Passive change(被動(dong)更改);如(ru)(ru)果其新(xin)物種名稱(cheng)與NCBI分類不同,則(ze)標(biao)注為Active change(主動(dong)更改)。

38c5602fea68d0fe5c848a590d689fd5.png


我們再使用數(shu)(shu)據(ju)實(shi)測一下,使用GTDB-prot(GDTB基(ji)因(yin)組(zu)(zu)數(shu)(shu)據(ju)庫(ku)中(zhong)提取的(de)蛋白序列數(shu)(shu)據(ju)庫(ku))和NCBI-nr數(shu)(shu)據(ju)庫(ku)進行蛋白序列注(zhu)釋的(de)效果(如(ru)下圖,注(zhu)意,我們只統計了(le)原核部分),可(ke)以發現GTDB與2bLCA的(de)組(zu)(zu)合(he)結果最為高(gao)效,且GTDB相比于NR數(shu)(shu)據(ju)庫(ku)在原核微生物注(zhu)釋的(de)精細程度方面更(geng)具(ju)優(you)勢。

acfbf947017a47108fd9f1e4d791684f.png

GTDB數據庫與NR數據庫2bLCA vs. TopHit算法的結果比較

MMseqs2在其發(fa)表的(de)(de)文(wen)章(zhang)中(zhong)聲稱(cheng)比CAT工(gong)具快2-18倍,而CAT在今年(nian)推出的(de)(de)更(geng)快的(de)(de)diamond2 軟件(jian)(jian) (這個(ge)軟件(jian)(jian)我(wo)們會在下(xia)一期(qi)具體評測(ce)) 的(de)(de)加持下(xia),在速度上也許可以超過MMseqs2。盡管如此(ci),為了(le)使用2bLCA算法(fa),以便(bian)獲得(de)更(geng)準確的(de)(de)注釋信息,我(wo)們仍舊(jiu)推薦(jian)使用MMseqs2_taxonomy作為宏基因組(zu)微生物物種注釋的(de)(de)最佳(jia)方(fang)法(fa)。

此外,由于(yu)GTDB數據庫中僅有原核(he)生(sheng)物的(de)(de)信(xin)息,若想獲得(de)更(geng)為全面的(de)(de)注釋結(jie)果,或許可以考慮將(jiang)NCBI-nr中的(de)(de)真核(he)序列(lie)、病毒(du)序列(lie)與GTDB-prot進行(xing)整合,這樣運用(yong)于(yu)宏(hong)基(ji)因組物種注釋將(jiang)更(geng)為得(de)心應手。



以上就是我們(men)本期精心整理的宏(hong)組學軟件和(he)數(shu)(shu)據庫推薦,在此給大家(jia)拋磚引玉啦~這些(xie)軟件和(he)數(shu)(shu)據庫,都將納(na)入派森諾最新宏組學分析流程中,歡迎大(da)家嘗(chang)鮮體驗!