2020-09-18
宏(hong)基因組(zu)(zu)(Metagenome)和宏(hong)轉錄組(zu)(zu)(Metatranscriptome)是通過鳥槍法測序(xu)技(ji)術(shu)(Shotgun sequencing),結合全微(wei)生(sheng)(sheng)物(wu)(wu)組(zu)(zu)關(guan)聯分析(Microbiome-Wide Association Studies,MWAS)的(de)策略,分別從DNA/RNA水平,全面精細地展示整個(ge)微(wei)生(sheng)(sheng)物(wu)(wu)群落的(de)物(wu)(wu)種組(zu)(zu)成譜、功能代謝譜、表達譜,進而(er)從原理上闡明(ming)微(wei)生(sheng)(sheng)物(wu)(wu)群落在(zai)生(sheng)(sheng)態系統中(zhong)發(fa)揮作用的(de)根本機制。
對(dui)于(yu)(yu)數(shu)據量和信息量都非常(chang)龐大(da)的宏組學研究而言(yan),選(xuan)對(dui)分析軟件(jian)至關重要。歷經多年發展,目(mu)前能(neng)用于(yu)(yu)宏基因組和宏轉錄組分析的軟件(jian)已然數(shu)不勝數(shu),對(dui)于(yu)(yu)分析者而言(yan),可謂“甜蜜的煩惱”!
那(nei)么,在琳瑯(lang)滿目的分(fen)析方法(fa)中,究竟(jing)哪些才是當前宏組(zu)學(xue)的“網紅”呢?我們特意花(hua)時(shi)間整理了以下(xia)推薦軟件,大(da)家走過路過千(qian)萬不要錯過哦(e)~
★ FastQC ★
FastQC能全方位評估測序產生的原始數據的質量,并通過網頁形式展示圖形化報告,是測序數據質控的經典工具。
//www.bioinformatics.babraham.ac.uk/projects/fastqc/
★ fastp ★
fastp是新近發表的測序質控軟件,能對數據自動進行全方位質控,并生成人性化的報告。與FastQC相比,fastp運行速度快,功能多,號稱“all in one, one for all”。生成的報告中,所有的圖表都是使用JavaScript動態繪制,交互功能非常強大。
//github.com/OpenGene/fastp
★ BMTagger ★
對于存在宿主等污染的宏基因組/宏轉錄組測序數據,可以使用BMTagger軟件將質控后的高質量序列與宿主基因組參考序列比對,并舍棄匹配上宿主的序列,以此來盡可能地去除宿主污染序列。
ftp://ftp.ncbi.nlm.nih.gov/pub/agarwala/bmtagger/
★ SortMeRNA ★
對于宏轉錄組或RNA類的宏病毒組數據,SortMeRNA是去除測序結果中殘余的核糖體RNA(rRNA)序列的不二之選。
//bioinfo.lifl.fr/RNA/sortmerna/
★ Kraken2 ★
Kraken2是Kraken的升級版本,可以通過使用精準k-mer匹配,對非拼接序列實現高精度且快速的物種注釋。Kraken2可同時適用于原核與真核微生物的識別,因而具有廣泛的應用。
//ccb.jhu.edu/software/kraken2/
★ MEGAHIT ★
MEGAHIT是一款基于無損壓縮的Succinct de Bruijn graphs(SdBG)的快速組裝工具,因其具有內存消耗小、計算速度快、低錯誤率、安裝便捷、較長的重疊群長度等優點,在來源較復雜、數據規模較大的宏基因組序列的快速組裝上優勢明顯,是一款應用廣泛的主流組裝軟件。拼接組裝時,可以根據樣品和數據特性,選擇meta-large或meta-sensitive等組裝模式。
//hku-bal.github.io/megabox
★ Minimap2 ★
DNA/mRNA序列快(kuai)速(su)比對神器,相較(jiao)于BWA-MEM、Bowtie2等常(chang)用(yong)比對工(gong)具比對速(su)度更快(kuai),內(nei)存占(zhan)用(yong)更少,可(ke)適用(yong)于二代、三代測序數據。
//lh3.github.io/minimap2/
★ DIAMOND ★
目前除了BLASTP之外最流行的蛋白比對軟件,比對速度快、內存占用少、靈敏度高,可謂集萬千優點于一身。
//github.com/bbuchfink/diamond
★ Blast2lca ★
對于基于拼接序(xu)列(lie)(lie)(lie)的(de)(de)物(wu)種(zhong)注釋(shi)(shi),由于并(bing)非所(suo)有(you)Contigs序(xu)列(lie)(lie)(lie)都具有(you)足夠的(de)(de)長度和特異性(xing),它們可(ke)(ke)能會(hui)在(zai)注釋(shi)(shi)比對時(shi),同(tong)(tong)(tong)(tong)時(shi)匹配(pei)上多條參考(kao)序(xu)列(lie)(lie)(lie),而(er)這些匹配(pei)的(de)(de)參考(kao)序(xu)列(lie)(lie)(lie)又(you)可(ke)(ke)能分(fen)(fen)屬(shu)于不同(tong)(tong)(tong)(tong)的(de)(de)物(wu)種(zhong)分(fen)(fen)類(lei)(lei)單元;為使(shi)分(fen)(fen)析嚴謹(jin)可(ke)(ke)靠,同(tong)(tong)(tong)(tong)時(shi)又(you)不丟失(shi)生物(wu)學意義(yi),可(ke)(ke)以采用Blast2lca軟(ruan)件的(de)(de)“最近共同(tong)(tong)(tong)(tong)祖(zu)先(Lowest Common Ancestor,LCA)”算(suan)法,將參考(kao)序(xu)列(lie)(lie)(lie)分(fen)(fen)化(hua)為不同(tong)(tong)(tong)(tong)物(wu)種(zhong)分(fen)(fen)枝(zhi)前的(de)(de)最后一(yi)級共同(tong)(tong)(tong)(tong)分(fen)(fen)類(lei)(lei),作為目(mu)標序(xu)列(lie)(lie)(lie)的(de)(de)物(wu)種(zhong)分(fen)(fen)類(lei)(lei)注釋(shi)(shi)信息。該算(suan)法的(de)(de)原理與MEGAN軟(ruan)件相同(tong)(tong)(tong)(tong),是物(wu)種(zhong)注釋(shi)(shi)的(de)(de)主流(liu)方法。
//github.com/emepyc/Blast2lca
★ MetaGeneMark ★
MetaGeneMark是專門用于預測(ce)原核微(wei)生物和(he)宏基(ji)因組基(ji)因序(xu)列的(de)(de)老牌軟件,可以識(shi)別組裝得到的(de)(de)Contigs序(xu)列中的(de)(de)開放閱讀框,并預測(ce)其中的(de)(de)編碼區(qu)域,從而獲得對應的(de)(de)基(ji)因和(he)蛋白(bai)序(xu)列,運(yun)算速(su)度快。
//exon.gatech.edu/GeneMark/
★ MetaWRAP ★
MetaWRAP是一(yi)款整合(he)了(le)質控(kong)、拼接(jie)、分(fen)箱(Binning)、提(ti)純、評估、物種注(zhu)釋(shi)(shi)、豐(feng)度估計、功(gong)能注(zhu)釋(shi)(shi)和可視化的分(fen)析流程(cheng),納入超140個工具軟件,可一(yi)鍵安裝(zhuang)(zhuang)。MetaWRAP流程(cheng)整合(he)了(le)CONCOCT、MaxBin、MetaBAT等三款分(fen)箱工具以及提(ti)純和重組(zu)裝(zhuang)(zhuang)算(suan)法,能提(ti)供(gong)出色(se)的分(fen)箱組(zu)裝(zhuang)(zhuang)效果,從而(er)有助(zhu)于從宏(hong)基因組(zu)數據挖掘單菌基因組(zu)信息。
//github.com/bxlab/metaWRAP
以上(shang)就(jiu)是我們精心整(zheng)理的宏基因組(zu)和宏轉錄組(zu)的常用軟件推薦(jian),在(zai)(zai)此給(gei)大家(jia)拋磚(zhuan)引玉啦~這(zhe)些(xie)軟件,也(ye)都已經包含在(zai)(zai)派森諾新宏組(zu)學分(fen)析流(liu)程中了哦(e),歡(huan)迎大家(jia)嘗鮮體驗!
(點擊查看高清大圖)