2020-10-30
物種(zhong)注(zhu)釋(shi)的(de)本(ben)質是(shi)與參考序列(lie)數(shu)據(ju)庫進(jin)(jin)行比對,利用identity、score、coverage、e-value等多(duo)項指標,對比對結(jie)果(guo)進(jin)(jin)行綜合打分(fen),根據(ju)相應(ying)的(de)注(zhu)釋(shi)算法進(jin)(jin)行最(zui)后判定的(de)過程。因此,注(zhu)釋(shi)結(jie)果(guo)的(de)全面性和(he)準(zhun)確性不(bu)僅與參考數(shu)據(ju)庫的(de)選擇有關,注(zhu)釋(shi)算法的(de)應(ying)用也是(shi)很重要的(de)一(yi)環。
此前,我(wo)們已經為大家詳細介紹過QIIME 2分析流(liu)程(cheng)的諸多優點(、)(點(dian)擊查看),而物種注釋正是QIIME 2眾多分析(xi)優點(dian)中(zhong)的重要一環!今天就為大家帶(dai)來QIIME 2中(zhong)兩(liang)種常(chang)用的注釋方法(fa)的介紹:classify-sklearn算法(fa)(Bokulich et al., 2018,//github.com/QIIME2/q2-feature-classifier)和brocc算法(fa)(Nilsson et al.,2006,//github.com/kylebittinger/q2-brocc#the-brocc-algorithm)。
QIIME 2分(fen)析流程的(de)常用注釋算法和對應(ying)數據(ju)庫(ku)
首(shou)先,大家可(ke)能會(hui)好奇:物(wu)種注(zhu)釋(shi)(shi)時(shi),為(wei)什么需要(yao)考慮注(zhu)釋(shi)(shi)算法呢?簡單而言,由于(yu)測序序列長度(du)的(de)(de)限制,以及微(wei)生物(wu)種類的(de)(de)多樣性,導致(zhi)容易出(chu)現(xian)“一對(dui)多”(一條序列對(dui)應(ying)多個潛(qian)在物(wu)種注(zhu)釋(shi)(shi)結果)的(de)(de)現(xian)象(xiang),如果沒有合理的(de)(de)注(zhu)釋(shi)(shi)方(fang)法,就會(hui)出(chu)現(xian)“選擇困(kun)難癥”。因(yin)此,在分(fen)析(xi)時(shi),就需要(yao)對(dui)注(zhu)釋(shi)(shi)結果進行必要(yao)的(de)(de)取(qu)舍,既(ji)保(bao)證(zheng)注(zhu)釋(shi)(shi)結果的(de)(de)可(ke)靠可(ke)信(xin),又盡可(ke)能不損失物(wu)種注(zhu)釋(shi)(shi)的(de)(de)精度(du)(保(bao)證(zheng)盡可(ke)能還原物(wu)種的(de)(de)精細組(zu)成)。因(yin)此,注(zhu)釋(shi)(shi)算法也(ye)就應(ying)運(yun)而生啦~
classify-sklearn算(suan)法
QIIME 2分(fen)析流程(cheng)的(de)物種(zhong)注(zhu)釋(shi)插(cha)件q2-feature-classifier中包含(han)三種(zhong)不(bu)同的(de)分(fen)類(lei)(lei)(lei)(lei)方(fang)法。其中,classify-consensus-blast和classify-consensus-vsearch都是(shi)基(ji)于(yu)(yu)序(xu)列(lie)(lie)對(dui)齊(qi)的(de)方(fang)法,可(ke)以在比對(dui)結(jie)果的(de)top hits找(zhao)到合適的(de)注(zhu)釋(shi)信息,不(bu)需要預先(xian)訓練(lian)。但(dan)是(shi)對(dui)于(yu)(yu)特定(ding)類(lei)(lei)(lei)(lei)型的(de)群(qun)落樣本(ben)和測(ce)序(xu)參數(shu)(包括用(yong)(yong)于(yu)(yu)擴增(zeng)的(de)引(yin)物和序(xu)列(lie)(lie)讀長等(deng)信息),注(zhu)釋(shi)所使用(yong)(yong)的(de)分(fen)類(lei)(lei)(lei)(lei)器在進(jin)行(xing)數(shu)據(ju)訓練(lian)后(hou),表現(xian)將(jiang)優于(yu)(yu)上述基(ji)于(yu)(yu)序(xu)列(lie)(lie)對(dui)齊(qi)的(de)方(fang)法。QIIME 2中,基(ji)于(yu)(yu)數(shu)據(ju)訓練(lian)的(de)機(ji)器學(xue)習分(fen)類(lei)(lei)(lei)(lei)器可(ke)通過classify-sklearn獲(huo)得,理(li)論上可(ke)以將(jiang)scikit-learn中包含(han)的(de)任何(he)分(fen)類(lei)(lei)(lei)(lei)方(fang)法都應用(yong)(yong)于(yu)(yu)各類(lei)(lei)(lei)(lei)微生物組擴增(zeng)子測(ce)序(xu)數(shu)據(ju)的(de)分(fen)類(lei)(lei)(lei)(lei)注(zhu)釋(shi),具有較(jiao)強的(de)針對(dui)性,并體現(xian)出以下兩大優點:
01、使(shi)用Naive Bayes分(fen)類(lei)器的classify-sklearn算法在16S rRNA基因和(he)(he)真(zhen)菌(jun)ITS序(xu)列物種(zhong)注釋的精(jing)確(que)(que)(que)度(du)和(he)(he)嚴謹性方(fang)面優于(yu)其他的標準(zhun)(zhun)分(fen)類(lei)方(fang)法,可(ke)以最大(da)程度(du)上確(que)(que)(que)保注釋結果的可(ke)靠、準(zhun)(zhun)確(que)(que)(que)。通過建立基于(yu)人工(gong)群落(mock community)、交叉驗證(cross-validated)和(he)(he)新物種(zhong)檢出(novel taxa evaluations)的三維評價模型,可(ke)以發現classify-sklearn對(dui)于(yu)16S rRNA基因和(he)(he)真(zhen)菌(jun)ITS序(xu)列在屬水平和(he)(he)種(zhong)水平上的注釋結果更加(jia)精(jing)確(que)(que)(que)和(he)(he)嚴謹。
Fig. 1 Classification accuracy comparison between mock community, cross-validated, and novel taxa evaluations. Scatterplots show mean F-measure scores for each method configuration, averaged across all samples, for classification of 16S rRNA genes at genus level (a) and species level (b), and fungal ITS sequences at genus level (c) and species level (d).
02、在(zai)分(fen)(fen)(fen)類(lei)器(qi)的運行性能(neng)方面,隨(sui)著目標序(xu)列數的增(zeng)加(jia),注釋分(fen)(fen)(fen)析的運算(suan)時(shi)間優(you)于(yu)(yu)Vsearch、BLAST等方法(fa);而當參考(kao)序(xu)列數據(ju)庫增(zeng)大時(shi),注釋分(fen)(fen)(fen)析的運算(suan)時(shi)間又優(you)于(yu)(yu)RDP、SortMeRnA等方法(fa)。綜合比較,Naive Bayes分(fen)(fen)(fen)類(lei)器(qi)在(zai)運行穩定性和速度上,更優(you)于(yu)(yu)其(qi)它(ta)常見分(fen)(fen)(fen)類(lei)器(qi)。
Fig. 2 Runtime performance comparison of taxonomy classifiers. Runtime (s) for each taxonomy classifier either varying the number of query sequences and keeping a constant 10,000 reference sequences (a) or varying the number of reference sequences and keeping a constant 1 query sequence (b).
brocc注(zhu)釋算法
相對于基于機器學習(xi)的(de)(de)classify-sklearn算法(fa),QIIME 2分(fen)析流程(cheng)中的(de)(de)brocc注(zhu)(zhu)(zhu)釋(shi)(shi)(shi)算法(fa)則更(geng)適用(yong)(yong)于選(xuan)擇nt或nr數(shu)據庫(ku)進(jin)行注(zhu)(zhu)(zhu)釋(shi)(shi)(shi)的(de)(de)測(ce)序數(shu)據集(ji),比(bi)如諸多功能基因測(ce)序的(de)(de)結(jie)果(guo)。首先,brocc將測(ce)序得(de)到的(de)(de)序列與nt或nr數(shu)據庫(ku)進(jin)行比(bi)對,利用(yong)(yong)identity、score、coverage、e-value等多項指標,對比(bi)對結(jie)果(guo)進(jin)行綜(zong)合(he)打分(fen),選(xuan)擇綜(zong)合(he)得(de)分(fen)前5的(de)(de)注(zhu)(zhu)(zhu)釋(shi)(shi)(shi)結(jie)果(guo)(top 5),進(jin)而(er)運用(yong)(yong)brocc注(zhu)(zhu)(zhu)釋(shi)(shi)(shi)算法(fa),追溯五條注(zhu)(zhu)(zhu)釋(shi)(shi)(shi)結(jie)果(guo)的(de)(de)共同祖(zu)先,作為此序列最(zui)終的(de)(de)注(zhu)(zhu)(zhu)釋(shi)(shi)(shi)結(jie)果(guo),同時可以通過調(diao)整算法(fa)閾值(zhi)(取值(zhi)范圍為0-100%),來調(diao)整注(zhu)(zhu)(zhu)釋(shi)(shi)(shi)結(jie)果(guo):
Brocc注釋算法結果展示表
由(you)此可見,在(zai)(zai)運用(yong)brocc注(zhu)釋(shi)(shi)(shi)算法(fa)時,通(tong)過對物種分(fen)(fen)類信(xin)息進行(xing)投票(piao)和控制(zhi),即對閾(yu)值進行(xing)調整,從(cong)而(er)可以(yi)獲取(qu)更嚴謹的(de)(de)(de)物種注(zhu)釋(shi)(shi)(shi)結(jie)(jie)果(guo)(guo)(guo):當設置(zhi)算法(fa)閾(yu)值為(wei)(wei)100%時,5條注(zhu)釋(shi)(shi)(shi)結(jie)(jie)果(guo)(guo)(guo)追(zhui)溯共同(tong)祖先,最終注(zhu)釋(shi)(shi)(shi)結(jie)(jie)果(guo)(guo)(guo)精確(que)到屬水平,而(er)種水平上給(gei)出的(de)(de)(de)判定結(jie)(jie)果(guo)(guo)(guo)是(shi)“unclassified”。這也(ye)解釋(shi)(shi)(shi)了在(zai)(zai)注(zhu)釋(shi)(shi)(shi)得到的(de)(de)(de)“各分(fen)(fen)類水平物種注(zhu)釋(shi)(shi)(shi)表(L1-L7)”中(zhong),通(tong)常會(hui)出現(xian)某等級注(zhu)釋(shi)(shi)(shi)結(jie)(jie)果(guo)(guo)(guo)為(wei)(wei)unclassified的(de)(de)(de)情形:并不是(shi)未注(zhu)釋(shi)(shi)(shi)到物種信(xin)息,而(er)是(shi)為(wei)(wei)了給(gei)出更加準(zhun)確(que)和嚴謹的(de)(de)(de)注(zhu)釋(shi)(shi)(shi)結(jie)(jie)果(guo)(guo)(guo),brocc通(tong)過投票(piao)和控制(zhi)機制(zhi),對注(zhu)釋(shi)(shi)(shi)結(jie)(jie)果(guo)(guo)(guo)進行(xing)了修正。在(zai)(zai)這個(ge)示例中(zhong),當設置(zhi)算法(fa)閾(yu)值為(wei)(wei)80%時,5條注(zhu)釋(shi)(shi)(shi)結(jie)(jie)果(guo)(guo)(guo)中(zhong)有4條的(de)(de)(de)注(zhu)釋(shi)(shi)(shi)結(jie)(jie)果(guo)(guo)(guo)是(shi)一致的(de)(de)(de),這時注(zhu)釋(shi)(shi)(shi)結(jie)(jie)果(guo)(guo)(guo)可以(yi)精確(que)到種水平。
傳(chuan)統BLAST比(bi)對注釋的問題(ti)
與(yu)brocc的(de)(de)投票控制方(fang)法相比(bi),只依(yi)據BLAST比(bi)對(dui)結(jie)果(guo)(guo)(guo)進(jin)行物種注(zhu)釋(shi),方(fang)法上就(jiu)“簡單粗暴”許多(duo)了:這(zhe)種情況下,通常都是以top hit(比(bi)對(dui)后(hou)會(hui)產(chan)生多(duo)條(tiao)(tiao)比(bi)對(dui)結(jie)果(guo)(guo)(guo),top hit是得分最高、e值最小(xiao)的(de)(de)一條(tiao)(tiao))為(wei)目(mu)標(biao)序(xu)列(lie)(lie)(lie)(lie)的(de)(de)比(bi)對(dui)結(jie)果(guo)(guo)(guo),即(ji)使目(mu)標(biao)序(xu)列(lie)(lie)(lie)(lie)和其它參(can)(can)考序(xu)列(lie)(lie)(lie)(lie)也(ye)完全一致,也(ye)不再(zai)考慮其它候選參(can)(can)考物種,用這(zhe)樣的(de)(de)方(fang)法容易獲得“好看(kan)”的(de)(de)結(jie)果(guo)(guo)(guo),但(dan)更可(ke)能得到的(de)(de)是一個(ge)“不真(zhen)實”的(de)(de)結(jie)果(guo)(guo)(guo)。尤其是對(dui)于(yu)功能基因測序(xu)而言,由于(yu)功能基因片段在(zai)不同(tong)物種之間、甚至(zhi)在(zai)同(tong)一個(ge)菌屬之內(nei)就(jiu)會(hui)發(fa)生變異,序(xu)列(lie)(lie)(lie)(lie)未必100%相同(tong),如果(guo)(guo)(guo)只依(yi)據BLAST對(dui)短片段序(xu)列(lie)(lie)(lie)(lie)的(de)(de)比(bi)對(dui)結(jie)果(guo)(guo)(guo)進(jin)行物種注(zhu)釋(shi),那就(jiu)有很(hen)大可(ke)能出現“假陽性”的(de)(de)注(zhu)釋(shi)結(jie)果(guo)(guo)(guo),無法反映群(qun)落的(de)(de)真(zhen)實特征。
結 語
今天的分(fen)享就到這里啦~物種注(zhu)釋也是一門技術活,簡單粗暴的BLAST并不(bu)可取,QIIME 2的classify-sklearn+brocc才是好!派森諾(nuo)已經自研構建了(le)完(wan)整(zheng)的QIIME 2注(zhu)釋分(fen)析流程,為您帶來QIIME 2分(fen)析體驗!大家感興趣的話,記得(de)登錄(lu)派森諾(nuo)基因云(//www.genescloud.cn/)嘗(chang)鮮哦!
參考文獻:
[1] Bokulich, N. A. , Kaehler, B. D. , Ram, R. J. , Matthew, D. , Evan, B. , & Rob, K. , et al. (2018). Optimizing taxonomic classification of marker-gene amplicon sequences with qiime 2’s q2-feature-classifier plugin. Microbiome, 6(1), 90.
[2] Nilsson, R. H. , Ryberg, M. , Kristiansson, E. , Abarenkov, K. , Larsson, K. H. , & Urmas K?ljalg. (2006). Taxonomic reliability of DNA sequences in public sequence databases: a fungal perspective. PLOS ONE, 1.