2024-05-13
微(wei)(wei)生(sheng)(sheng)(sheng)物(wu)作為地球上(shang)最(zui)古(gu)老、最(zui)豐富的(de)生(sheng)(sheng)(sheng)命形式之一,幾乎存在于所有的(de)生(sheng)(sheng)(sheng)態系統中(zhong),發揮著不可或缺的(de)作用(yong)。從海洋深處極端環(huan)境(jing)到地表,從人類內部器(qi)官、腸道到皮(pi)膚(fu),影(ying)響著地球上(shang)的(de)每(mei)一個生(sheng)(sheng)(sheng)物(wu)和環(huan)境(jing)。隨著科學技術的(de)進步(bu),對微(wei)(wei)生(sheng)(sheng)(sheng)物(wu)的(de)研究也逐漸深入,不同(tong)微(wei)(wei)生(sheng)(sheng)(sheng)物(wu)數據庫(ku)(ku)的(de)建立和不斷更(geng)新都為此提供了重要支持。本期小派為大家介紹一下微(wei)(wei)生(sheng)(sheng)(sheng)物(wu)組(擴增子測序(xu)和宏(hong)基因(yin)組測序(xu))數據分析時常用(yong)的(de)數據庫(ku)(ku)。 測序項目(mu)類型 數據庫(ku) 擴(kuo)增子(zi)常(chang)用數據庫(ku) Silva數據庫(環境類細菌、古菌、真核18S注釋) Greengenes數據庫(腸道菌(jun)(jun)群類細菌(jun)(jun)注釋) UNITE數據庫(真菌注(zhu)釋) PR2數據庫(原生生物注(zhu)釋) HOMD數據庫(口腔類(lei)微生物物種(zhong)注(zhu)釋) Greengenes2(基于(yu)(yu)參考樹,適用于(yu)(yu)腸道(dao)和環境細菌、古菌注(zhu)釋(shi)) 宏基因組數據(ju)庫 NCBI數據庫 GTDB數據庫
Silva數據庫 //www.arb-silva.de/ Sliva數(shu)據庫全稱(cheng)(SILVA ribosomal RNA database),是一個包含(han)三(san)域(yu)微生物(細菌、古(gu)菌、真核)rRNA基(ji)因序(xu)(xu)(xu)列(lie)(lie)的綜合數(shu)據庫,收錄(lu)來自不(bu)同(tong)環境、不(bu)同(tong)地理位(wei)置以(yi)及不(bu)同(tong)分(fen)類群的原核生物16S 和18S rRNA序(xu)(xu)(xu)列(lie)(lie)數(shu)據,既可以(yi)針(zhen)對小亞基(ji)rRNA基(ji)因序(xu)(xu)(xu)列(lie)(lie)(簡(jian)稱(cheng)SSU,即(ji)16SrRNA/18SrRNA),也(ye)可以(yi)針(zhen)對大亞基(ji)rRNA基(ji)因序(xu)(xu)(xu)列(lie)(lie)(簡(jian)稱(cheng)LSU,即(ji)23SrRNA/28SrRNA)。目前最(zui)新數(shu)據庫版(ban)本(ben)為SILVA SSU and LSU databases 138,更新時間為2020年8月27日,最(zui)新版(ban)本(ben)數(shu)據庫包含(han)的數(shu)據信息見下表1所(suo)示。 表(biao)1 SILVA SSU andLSU databases 138數(shu)據庫(ku)基本參(can)數(shu)信息 _ SSU Ref SSU Ref NR LSU Ref LSU Ref NR 版本 138.1 138.1 138.1 138.1 總序(xu)列 2,224,740 510,508 227,331 95,286 細菌(jun) 1,983,022 431,329 196,940 77,948 古(gu)菌(jun) 69,198 20,389 1,516 991 真核 172,520 58,790 28,875 16,347 可培養 39,312 39,312 8,086 8,086 模式(shi)株 24,437 24,437 4,704 4,704
Greengenes數(shu)據庫 //greengenes.lbl.gov/Download/ GreenGenes數(shu)據(ju)庫(ku)是最(zui)經典的(de)16S物種數(shu)據(ju)庫(ku)之一,針(zhen)對(dui)(dui)細(xi)菌(jun)和(he)古菌(jun)的(de)16S rRNA基因(yin)序(xu)(xu)列進(jin)行(xing)整理(li),旨在促進(jin)微(wei)(wei)生(sheng)物分(fen)(fen)類和(he)多(duo)樣(yang)性研究,提供了詳細(xi)的(de)分(fen)(fen)類信息(xi)和(he)注釋,便于微(wei)(wei)生(sheng)物群落的(de)分(fen)(fen)析。但該數(shu)據(ju)庫(ku)目(mu)前已(yi)停止更新,最(zui)新版(ban)本為2017年更新的(de)13.8版(ban)本,它對(dui)(dui)13.5的(de)序(xu)(xu)列分(fen)(fen)類進(jin)行(xing)了修正,分(fen)(fen)類上采用的(de)是通用的(de)界(jie)門綱目(mu)科屬種七級(ji),其對(dui)(dui)微(wei)(wei)生(sheng)物物種的(de)拉(la)丁文命名也比較規范,故仍是細(xi)菌(jun)多(duo)樣(yang)性分(fen)(fen)析是使用的(de)主流數(shu)據(ju)庫(ku)之一。
UNITE數據庫 //unite.ut.ee/ ITS(全稱ribosomal internal transcribed spacer,核(he)糖(tang)體基(ji)因內(nei)轉錄間隔區)是(shi)最常用(yong)的(de)(de)真(zhen)菌鑒定(ding)(ding)及多樣性檢測的(de)(de)marker基(ji)因,UNITE數(shu)(shu)據(ju)庫是(shi)專門針對(dui)(dui)真(zhen)菌ITS序列(包括(kuo)ITS1和ITS2區)最全的(de)(de)數(shu)(shu)據(ju)庫,目標是(shi)形成正(zheng)式的(de)(de)真(zhen)菌條形碼(ma),更專注于真(zhen)菌分子鑒定(ding)(ding)的(de)(de)綜合性數(shu)(shu)據(ju)庫和序列管(guan)理(li)環(huan)境。目前(qian)使用(yong)的(de)(de)Unite 9.0版本于2022年10月發布,其中ITS 序列數(shu)(shu)量 (UNITE+INSD):8 395 383;數(shu)(shu)字對(dui)(dui)象(xiang)標識(shi)符(fu)(fu)為(wei) 1.5% 閾(yu)值的(de)(de) UNITE 真(zhen)菌物種(zhong)(zhong)假(jia)設數(shu)(shu)量:290 922,并(bing)為(wei)每個(ge)物種(zhong)(zhong)分配了(le)數(shu)(shu)字對(dui)(dui)象(xiang)標識(shi)符(fu)(fu)(DOIs),以便于在(zai)科學研(yan)究中進行精確引用(yong)。
PR2數(shu)據庫 //pr2-database.org/ PR2(Protist Ribosomal Reference database)數(shu)據庫(ku)于2013年發(fa)表在Nucleic Acids Research上,是專門(men)針對真核微生(sheng)(sheng)物(wu)(wu)小亞基SSU rRNA(即18SrRNA)基因的(de)(de)(de)原生(sheng)(sheng)動物(wu)(wu)分(fen)類系統。該數(shu)據庫(ku)主要由核編碼的(de)(de)(de)原生(sheng)(sheng)生(sheng)(sheng)物(wu)(wu)序(xu)(xu)列構(gou)成,但(dan)為方便分(fen)析18S的(de)(de)(de)高通量測序(xu)(xu)數(shu)據,數(shu)據庫(ku)也包(bao)含了后(hou)生(sheng)(sheng)生(sheng)(sheng)物(wu)(wu)、陸(lu)地植物(wu)(wu)、大(da)型(xing)真菌和真核細胞器(線粒體、質體等)的(de)(de)(de)SSU序(xu)(xu)列,記(ji)錄了全球超過2600個原生(sheng)(sheng)動物(wu)(wu)物(wu)(wu)種的(de)(de)(de)rRNA序(xu)(xu)列,覆蓋了原生(sheng)(sheng)動物(wu)(wu)界(jie)的(de)(de)(de)絕大(da)部(bu)分(fen)。目前(qian)該數(shu)據庫(ku)最新版本(ben)PR2 5.0于2023年4月更新。
HOMD數據庫 //homd.org/ 第一個(ge)(ge)口(kou)腔微(wei)生物(wu)(wu)(wu)組(zu)綜合數據(ju)庫(ku)——人體口(kou)腔微(wei)生物(wu)(wu)(wu)組(zu)數據(ju)庫(ku)(human oral microbiome database,HOMD)于(yu)2008年3月(yue)25日正(zheng)式對公眾開放,該數據(ju)庫(ku)整合約(yue)(yue)(yue)700種(zhong)人類口(kou)腔原(yuan)核微(wei)生物(wu)(wu)(wu)的(de)(de)基(ji)因組(zu)信息(約(yue)(yue)(yue)400個(ge)(ge)口(kou)腔分(fen)類單(dan)元和1300多個(ge)(ge)微(wei)生物(wu)(wu)(wu)菌株的(de)(de)基(ji)因組(zu)),其中54%的(de)(de)物(wu)(wu)(wu)種(zhong)具有(you)明確命名(ming),14%的(de)(de)物(wu)(wu)(wu)種(zhong)雖(sui)可培(pei)養但尚未被(bei)命名(ming),還(huan)有(you)32%為未命名(ming)的(de)(de)不可培(pei)養物(wu)(wu)(wu)種(zhong),總計大約(yue)(yue)(yue)有(you)150個(ge)(ge)屬,700個(ge)(ge)種(zhong)。目前該數據(ju)庫(ku)最新(xin)版本eHOMD 3.1版本于(yu)2023年3月(yue)更新(xin)。
Greengenes2數(shu)據(ju)庫 //greengenes2.ucsd.edu/ 宏基(ji)因(yin)組(zu)(zu)(zu)(zu)學和(he)(he)(he)16S rRNA基(ji)因(yin)擴增(zeng)子研究(jiu)廣泛用(yong)(yong)于微(wei)生(sheng)(sheng)物組(zu)(zu)(zu)(zu)研究(jiu),但使(shi)用(yong)(yong)這些(xie)不(bu)同方法(fa)(fa)的(de)(de)(de)(de)研究(jiu)人(ren)員通常發(fa)現(xian)他們(men)的(de)(de)(de)(de)結果(guo)難(nan)以(yi)獲得(de)一致結果(guo)。方法(fa)(fa)之間缺乏標準化限制(zhi)了微(wei)生(sheng)(sheng)物組(zu)(zu)(zu)(zu)對可重復生(sheng)(sheng)物標志(zhi)物發(fa)現(xian)的(de)(de)(de)(de)利用(yong)(yong),盡管(guan)SILVA和(he)(he)(he)Greengenes很全面(mian),但通常無法(fa)(fa)鏈(lian)接(jie)(jie)到基(ji)因(yin)組(zu)(zu)(zu)(zu)。加州大(da)學圣地(di)亞哥分校(xiao)Rob Knight團隊通過(guo)迭(die)代(dai)方法(fa)(fa)將(jiang)NCBI均勻采樣的(de)(de)(de)(de)15,953個細菌和(he)(he)(he)古菌基(ji)因(yin)組(zu)(zu)(zu)(zu)的(de)(de)(de)(de)全基(ji)因(yin)組(zu)(zu)(zu)(zu)、生(sheng)(sheng)命樹計劃(Living Tree Project,LTP)2022 年1月發(fa)布(bu)的(de)(de)(de)(de)18,356個全長(chang)16S rRNA序(xu)列、來(lai)(lai)自Karst等人(ren)和(he)(he)(he)地(di)球微(wei)生(sheng)(sheng)物組(zu)(zu)(zu)(zu)計劃500(EMP500)的(de)(de)(de)(de)1,725,274個接(jie)(jie)近完整(zheng)的(de)(de)(de)(de)16S rRNA基(ji)因(yin)以(yi)及所有全長(chang)使(shi)用(yong)(yong)uDance v1.1.0將(jiang)GTDB r207的(de)(de)(de)(de) 16S rRNA序(xu)列,重新(xin)生(sheng)(sheng)成(cheng)了一棵涵(han)蓋來(lai)(lai)自31個不(bu)同地(di)球微(wei)生(sheng)(sheng)物組(zu)(zu)(zu)(zu)項目本體論(EMP Ontology 3,EMPO3)環境(jing)的(de)(de)(de)(de)21,074,442個序(xu)列的(de)(de)(de)(de)大(da)規模參考樹,其(qi)中46.5%的(de)(de)(de)(de)物種級(ji)葉子被完整(zheng)的(de)(de)(de)(de)基(ji)因(yin)組(zu)(zu)(zu)(zu)覆(fu)蓋,Greengenes2系統發(fa)育覆(fu)蓋率遠大(da)于過(guo)去的(de)(de)(de)(de)資源,已有結果(guo)表明(ming)由相(xiang)同樣本生(sheng)(sheng)成(cheng)的(de)(de)(de)(de)16S rRNA和(he)(he)(he)宏基(ji)因(yin)組(zu)(zu)(zu)(zu)數據(ju)在主坐標空間、分類學和(he)(he)(he)表型效(xiao)應大(da)小方面(mian)一致。
NCBI數(shu)據(ju)庫 //www.ncbi.nlm.nih.gov/ NCBI全稱National Center for Biotechnology Information是(shi)隸屬美國(guo)國(guo)家(jia)衛生(sheng)研究所的(de)(de)國(guo)家(jia)醫(yi)學(xue)圖書館(NLM)的(de)(de)分部(bu),開發(fa)有(you) Genbank 等(deng)公共數據庫(ku),提供(gong) BLAST 、Entrez 、OMIM 、 Taxonomy 等(deng)工具,可對國(guo)際分子數據庫(ku)和生(sheng)物醫(yi)學(xue)文獻進行(xing)檢索和分析,并開發(fa)用于(yu)分析基因(yin)組數據和傳播生(sheng)物醫(yi)學(xue)信(xin)息(xi)的(de)(de)軟件工具。在NCBI數據庫(ku)中,可以找到大量的(de)(de)生(sheng)物信(xin)息(xi)學(xue)數據,包(bao)括DNA和蛋白質序列,基因(yin)組組裝,基因(yin)注釋,蛋白質結(jie)構等(deng),并且每日更新,是(shi)一個提供(gong)生(sheng)物醫(yi)學(xue)信(xin)息(xi)的(de)(de)重要平臺(tai)。
GTDB數(shu)據庫(ku) //gtdb.ecogenomic.org/ GTDB(Genome Taxonomy Database)數據(ju)庫(ku)是一個(ge)(ge)(ge)(ge)基(ji)(ji)(ji)于基(ji)(ji)(ji)因(yin)(yin)(yin)組(zu)的(de)(de)微(wei)生物分(fen)(fen)(fen)類(lei)數據(ju)庫(ku),通過對(dui)(dui)自于 RefSeq、GenBank、宏基(ji)(ji)(ji)因(yin)(yin)(yin)組(zu)和單細胞中獲得(de)的(de)(de)未培養微(wei)生物的(de)(de)基(ji)(ji)(ji)因(yin)(yin)(yin)組(zu)草(cao)圖進行多序(xu)列比(bi)(bi)(bi)對(dui)(dui),使用 120 個(ge)(ge)(ge)(ge)單拷貝標記蛋白及核糖體 RNA 基(ji)(ji)(ji)因(yin)(yin)(yin)等構建基(ji)(ji)(ji)因(yin)(yin)(yin)組(zu)樹,比(bi)(bi)(bi)對(dui)(dui)推(tui)斷(duan)出微(wei)生物的(de)(de)分(fen)(fen)(fen)類(lei)地位(wei),同時對(dui)(dui)NCBI現有(you)的(de)(de)物種分(fen)(fen)(fen)類(lei)地位(wei)進行了重(zhong)(zhong)新(xin)(xin)劃分(fen)(fen)(fen),例如變(bian)形菌門(men)被(bei)重(zhong)(zhong)新(xin)(xin)劃分(fen)(fen)(fen)為6個(ge)(ge)(ge)(ge)新(xin)(xin)的(de)(de)類(lei)群等。相比(bi)(bi)(bi)傳統(tong)的(de)(de) 16S rRNA 基(ji)(ji)(ji)因(yin)(yin)(yin)分(fen)(fen)(fen)類(lei)方法(fa),GTDB 使用全(quan)基(ji)(ji)(ji)因(yin)(yin)(yin)組(zu)序(xu)列來構建分(fen)(fen)(fen)類(lei)樹,能(neng)夠(gou)提(ti)供更(geng)準確、更(geng)細致、更(geng)全(quan)面的(de)(de)分(fen)(fen)(fen)類(lei)信息。目前該數據(ju)庫(ku)最新(xin)(xin)版(ban)本GTDB Version 09-RS220于2024年4月更(geng)新(xin)(xin),包(bao)括596859個(ge)(ge)(ge)(ge)基(ji)(ji)(ji)因(yin)(yin)(yin)組(zu)和113104個(ge)(ge)(ge)(ge)物種(簇)。 Taxonomy Bacteria Archaea Total Phylum 175 19 194 Class 538 64 602 Order 1840 166 2006 Family 4870 564 5434 Genus 23112 1847 24959 Species 107235 5869 113104