2020-07-16
16S rRNA基(ji)(ji)因(yin)是(shi)細(xi)菌系統分類研究(jiu)中最常用(yong)的分子標記,在進(jin)化(hua)上具有良好(hao)的時(shi)鐘性質,其序列包含相(xiang)互間隔的10個(ge)保(bao)守(shou)區和(he)(he)9個(ge)可變(bian)區,保(bao)守(shou)區物種間變(bian)化(hua)不大,而可變(bian)區具有屬或種的特異性。利用(yong)高通量測序技術(shu)對16S rRNA基(ji)(ji)因(yin)可變(bian)區進(jin)行測序,能全面解析(xi)樣本(ben)中的物種組成(cheng)和(he)(he)對應的豐(feng)度(du)信息(xi),因(yin)此被廣泛應用(yong)于微生物群(qun)落(luo)研究(jiu)。
然(ran)而需要注意(yi)的(de)(de)(de)(de)(de)(de)是(shi),當前(qian)基于(yu)(yu)高(gao)通(tong)量(liang)測序的(de)(de)(de)(de)(de)(de)微生物群落多樣性(xing)研究(jiu),都是(shi)基于(yu)(yu)相(xiang)對定量(liang)的(de)(de)(de)(de)(de)(de)方法,即把數(shu)(shu)據歸一(yi)化到統一(yi)數(shu)(shu)據量(liang),以(yi)每種菌reads數(shu)(shu)占(zhan)總(zong)reads數(shu)(shu)的(de)(de)(de)(de)(de)(de)豐度比例來(lai)(lai)進行量(liang)化分析(xi)。這(zhe)種定量(liang)方式存在的(de)(de)(de)(de)(de)(de)問(wen)題也(ye)是(shi)顯而易(yi)見的(de)(de)(de)(de)(de)(de),由于(yu)(yu)16S擴(kuo)增(zeng)(zeng)子文庫的(de)(de)(de)(de)(de)(de)構(gou)建有一(yi)個無法回避的(de)(de)(de)(de)(de)(de)過程,那就(jiu)(jiu)是(shi)PCR擴(kuo)增(zeng)(zeng)。只要存在PCR擴(kuo)增(zeng)(zeng),就(jiu)(jiu)會有重(zhong)(zhong)復(fu)(fu)的(de)(de)(de)(de)(de)(de)產生,而擴(kuo)增(zeng)(zeng)偏好性(xing)引發的(de)(de)(de)(de)(de)(de)重(zhong)(zhong)復(fu)(fu)的(de)(de)(de)(de)(de)(de)不均勻(yun)性(xing),就(jiu)(jiu)是(shi)相(xiang)對豐度不可靠的(de)(de)(de)(de)(de)(de)罪魁禍首。也(ye)許你會說,我(wo)們(men)可以(yi)在生信分析(xi)端把重(zhong)(zhong)復(fu)(fu)都去掉,然(ran)而現實是(shi)這(zhe)些重(zhong)(zhong)復(fu)(fu)的(de)(de)(de)(de)(de)(de)來(lai)(lai)源不同(tong),代表的(de)(de)(de)(de)(de)(de)意(yi)義(yi)也(ye)不同(tong),一(yi)刀切的(de)(de)(de)(de)(de)(de)去重(zhong)(zhong)同(tong)樣也(ye)歪(wai)曲了(le)事實,圖一(yi)列舉(ju)了(le)微生物群落多樣性(xing)研究(jiu)的(de)(de)(de)(de)(de)(de)測序數(shu)(shu)據中重(zhong)(zhong)復(fu)(fu)的(de)(de)(de)(de)(de)(de)主(zhu)要來(lai)(lai)源:
圖一(yi):測序數(shu)據中重復的主要(yao)來源
①中重(zhong)復(fu)(fu)代表(biao)(biao)的(de)(de)是同種菌(jun)的(de)(de)不同分(fen)子,是真(zhen)實物種豐度的(de)(de)呈現(xian),這(zhe)(zhe)種重(zhong)復(fu)(fu)需(xu)要(yao)被保留(liu),而(er)②和(he)③這(zhe)(zhe)些(xie)重(zhong)復(fu)(fu)是由擴增(zeng)產(chan)生的(de)(de)假(jia)重(zhong)復(fu)(fu),他(ta)的(de)(de)數量(liang)不能代表(biao)(biao)PCR擴增(zeng)前物種的(de)(de)原(yuan)始組成,尤其(qi)當部分(fen)序列(lie)存(cun)在PCR擴增(zeng)偏好時,Reads數被人為提高,從(cong)而(er)導致(zhi)定量(liang)不準,這(zhe)(zhe)些(xie)重(zhong)復(fu)(fu)是需(xu)要(yao)去除的(de)(de)。
總的(de)來說,PCR擴(kuo)(kuo)增之(zhi)(zhi)前(qian)的(de)重(zhong)復(fu)(fu)需要(yao)保留(liu),PCR擴(kuo)(kuo)增之(zhi)(zhi)后(hou)的(de)重(zhong)復(fu)(fu)需要(yao)去除(chu)。怎么實(shi)現(xian)呢?UMI(Unique Molecular Identifier)數字標簽技術這(zhe)時候(hou)就派(pai)上用場了,只要(yao)在PCR擴(kuo)(kuo)增之(zhi)(zhi)前(qian)給(gei)每個(ge)分(fen)子(zi)加上一(yi)(yi)個(ge)特有的(de)標簽,之(zhi)(zhi)后(hou)無論經過多(duo)少個(ge)循環的(de)擴(kuo)(kuo)增,這(zhe)個(ge)標簽都一(yi)(yi)直(zhi)伴隨著(zhu)同步進行復(fu)(fu)制,最后(hou)可(ke)以通過UMI的(de)種類對真(zhen)重(zhong)復(fu)(fu)和(he)假重(zhong)復(fu)(fu)進行區分(fen),從而達到去除(chu)擴(kuo)(kuo)增重(zhong)復(fu)(fu)的(de)目(mu)的(de)。下(xia)圖分(fen)別展示(shi)了常規兩(liang)步法建(jian)庫和(he)利用UMI數字標簽建(jian)庫的(de)流程:
圖二:16S擴增子建(jian)庫流程 ,左,常規兩步法(fa)建(jian)庫流程(cheng),右,UMI數字標簽(qian)建庫的流程(cheng)
從上圖(tu)不難看出,既(ji)往基于(yu)測(ce)序reads數(shu)進行(xing)微生(sheng)物群(qun)落(luo)多(duo)樣(yang)性定(ding)量(liang),定(ding)量(liang)值(zhi)偏(pian)離真實(shi)值(zhi),在采(cai)用了UMI數(shu)字標(biao)簽(qian)之后,根據(ju)UMI標(biao)簽(qian)的種類進行(xing)定(ding)量(liang),定(ding)量(liang)值(zhi)更接近(jin)于(yu)真實(shi)值(zhi),校(xiao)正(zheng)了由PCR擴增偏(pian)好(hao)帶來的影(ying)響。
UMI數字(zi)標簽真就(jiu)如(ru)此神奇(qi)嗎?適用(yong)于哪些微生態(tai)場景的(de)研究呢?咱們下期再來分享。