2017-03-08
以PacBio公司的SMRT單分子實時測序技術(Single molecule real-time sequencing)為代表的三代測序技術,通過其獨有的環形一致性測序模式(Circular-consensus sequence,CCS),極大提高了單堿基測序的準確率,遠超Illumina等二代測序技術。與傳統轉錄組測序項目相比,利用PacBio平臺的全長轉錄組測序技術可以直接獲得mRNA的全長,保證了mRNA序列的精確性。上期我們為大家介紹了全長轉錄組測序的數據質(zhi)控,本期將為大家介紹三代全長有參轉錄組的分析內容。主要包括:
1. 轉錄本分(fen)類(lei)
數據(ju)過濾(lv)后(hou)得到高質量(liang)的(de)Reads of Insert(RoI),接著對其進行轉錄本分(fen)(fen)類。理論上完整(zheng)的(de)RoI應該有(you)5’primer、3’primer和polyA部分(fen)(fen)。但在實際測序(xu)中(zhong)(zhong),由于5’端(duan)降解等因(yin)素,并不是(shi)(shi)所(suo)有(you)的(de)RoI都是(shi)(shi)完整(zheng)的(de),即(ji)不是(shi)(shi)全長(chang)(chang)轉錄本序(xu)列(lie)(lie),而且(qie)有(you)少部分(fen)(fen)RoI序(xu)列(lie)(lie)為(wei)嵌合體。因(yin)此通(tong)過檢測RoI序(xu)列(lie)(lie)是(shi)(shi)否含(han)有(you) 5’primer, 3’primer和polyA以及其位置的(de)關系, 將RoI序(xu)列(lie)(lie)分(fen)(fen)為(wei)全長(chang)(chang)非(fei)(fei)嵌合(Full-Length-Non-Chimeric)序(xu)列(lie)(lie)、全長(chang)(chang)嵌合(Full-Length-Chimeric)序(xu)列(lie)(lie)、非(fei)(fei)全長(chang)(chang)(Non-Full-Length)序(xu)列(lie)(lie)等。其中(zhong)(zhong)全長(chang)(chang)非(fei)(fei)嵌合序(xu)列(lie)(lie)即(ji)是(shi)(shi)物種原(yuan)始(shi)的(de)全長(chang)(chang)mRNA序(xu)列(lie)(lie),各(ge)分(fen)(fen)類之間的(de)相互(hu)關系見下(xia)圖:
圖1 轉錄(lu)本分(fen)類
2. 序列聚類與(yu)矯正
全長非嵌合序(xu)列(lie)中存在大量(liang)的(de)冗余序(xu)列(lie),我們將(jiang)冗余序(xu)列(lie)聚類到(dao)(dao)一(yi)起,得到(dao)(dao)新的(de)一(yi)致性序(xu)列(lie)(Consensus Isoforms),然(ran)后(hou)將(jiang)非全長序(xu)列(lie)比對到(dao)(dao)一(yi)致性序(xu)列(lie)上(shang)進行(xing)校正,最(zui)終得到(dao)(dao)準確度大于99% 的(de)高質量(liang)Isoform(即(ji)轉錄本(ben))。下圖是Isoform長度分布圖,長度分布的(de)區(qu)間與(yu)文(wen)庫片(pian)段的(de)選擇有關。
圖2 Isoform長度分布
3. 參考基因組比(bi)對
我們將經過校正得(de)到的(de)(de)(de)(de)Isoform與(yu)(yu)參考基(ji)因(yin)組比(bi)對(dui)(dui), 根據基(ji)因(yin)組注釋信息,可得(de)知序列(lie)的(de)(de)(de)(de)來(lai)源基(ji)因(yin)以及表達產物的(de)(de)(de)(de)結(jie)構(gou)。與(yu)(yu)參考基(ji)因(yin)組比(bi)對(dui)(dui)情況(kuang)見下圖(tu),圖(tu)中Score 0:覆蓋了基(ji)因(yin)的(de)(de)(de)(de)區域(yu),但是沒(mei)有(you)(you)或(huo)者少(shao)有(you)(you)與(yu)(yu)基(ji)因(yin)的(de)(de)(de)(de)exon匹(pi)(pi)配上的(de)(de)(de)(de)Isoform數目(mu);Score 1:與(yu)(yu)基(ji)因(yin)的(de)(de)(de)(de)一(yi)些(xie)exon有(you)(you)一(yi)對(dui)(dui)一(yi)overlap的(de)(de)(de)(de)Isoform數目(mu); Score 2:與(yu)(yu)基(ji)因(yin)的(de)(de)(de)(de)一(yi)些(xie)exon有(you)(you)一(yi)對(dui)(dui)一(yi)overlap并且(qie)匹(pi)(pi)配情況(kuang)較好的(de)(de)(de)(de)Isoform數目(mu)。
圖(tu)3 比對參考基因組情況統計
4. Known Isoforms 和Novel Isoforms功能(neng)注釋
對于(yu)比對到基(ji)因(yin)組(zu)(zu)上的(de)score為0-5的(de)known Isoform采(cai)用有參(can)考基(ji)因(yin)組(zu)(zu)注釋方法,對于(yu)Novel Isoform采(cai)用無參(can)考基(ji)因(yin)組(zu)(zu)注釋方法。基(ji)因(yin)功能(neng)注釋所用到的(de)數據庫包括 GO、KEGG、eggNOG、NR、Swiss-Prot等。下圖是(shi)其(qi)中(zhong)的(de)eggNOG注釋結果:
圖(tu)4 eggNOG注釋
5. 結構分(fen)析(xi)
結構(gou)(gou)(gou)分(fen)析(xi)是三(san)代全長轉(zhuan)(zhuan)錄(lu)(lu)組中的一(yi)個重點研(yan)究內容,不同(tong)的樣本(ben)(ben)轉(zhuan)(zhuan)錄(lu)(lu)物不盡相(xiang)同(tong),我們進行轉(zhuan)(zhuan)錄(lu)(lu)本(ben)(ben)結構(gou)(gou)(gou)分(fen)析(xi),可(ke)以統計所有轉(zhuan)(zhuan)錄(lu)(lu)本(ben)(ben)的結構(gou)(gou)(gou)差異。它能(neng)夠準確(que)辨別二代測序無法識別的同(tong)源(yuan)異構(gou)(gou)(gou)體或同(tong)源(yuan)基(ji)因等(deng)(deng)。轉(zhuan)(zhuan)錄(lu)(lu)本(ben)(ben)結構(gou)(gou)(gou)分(fen)析(xi)包括(kuo)可(ke)變剪接,融合基(ji)因, UTR區(qu)域注釋(shi),cSNP 和InDel 分(fen)析(xi)等(deng)(deng)。
圖5 融(rong)合基因(yin)分析(xi)
圖6 可變剪(jian)切分(fen)析