2020-09-11
相信(xin)不少小伙伴都遇到過這(zhe)(zhe)樣的(de)疑惑:收(shou)到一(yi)份轉(zhuan)錄組測序(xu)結果,辛辛苦苦查找文獻(xian),挖掘關(guan)鍵基因信(xin)息(xi),眼(yan)看一(yi)篇高大上的(de)文章(zhang)即將(jiang)誕生,卻(que)卡在了進行qPCR驗證(zheng)這(zhe)(zhe)最后一(yi)步:我關(guan)注的(de)RNA序(xu)列在哪(na)里?沒(mei)有序(xu)列信(xin)息(xi)我要怎么設計引(yin)物做熒光定量PCR呢?
莫慌,我們整(zheng)理(li)了派森諾各種常規轉錄測序(xu)產品(pin)的RNA序(xu)列信息,下面就一起來看看吧!
1、有參轉(zhuan)錄組
有參(can)考(kao)基(ji)(ji)因(yin)(yin)(yin)(yin)組(zu)(zu)的轉(zhuan)錄組(zu)(zu)項(xiang)目在進(jin)(jin)行(xing)分析時,我們是將測序(xu)reads與參(can)考(kao)基(ji)(ji)因(yin)(yin)(yin)(yin)組(zu)(zu)進(jin)(jin)行(xing)比對(dui),根(gen)據(ju)(ju)比對(dui)結果進(jin)(jin)行(xing)基(ji)(ji)因(yin)(yin)(yin)(yin)定量(liang)分析,進(jin)(jin)而進(jin)(jin)行(xing)差異分析的。從分析方法就可以(yi)發現,有參(can)轉(zhuan)錄組(zu)(zu)的基(ji)(ji)因(yin)(yin)(yin)(yin)信息來自參(can)考(kao)基(ji)(ji)因(yin)(yin)(yin)(yin)組(zu)(zu),因(yin)(yin)(yin)(yin)此基(ji)(ji)因(yin)(yin)(yin)(yin)序(xu)列(lie)也是來自對(dui)應的數據(ju)(ju)庫。
那么(me),我們(men)如何從數據(ju)庫中查(cha)找目標(biao)基因序列呢?我們(men)整理了(le)最常規的(de)兩大數據(ju)庫:Ensembl和NCBI的(de)基因序列查(cha)找方法,如果您的(de)基因組也是來自這兩個數據(ju)庫,可點擊(ji)查(cha)看
2、無參轉錄組
無參考基(ji)(ji)因(yin)組(zu)的轉錄組(zu)項目(mu)在(zai)進行分(fen)析時,我們首先要基(ji)(ji)于測序結果(guo)拼接出一個(ge)“基(ji)(ji)因(yin)集”,并對其(qi)進行注釋,再(zai)將測序reads比對到(dao)這(zhe)個(ge)基(ji)(ji)因(yin)集上,進而進行表(biao)達(da)量分(fen)析和表(biao)達(da)差異分(fen)析。
具體而言,我們首先利用Trinity軟件對高質量的測序reads進行從頭拼接,得到轉錄本序列,再對轉錄本進行聚類,挑選最長的轉錄本作為Unigene。Unigene的序列存放路徑:\report\result\1_RNASeq_Pretreat\Assembly
另(ling)外(wai),對(dui)于(yu)Unigene序列,我(wo)們使(shi)用Transdecoder軟件對(dui)其進(jin)行ORF(開(kai)放閱(yue)讀框)預測,從(cong)而得(de)到CDS和蛋白序列,存(cun)放路徑:\report\result\6_Structure\ORF
3、LncRNA
LncRNA為片(pian)段(duan)長度大于(yu)(yu)200nt的(de)長鏈非(fei)編碼(ma)RNA。分析(xi)時,我(wo)們用(yong)Stringtie軟(ruan)(ruan)件利用(yong)Hisat2的(de)比對結果來組裝(zhuang)轉(zhuan)(zhuan)錄本(ben),在將鏈方向(xiang)不(bu)確定(ding)的(de)轉(zhuan)(zhuan)錄本(ben)去除之(zhi)后(hou),在剩(sheng)下的(de)組裝(zhuang)轉(zhuan)(zhuan)錄本(ben)集合中(zhong)進行LncRNA的(de)篩(shai)選(xuan),獲得候選(xuan)LncRNA。然后(hou)我(wo)們利用(yong)三種(zhong)軟(ruan)(ruan)件:PLEK、CNCI、Pfamscan,對這些候選(xuan)LncRNA進行編碼(ma)潛能(neng)預測,三種(zhong)軟(ruan)(ruan)件均判定(ding)為沒有編碼(ma)潛能(neng)的(de)新轉(zhuan)(zhuan)錄本(ben)是高可信度LncRNA,可用(yong)于(yu)(yu)后(hou)續(xu)分析(xi)。
LncRNA序列存放路徑:\report\result\LncRNA\1_Novel_LncRNA
4、CircRNA
CircRNA是一類特殊(shu)的(de)(de)非(fei)編碼RNA分(fen)子,與傳統的(de)(de)線性(xing)RNA(linear RNA,含5’和3’末端(duan))不同,CircRNA分(fen)子呈封閉環狀結構,其首尾相(xiang)連的(de)(de)“接頭”位置的(de)(de)序(xu)列由于來自相(xiang)隔(ge)較(jiao)遠(yuan)的(de)(de)外顯子區域,直接比對基(ji)因(yin)組(zu)時(shi)(shi)存在大片段(duan)的(de)(de)缺口(kou)。利(li)用這一特點,我們鑒定(ding)CircRNA時(shi)(shi)首先篩選未比對上(shang)(shang)參考(kao)基(ji)因(yin)組(zu)的(de)(de)測序(xu)reads,再截取(qu)兩端(duan)20bp作為Anchors序(xu)列再次(ci)比對到基(ji)因(yin)組(zu)上(shang)(shang),用于檢測CircRNA。
CircRNA序(xu)列存放路徑:\report\result\CircRNA\1_CircRNA_Prediction
5、miRNA
miRNA是一類長度在18-36nt之間(jian)的短鏈非(fei)編碼RNA,由于(yu)其序列較短,我們對它的獲取與(yu)鑒定是一般是基于(yu)一些(xie)miRNA數(shu)據庫,如miRBase進行的。
miRBase (//www.mirbase.org/)是由曼徹斯特大(da)學的(de)研究人(ren)員開發的(de)一個在線的(de)miRNA數(shu)據庫(ku),該數(shu)據庫(ku)中(zhong)收錄了來自200多個物種(zhong)、接近4萬個miRNA的(de)信息,是最全(quan)面的(de)miRNA數(shu)據庫(ku)。
對(dui)于(yu)被miRBase收錄的物(wu)(wu)種(zhong),我們分析時會下載(zai)該物(wu)(wu)種(zhong)miRNA的前體和成熟體序列(lie),然后(hou)將去重后(hou)的測(ce)序reads與其進行比對(dui),從(cong)(cong)而(er)對(dui)測(ce)到的miRNA進行注釋。對(dui)于(yu)這種(zhong)miRNA測(ce)序項目,最簡單(dan)的獲(huo)取序列(lie)方式就是從(cong)(cong)miRBase中下載(zai)所(suo)有(you)物(wu)(wu)種(zhong)的miRNA序列(lie),從(cong)(cong)中搜索目標miRNA的ID即可:
對于未被miRBase收(shou)錄(lu)的物(wu)種,我們將去重后的測序(xu)(xu)reads與數據庫中(zhong)所有(you)動物(wu)(或植物(wu))的成熟miRNA序(xu)(xu)列進行比對,從中(zhong)篩(shai)選保(bao)守miRNA。
得到的保守miRNA序列(lie)存放(fang)路徑:\Results\03_Annotation\miRNA
看(kan)到(dao)這(zhe)(zhe)里各位可能已經發現了,無(wu)論是哪一種RNA,似乎所有(you)的序(xu)列文件(jian)都是以.fasta或.fa為后(hou)綴的,這(zhe)(zhe)是什么格式(shi)呢?我們應(ying)該(gai)用(yong)什么軟件(jian)打(da)開呢?
在生物信息學中,FASTA格式(又稱為Pearson格式),是一種基于文本用于表示核苷酸序列或氨基酸序列的格式,可用文本編輯軟件打開,如UltraEdit 、EditPlus等軟件,系統自帶的記事本(txt)工具也可以。然后利用搜索功能查找序列ID,就可以輕松找到對應的序列啦!
Ediplus搜索(suo)界面
記事本搜索界(jie)面