2019-01-10
轉錄組測序(RNA-Seq)作為研究基因表達的(de)(de)(de)(de)(de)利器(qi),是(shi)發(fa)掘基因功能(neng)的(de)(de)(de)(de)(de)重要(yao)途徑。隨著RNA-Seq技術的(de)(de)(de)(de)(de)普及,那(nei)么問題來了,很多不了解RNA-Seq的(de)(de)(de)(de)(de)小伙伴,在點開結題報告(gao)的(de)(de)(de)(de)(de)一(yi)瞬間,是(shi)不是(shi)滿腦子的(de)(de)(de)(de)(de)問號,不知所措呢(ni)?
沒(mei)關系!我們懂你!不(bu)了(le)解RNA-Seq?不(bu)會看結題報告?莫(mo)慌,我們來給(gei)大家理頭緒、劃重(zhong)點!
首先(xian),可將整個結題報告分(fen)成四個主要模塊。
圖 1 轉錄組測(ce)序結題(ti)報(bao)告(gao)主要模塊(kuai)
差(cha)異基因的(de)(de)鑒定與功(gong)能富集分(fen)析是構成(cheng)轉(zhuan)錄(lu)組文(wen)章的(de)(de)主體,數據挖掘與分(fen)析也是基于這(zhe)兩個(ge)模塊進行,是結題報告的(de)(de)重心(xin)。接(jie)下來詳細告訴大(da)家每(mei)個(ge)模塊需要(yao)關(guan)注的(de)(de)重點內容。
原始數據整理與(yu)質量評估(gu)
數據量(liang)的(de)大小與(yu)測序(xu)質量(liang)的(de)好(hao)壞是評(ping)判測序(xu)數據可靠(kao)性(xing)的(de)重(zhong)要標準(zhun)。
? 數據量
一般用Bases或Raw data表示,對于絕大部分物種來(lai)說,轉錄組測(ce)序6G數據量即可,若想(xiang)獲得更多(duo)低豐度基(ji)因的信息,可適(shi)當增加測(ce)序數據量。
? 數據質量
主要(yao)包括堿(jian)(jian)(jian)基(ji)(ji)(ji)(ji)質量與堿(jian)(jian)(jian)基(ji)(ji)(ji)(ji)含(han)(han)(han)量。Illumina官方的堿(jian)(jian)(jian)基(ji)(ji)(ji)(ji)質量評價標準一(yi)(yi)般(ban)為Q30(即(ji)堿(jian)(jian)(jian)基(ji)(ji)(ji)(ji)錯誤識別率為0.1%),Q30的值越大越好,一(yi)(yi)般(ban)不能低于80%。堿(jian)(jian)(jian)基(ji)(ji)(ji)(ji)含(han)(han)(han)量即(ji)ATGC四種堿(jian)(jian)(jian)基(ji)(ji)(ji)(ji)所(suo)占的比(bi)例,除了前幾個堿(jian)(jian)(jian)基(ji)(ji)(ji)(ji)位置之(zhi)外,4種堿(jian)(jian)(jian)基(ji)(ji)(ji)(ji)的含(han)(han)(han)量線條(tiao)應平行且接(jie)近。
圖 2 測序質(zhi)量評估(gu)
差異(yi)基(ji)因表達鑒定
看(kan)基因的表達量(liang)與鑒定差異基因是做轉錄組測序的主要目的,生(sheng)物學(xue)重(zhong)復之(zhi)間的相關性高低與差異基因鑒定的準確(que)性息(xi)息(xi)相關。
? 樣品相關性檢驗
一(yi)般以(yi)矩陣(zhen)圖(tu)與PCA分(fen)析圖(tu)展示(shi)。在矩陣(zhen)圖(tu)中基因表達相(xiang)近的樣品(pin)會被聚到一(yi)起,生物學重復間相(xiang)關系數越(yue)高越(yue)好,低于(yu)0.8表示(shi)相(xiang)關性(xing)較差。PCA分(fen)析圖(tu)更加直觀,可以(yi)把基因表達相(xiang)關性(xing)好的樣品(pin)展示(shi)到一(yi)起。
圖(tu)3 樣(yang)品(pin)相關性檢(jian)驗
? 差異表達基因的鑒定
在這里可以看到各個處理組與對照組之間基因的上、下調表達的信息。從中查找所關注基因的表達情況。顯著差異基因判定標準:|log2 Foldchange|>1;P value < 0.05。若差異基因數目太多或太少,可以適當調整閾值范圍,不過P value值要嚴格小于0.05才有意義哦!
圖 4 差異基因鑒(jian)定
? 基因表達量聚類分析
樣(yang)品(pin)間表(biao)達量相關性(xing)高的基(ji)因(yin)會被(bei)歸(gui)為一類,這些基(ji)因(yin)通常(chang)在(zai)某些生(sheng)物過程、某個(ge)代(dai)謝或(huo)信(xin)號通路存在(zai)實際的聯系(xi)。
圖 5 差異基因heatmap圖
差異基因(yin)功能富(fu)集
功(gong)能富集(ji)分析將差異基因進行(xing)功(gong)能富集(ji)分類,找到顯(xian)著富集(ji)的功(gong)能類與通路(lu),研究與生物學現象的關聯。
? GO(Gene Ontology)數據庫將功(gong)(gong)能(neng)基因(yin)定義為(wei)(wei)三(san)大類:分(fen)子(zi)功(gong)(gong)能(neng)(Molecular Function),生物(wu)過程(biological process)和細(xi)胞組件(cellular component)。每個大類下(xia)的(de)基本單(dan)元為(wei)(wei)GO terms。通過P value< 0.05篩選(xuan)出差(cha)異基因(yin)顯著富集(ji)的(de)terms,以期獲(huo)得(de)差(cha)異基因(yin)的(de)功(gong)(gong)能(neng)與生物(wu)學現象之間的(de)聯系。
圖 6 GO功能富集分析
? KEGG(Kyoto Encyclopedia of Genes and Genomes)數據(ju)庫是系統分析基因(yin)(yin)(yin)產物(wu)(wu)在細胞中(zhong)的(de)代謝途(tu)徑以(yi)及這些基因(yin)(yin)(yin)產物(wu)(wu)功能的(de)數據(ju)庫,有助于把基因(yin)(yin)(yin)及表(biao)達信息作為(wei)一(yi)個整體的(de)網(wang)絡進行研究。用P <0.05篩選出顯著富集的(de)通路,進而查找與研究相關的(de)生物(wu)(wu)學途(tu)徑。在代謝通路圖中(zhong),差異基因(yin)(yin)(yin)映射的(de)位置會用彩色(se)標示出來(紅色(se):上(shang)調(diao)基因(yin)(yin)(yin);綠(lv)色(se):下調(diao)基因(yin)(yin)(yin);紫(zi)色(se):上(shang)調(diao)+下調(diao)基因(yin)(yin)(yin))。
圖 7 KEGG代謝通路富集分析
基因結(jie)構分析
二代測序由于測序讀長(chang)較短,因(yin)此重(zhong)點(dian)關注基(ji)(ji)因(yin)的表達量,結構分析(xi)為輔助分析(xi),若要(yao)重(zhong)點(dian)研究基(ji)(ji)因(yin)的結構信息,需要(yao)三代全長(chang)轉錄(lu)組測序哦~
以有參轉錄組(zu)為例,結(jie)構分(fen)析(xi)包括(kuo)新轉錄位點分(fen)析(xi)、UTR(非翻譯區)優化、AS(可變(bian)剪切)、SNP(單核苷酸多態性)與InDel(插入或(huo)缺失)分(fen)析(xi)等。
? 新轉錄本位點分析
同一個基(ji)(ji)因(yin)由于剪切形式的(de)(de)不同,會形成多種轉(zhuan)錄本(ben)(ben),以基(ji)(ji)因(yin)組為參考,對基(ji)(ji)因(yin)的(de)(de)已知與未知的(de)(de)轉(zhuan)錄本(ben)(ben)進行統計,基(ji)(ji)因(yin)的(de)(de)表(biao)達(da)量與不同轉(zhuan)錄本(ben)(ben)的(de)(de)表(biao)達(da)量有關。
? UTR分析
將(jiang) CDS 上下游的 Reads 覆蓋區域(yu)作為(wei)候選 UTR 。與已有的 UTR 注(zhu)釋(shi)(shi)信(xin)息(xi)比較(jiao),新(xin)發現的 UTR 可以優(you)化基(ji)(ji)因結構,完善基(ji)(ji)因注(zhu)釋(shi)(shi)信(xin)息(xi)。
? AS分析
同一(yi)個基因(yin)存在不(bu)(bu)同的(de)(de)(de)剪切模式,極(ji)大的(de)(de)(de)增加了編碼基因(yin)的(de)(de)(de)能力和(he)容量。對(dui)可(ke)變剪切事件的(de)(de)(de)類型與數量進(jin)行統計(ji)。不(bu)(bu)同的(de)(de)(de)剪切方式可(ke)使同一(yi)個基因(yin)可(ke)以產生多個不(bu)(bu)同的(de)(de)(de)成熟mRNA, 最終(zhong)產生不(bu)(bu)同的(de)(de)(de)蛋白質。
? SNP與InDel分析
前者為(wei)堿基(ji)的(de)變(bian)異(yi)(yi),后者為(wei)堿基(ji)的(de)插入或丟失,都屬于遺傳變(bian)異(yi)(yi),不同的(de)基(ji)因分型,可以用來開發(fa)遺傳標記。
圖 8 轉錄本結構分析
希望此文可(ke)以幫助(zhu)更多剛開始接觸(chu)轉(zhuan)錄(lu)組測序的(de)(de)小(xiao)伙伴快速入手轉(zhuan)錄(lu)組數據的(de)(de)分析。有(you)任(ren)何疑問(wen)都可(ke)以聯系(xi)我們哦,派森諾(nuo)竭誠(cheng)為您服務!