2020-07-06
轉錄組作為研(yan)究(jiu)分子機(ji)制最常用的科研(yan)手段(duan),幾(ji)乎每個(ge)科研(yan)工作者都會與它有那(nei)么一兩段(duan)緣分,今天就帶(dai)大家一起來通過圖說的形式,了解(jie)下轉錄組結果中的重(zhong)點分析(xi)內容,閑話不多說,上干貨!
圖說一、生物學(xue)重復平行性檢驗-相(xiang)關性分析熱(re)圖(tu)+PCA圖(tu) 轉錄組(zu)測序目(mu)前普遍(bian)要(yao)求進(jin)(jin)行(xing)檢(jian)測的(de)每個組(zu)別(bie),是少(shao)需要(yao)三個生物(wu)學重(zhong)復,以保(bao)證結(jie)果(guo)的(de)科(ke)學性(xing)。生物(wu)學重(zhong)復的(de)平行(xing)性(xing)越好(hao),重(zhong)復作為一(yi)(yi)個組(zu)呈(cheng)現時,分析的(de)結(jie)果(guo)越可(ke)靠,因此(ci),在進(jin)(jin)行(xing)組(zu)別(bie)之(zhi)間的(de)差異(yi)分析時,先進(jin)(jin)行(xing)生物(wu)學重(zhong)復的(de)平行(xing)性(xing)檢(jian)驗尤為重(zhong)要(yao)。一(yi)(yi)般可(ke)以通過樣(yang)本(ben)的(de)相關(guan)性(xing)分析和PCA分析結(jie)果(guo)來查看樣(yang)本(ben)間的(de)相似(si)性(xing)。 1、樣本相關性分析 用(yong)皮爾遜相(xiang)(xiang)(xiang)關(guan)系數(shu)表(biao)(biao)示(shi)樣(yang)品(pin)間(jian)基因的表(biao)(biao)達水平相(xiang)(xiang)(xiang)關(guan)性,相(xiang)(xiang)(xiang)關(guan)系數(shu)越接近1,表(biao)(biao)明樣(yang)品(pin)間(jian)表(biao)(biao)達模(mo)式越相(xiang)(xiang)(xiang)似。組內(nei)重(zhong)復間(jian)的相(xiang)(xiang)(xiang)關(guan)性較低時,表(biao)(biao)明有離(li)群(qun)樣(yang)本,可根據需要剔除離(li)群(qun)樣(yang)本; 2、PCA主成(cheng)分(fen)分(fen)析 通(tong)過線性(xing)變換,降維分(fen)析(xi)以降低數據復雜度。PCA分(fen)析(xi)把相似(si)的樣(yang)本(ben)(ben)(ben)聚到一起,距離(li)越近表明樣(yang)本(ben)(ben)(ben)間相似(si)性(xing)越高。有離(li)群(qun)樣(yang)本(ben)(ben)(ben)出現時,該樣(yang)本(ben)(ben)(ben)會偏離(li)組群(qun),可根據需要剔除離(li)群(qun)樣(yang)本(ben)(ben)(ben); TIPS 建議(yi)盡量增加生物學(xue)重復的個(ge)數,保(bao)證剔除離群樣(yang)本后,每(mei)組仍有至少3個(ge)重復。 圖說二(er)、表達差(cha)異分析-火(huo)山圖和MA圖 轉錄組主要目的是(shi)尋(xun)找(zhao)不同比較組之間的差(cha)(cha)異(yi)基因(yin),以揭(jie)示導致比較組之間不同的分(fen)子機(ji)制,因(yin)此在分(fen)析結果中,基因(yin)表(biao)達(da)差(cha)(cha)異(yi)分(fen)析是(shi)重(zhong)中之重(zhong)。 1、差異(yi)分析一(yi)(yi)般(ban)涉及兩個標準,差異(yi)倍(bei)數foldchange和p值,一(yi)(yi)般(ban)認(ren)為(wei)上(shang)(shang)調或者(zhe)下調在(zai)兩倍(bei)以(yi)上(shang)(shang),且同時p值小于0.05,才認(ren)為(wei)該基因(yin)(yin)(yin)在(zai)兩個比較組間發生了顯著的差異(yi)變化。按照這一(yi)(yi)標準篩選出來的差異(yi)基因(yin)(yin)(yin)即為(wei)轉錄組找(zhao)到的顯著差異(yi)基因(yin)(yin)(yin)集。 2、當差(cha)(cha)異基(ji)因的個數太多時,可以(yi)考慮收縮篩選標準,比如調(diao)(diao)大(da)差(cha)(cha)異倍數,調(diao)(diao)小p值范圍,若差(cha)(cha)異基(ji)因個數仍然(ran)較多,可以(yi)調(diao)(diao)整為比p值更嚴(yan)格的Padj或者(zhe)FDR來進行篩選; 3、當差(cha)異(yi)基因的(de)個數太少時(shi),可以考(kao)慮放寬篩選標準,比如(ru)調(diao)小差(cha)異(yi)倍數。 圖說(shuo)三、雙向(xiang)聚(ju)類熱圖(tu):始(shi)于聚(ju)類,不止于“聚(ju)類” 雙(shuang)向(xiang)(xiang)(xiang)聚(ju)(ju)類(lei)熱圖,顧名思義也(ye)是聚(ju)(ju)類(lei)分(fen)析的一種形式(shi)。“雙(shuang)向(xiang)(xiang)(xiang)”意指該圖的橫向(xiang)(xiang)(xiang)、縱(zong)向(xiang)(xiang)(xiang)聚(ju)(ju)類(lei)均(jun)具(ju)有統計學(xue)意義:橫向(xiang)(xiang)(xiang)為(wei)樣品(pin)間聚(ju)(ju)類(lei),可視為(wei)生物學(xue)重復的平行(xing)性檢(jian)驗;縱(zong)向(xiang)(xiang)(xiang)為(wei)基因(yin)間聚(ju)(ju)類(lei),可基于基因(yin)表達量(liang)將表達模式(shi)相似的基因(yin)歸為(wei)一類(lei)。 該(gai)分(fen)析的(de)(de)作(zuo)圖(tu)數據為經過中心化(hua)(hua)(hua)和(he)標準化(hua)(hua)(hua)的(de)(de)基(ji)因(yin)表(biao)達(da)量(fpkm),由(you)綠到紅的(de)(de)顏色漸變表(biao)示基(ji)因(yin)表(biao)達(da)量從低到高的(de)(de)變化(hua)(hua)(hua)。聚類熱(re)圖(tu)一般針對(dui)差異基(ji)因(yin)進行,借(jie)由(you)不(bu)同處理(li)間的(de)(de)紅綠色對(dui)比,可直觀展示差異基(ji)因(yin)在組間的(de)(de)上(shang)下調表(biao)達(da)情況。 在(zai)轉(zhuan)錄組文章撰寫過程(cheng)中,雙向聚類(lei)熱(re)圖(tu)一般作為生物學重復的檢驗結果,功能類(lei)似(si)樣(yang)品相關性分析和PCA分析;但由于其可通過 “撞色”來體(ti)現差異,因此(ci)(ci)熱(re)圖(tu)也可用于對(dui)目的基因進(jin)行可視(shi)化呈現,如圖(tu)2和圖(tu)3。因此(ci)(ci)我(wo)們(men)說,聚類(lei)熱(re)圖(tu)始(shi)于聚類(lei),但它的用途并不止(zhi)于“聚類(lei)”。 圖說四、趨勢分(fen)析:熱(re)圖“伴侶”,聚焦關鍵基因 趨勢(shi)分(fen)析,是基于雙向(xiang)聚類(lei)熱圖的(de)分(fen)析結(jie)果(guo),進一(yi)步根(gen)據基因表(biao)達(da)模式的(de)相似(si)性將其劃分(fen)成(cheng)不同(tong)的(de)cluster(默認(ren)(ren)分(fen)成(cheng)9個)。我們認(ren)(ren)為(wei)每一(yi)cluster內的(de)基因屬于一(yi)類(lei),更可能行使相似(si)的(de)功能。 該圖的藍色趨勢線能直觀地展示不同類型基因在樣品間的表達量變化情況,因此可以用于縮小分析范圍,聚焦關鍵基因。如,進行藥物療效的轉錄組測序分析時,可選擇在空白對照-疾病-藥物處理三組中呈現先增高后降低、或先降低后增高趨勢的cluster,重點關注該cluster內的基因功能,輔以熱圖展示或功能富集分析,有效地篩出目的基因。 圖說五、多組差(cha)異表達(da)分析比(bi)較——維恩圖和upset圖 1秒看懂維恩(en)圖,縮小(xiao)研究范(fan)圍,聚(ju)焦目(mu)標基(ji)因集 So easy!維恩(en)圖和upset圖是(shi)都基(ji)于組(zu)與(yu)組(zu)之間(jian)比較得(de)到的(de)(de)差異基(ji)因進行(xing)的(de)(de)集合(he),重疊部分(fen)即是(shi)不同處理(li)下(xia)各組(zu)樣本(ben)中被共(gong)同調(diao)(diao)控(kong)的(de)(de)基(ji)因集,單(dan)獨(du)的(de)(de)部分(fen)則(ze)是(shi)某種處理(li)下(xia)特定調(diao)(diao)控(kong)的(de)(de)基(ji)因集,基(ji)于維恩(en)圖或(huo)upset圖我們可以(yi)分(fen)別對(dui)共(gong)有或(huo)特有基(ji)因集進行(xing)深度挖掘(jue),繪(hui)制聚(ju)類(lei)熱(re)圖,觀察這些基(ji)因在(zai)樣本(ben)間(jian)的(de)(de)表(biao)達趨勢(shi);或(huo)者(zhe)進行(xing)功能(neng)富(fu)集分(fen)析以(yi)及后續的(de)(de)功能(neng)驗證實驗。 1、維恩圖(tu) 維恩(en)圖只能基于2-5個(ge)比(bi)較(jiao)組來(lai)做(zuo),6個(ge)比(bi)較(jiao)組的維恩(en)圖非常不美觀不建議做(zuo)。另外,如果小伙(huo)伴們關注(zhu)每組上(shang)調(diao)或者下(xia)調(diao)基因(yin)單獨的相交(jiao)情況而不是總的差(cha)異基因(yin)的相交(jiao),也可利(li)用在線網站//jvenn.toulouse.inra.fr/app/example.html 免費做(zuo)維恩(en)圖。 2、Upset圖(tu) 可以提(ti)供(gong)2個(ge)比較組(zu)(zu)及(ji)以上(shang)的矩陣圖,適用于(yu)6個(ge)比較組(zu)(zu)以上(shang)的情(qing)況,可以直(zhi)觀的展示不同比較組(zu)(zu)間(jian)共有(you)和特有(you)的差異(yi)基(ji)因數。 圖說六、差異表達基(ji)因(yin)功(gong)能(neng)富集分析——GO富集分析 GO(基(ji)(ji)因(yin)(yin)本(ben)體(ti)論聯合會建立的(de)(de)數(shu)據庫(ku)//geneontology.org/,Gene Ontology)是一(yi)個(ge)(ge)(ge)國(guo)際標準化的(de)(de)基(ji)(ji)因(yin)(yin)功能分類體(ti)系(xi),提供了一(yi)套(tao)動態更新的(de)(de)標準詞匯表來全(quan)面描述生物(wu)體(ti)中基(ji)(ji)因(yin)(yin)和基(ji)(ji)因(yin)(yin)產物(wu)的(de)(de)屬(shu)性(xing)。GO 涵蓋三個(ge)(ge)(ge)方(fang)面,分別描述基(ji)(ji)因(yin)(yin)的(de)(de)分子(zi)功能(Molecular Function)、細胞(bao)的(de)(de)組件作用(Cellular Component)、參與(yu)的(de)(de)生物(wu)學過程(Biological Process)。GO 的(de)(de)基(ji)(ji)本(ben)單元(yuan)是 Term,每個(ge)(ge)(ge) Term 有一(yi)個(ge)(ge)(ge)唯(wei)一(yi)的(de)(de)標示符(由(you) “GO:” 加(jia)上7個(ge)(ge)(ge)數(shu)字(zi)組成,例(li)如(ru) GO:0072669)。 老師們(men)進行數據分析時,可以通過(guo)(guo)找到對照(zhao)(zhao)組(zu)(zu)vs實驗(yan)組(zu)(zu)的差異(yi)表達(da)(da)基(ji)因顯著富集(P<0.05)在哪(na)些GO term,從而(er)確定差異(yi)基(ji)因行使的主要生(sheng)物學功能;或(huo)通過(guo)(guo)查找關注(zhu)的GO term,獲得該(gai)條term上與對照(zhao)(zhao)組(zu)(zu)相比(bi)處理組(zu)(zu)中有(you)哪(na)些基(ji)因的表達(da)(da)有(you)顯著差異(yi)。 在轉錄組分析中,我(wo)們繪(hui)制(zhi)了柱形圖、氣泡圖和(he)有向無環圖,用于更好的展示差異基(ji)因(yin)GO富集分析的結果: 圖說(shuo)七、差異表達(da)基因(yin)功能富(fu)集(ji)分析——KEGG富(fu)集(ji)分析 如何將得的(de)差異基因與代謝(xie)(xie)通(tong)(tong)(tong)路聯系(xi)起來?KEGG富(fu)集(ji)分(fen)(fen)析(xi)(xi)幫你輕松搞定(ding)。KEGG(Kyoto Encyclopedia of Genes and Genomes,//geneontology.org/)是一(yi)個整合了(le)基因組(zu)、化(hua)學和系(xi)統功能信息(xi)的(de)數據庫,其中KEGG PATHWAY是其核(he)心數據庫之一(yi)。通(tong)(tong)(tong)過對(dui)差異基因進行(xing)KEGG通(tong)(tong)(tong)路富(fu)集(ji)分(fen)(fen)析(xi)(xi),可以了(le)解差異基因富(fu)集(ji)的(de)代謝(xie)(xie)通(tong)(tong)(tong)路,從而在(zai)代謝(xie)(xie)通(tong)(tong)(tong)路水平闡明(ming)樣本間的(de)差異。在(zai)轉(zhuan)錄組(zu)分(fen)(fen)析(xi)(xi)中,通(tong)(tong)(tong)過柱狀圖(tu)、氣泡(pao)圖(tu)和KO分(fen)(fen)析(xi)(xi)來全方位展(zhan)示這部分(fen)(fen)的(de)結果。 1、柱(zhu)狀圖&氣泡(pao)圖 根(gen)據p值由(you)小(xiao)到大進(jin)行排(pai)序,對前30個(ge)差(cha)異表達基因富(fu)集最顯(xian)著的(de)KEGG pathway使用柱狀圖(tu)進(jin)行展(zhan)示(shi),氣(qi)泡圖(tu)則展(zhan)示(shi)差(cha)異富(fu)集最顯(xian)著的(de)前20個(ge)KEGG pathway。 2、KO分析 通過KO分析,就可以直(zhi)接(jie)在關注的代謝(xie)通路上(shang),更直(zhi)觀的看(kan)到實驗組(zu)和對(dui)照組(zu)差異基因表達的情況(kuang)。 圖說八、蛋白互作網絡分析(xi) 蛋(dan)白(bai)互(hu)作(zuo)網絡分析(xi)簡稱(cheng)PPI分析(xi),是揭(jie)示(shi)基(ji)因之間互(hu)作(zuo)關系(xi)的(de)分析(xi)。分析(xi)使用STRING 數(shu)據(ju)(ju)(ju)庫進行互(hu)作(zuo)關系(xi)的(de)預測。STRING 數(shu)據(ju)(ju)(ju)庫(Search3 Tool for the Retrieval of Interacting Genes/Proteins)是EMBL開發的(de)蛋(dan)白(bai)質(zhi)(zhi)互(hu)作(zuo)數(shu)據(ju)(ju)(ju)庫,//string-db.org/cgi/input.pl,該數(shu)據(ju)(ju)(ju)庫從最有力(li)的(de)實驗證據(ju)(ju)(ju)到數(shu)據(ju)(ju)(ju)挖(wa)掘、同源(yuan)預測的(de)蛋(dan)白(bai)質(zhi)(zhi)互(hu)作(zuo)關系(xi)都有收錄(lu)。 PPI分析可以對目(mu)標基(ji)因集進行互(hu)作關(guan)系的探索,從基(ji)因集中篩選關(guan)鍵基(ji)因,進一步縮小目(mu)標的范(fan)圍,是數(shu)據挖(wa)掘的重要(yao)組成。