2024-09-03
組(zu)學(xue)(xue)產品(pin)千(qian)千(qian)萬(wan),而分析往(wang)往(wang)只(zhi)在“異(yi)”念之(zhi)間(jian)。對于轉錄組(zu)來說,就(jiu)是(shi)通過(guo)組(zu)間(jian)比(bi)較,篩選出(chu)既有統計學(xue)(xue)意義(yi)又存在重(zhong)要的生(sheng)物學(xue)(xue)意義(yi)的差異(yi)基因集,結合研究者的實驗設計進一步(bu)推測該(gai)生(sheng)命現象(xiang)出(chu)現的分子機理(li)與調控網絡。 發表刊物中常見的(de)篩選差異基因的(de)參(can)數一(yi)般為兩個,即差異倍數|log2FoldChange|>1和(he)顯著性(xing)P-value<0.05,下面小派(pai)會(hui)根據公司的(de)數據示(shi)例對差異基因的(de)篩選以及(ji)展(zhan)示(shi)方式做(zuo)一(yi)些必(bi)要的(de)說明。
差異倍數-FC值 在我(wo)們(men)日常(chang)(chang)生活(huo)中對于(yu)數量(liang)之(zhi)(zhi)(zhi)間(jian)(jian)的(de)變(bian)(bian)化與差(cha)異的(de)描述通常(chang)(chang)會有“差(cha)了一倍”,“多了一倍”,“是(shi)(shi)之(zhi)(zhi)(zhi)前的(de)兩倍”等等,但是(shi)(shi)在科學研究(jiu)中我(wo)們(men)往(wang)往(wang)依(yi)賴于(yu)數學這門語言對其進行(xing)精準地表(biao)述,而最直(zhi)觀的(de)參數便是(shi)(shi)計算比較量(liang)之(zhi)(zhi)(zhi)間(jian)(jian)的(de)FC(Fold Change)值(zhi)。對于(yu)轉錄(lu)組(zu)學來說,便是(shi)(shi)計算兩組(zu)樣(yang)本之(zhi)(zhi)(zhi)間(jian)(jian)基因表(biao)達量(liang)之(zhi)(zhi)(zhi)間(jian)(jian)的(de)比值(zhi)(FC=A/B)0,通過量(liang)化差(cha)異變(bian)(bian)化,來鑒(jian)定出受到實(shi)驗條件顯著影響的(de)候(hou)選(xuan)功(gong)能基因集。 一般來說,默認變(bian)化(hua)(hua)倍數在2倍以(yi)上,即FC≥2或者FC≤0.5作為(wei)差異(yi)變(bian)化(hua)(hua)顯(xian)著與否的(de)(de)閾值(zhi),為(wei)了更好地展示變(bian)化(hua)(hua)的(de)(de)趨勢(shi)與程度,往往會對FC值(zhi)進一步(bu)取log2:當(dang)-1<log2FC<1,則變(bian)化(hua)(hua)被(bei)定義為(wei)差異(yi)不顯(xian)著;而(er)當(dang)|log2FC|≥1時,則被(bei)認定為(wei)顯(xian)著差異(yi)。
顯著性檢驗-p值 現(xian)代生命(ming)科學(xue)(xue)的(de)快速發(fa)展,除(chu)了(le)依賴于(yu)(yu)檢(jian)測工具與(yu)實(shi)驗體系的(de)開(kai)發(fa),還得力于(yu)(yu)統計學(xue)(xue)與(yu)數學(xue)(xue)工具地在其中的(de)有效應用,最(zui)典(dian)型的(de)莫(mo)過于(yu)(yu)各種檢(jian)驗方法以(yi)規避掉看(kan)似顯著但實(shi)則(ze)是由于(yu)(yu)誤差(cha)(cha)造成的(de)干擾,這也就是在p值在我們篩(shai)選差(cha)(cha)異顯著基因集時的(de)重(zhong)要意(yi)義(yi)。一(yi)般來講,p值越小,則(ze)認為基因表達的(de)差(cha)(cha)異所受到的(de)隨(sui)機誤差(cha)(cha)越小,更可能是由于(yu)(yu)研究者(zhe)本身所設(she)計的(de)實(shi)驗條件引起的(de)表達差(cha)(cha)異。 綜上所述,那些(xie)在(zai)比(bi)較組之間,|log2FC|≥1且p<0.05的基因往往被認作顯著差(cha)異(yi)基因。 差異表達結(jie)果統(tong)計 以上的(de)(de)(de)信息會(hui)全部囊括在(zai)我(wo)們拿(na)到(dao)一張基因差異表(biao)達(da)(da)的(de)(de)(de)總表(biao)中,這里會(hui)對(dui)(dui)所檢測(ce)到(dao)的(de)(de)(de)基因在(zai)各個(ge)樣(yang)本組中的(de)(de)(de)表(biao)達(da)(da)豐度,以及(ji)(ji)在(zai)各個(ge)比較(jiao)組別中的(de)(de)(de)FC值,log2FC,相應的(de)(de)(de)p值進行匯總展示。但是,在(zai)文章發表(biao)時,我(wo)們對(dui)(dui)于自己(ji)數據的(de)(de)(de)展示往往會(hui)與(yu)Jobs創造(zao)時iphone的(de)(de)(de)理念不謀而(er)合,即優(you)雅,簡(jian)約,直觀(guan)。下面(mian),我(wo)們通過幾個(ge)實例對(dui)(dui)差異顯著基因的(de)(de)(de)可視(shi)化分析(xi)方法以及(ji)(ji)FC值/log2FC值,p值在(zai)圖中如何體現進行較(jiao)為詳(xiang)細(xi)的(de)(de)(de)說明(ming)。 表(biao)1. 差異表(biao)達結(jie)果統計 火山圖 火(huo)山圖是(shi)最常見的(de)差(cha)異(yi)基因的(de)展示形式,其(qi)橫坐標一般(ban)為log2FC,縱坐標為-log2p-value,另外在(zai)圖中(zhong)(zhong)還會(hui)分(fen)別有FC閾值(zhi)分(fen)割(ge)線(xian)和p值(zhi)閾值(zhi)分(fen)割(ge)線(xian)作為輔(fu)助(zhu)線(xian),這(zhe)樣會(hui)分(fen)別分(fen)割(ge)出兩個顯著差(cha)異(yi)的(de)區域(yu)(yu),落在(zai)這(zhe)兩個區域(yu)(yu)中(zhong)(zhong)的(de)基因一般(ban)就(jiu)是(shi)后續關注的(de)候(hou)選基因。 圖1. 差(cha)異表達基因的火山圖 柱狀圖 火山(shan)圖能夠很好地展(zhan)示差(cha)異(yi)基因(yin)的整體情況,但是對于每個(ge)比較(jiao)組之間的上(shang)調或者下調差(cha)異(yi)基因(yin)的數目往(wang)往(wang)會用柱狀(zhuang)圖進行展(zhan)示: 圖(tu)2. 差異表達基(ji)因的柱狀圖(tu) 聚類熱圖與趨勢(shi)圖 在(zai)(zai)(zai)獲得差異基(ji)因(yin)總(zong)集之后(hou),我(wo)們可(ke)以(yi)進一(yi)步使用R語(yu)言Pheatmap軟件包對差異基(ji)因(yin)在(zai)(zai)(zai)各(ge)個(ge)樣品組(zu)中(zhong)(zhong)(zhong)的表(biao)(biao)達(da)(da)(da)情況(kuang)進行聚(ju)(ju)類分析,以(yi)明確(que)差異基(ji)因(yin)在(zai)(zai)(zai)各(ge)個(ge)中(zhong)(zhong)(zhong)的表(biao)(biao)達(da)(da)(da)趨(qu)勢(shi),如圖所示:總(zong)體(ti)來說,差異基(ji)因(yin)在(zai)(zai)(zai)A,B,C三(san)個(ge)組(zu)別中(zhong)(zhong)(zhong)的表(biao)(biao)達(da)(da)(da)模(mo)式可(ke)以(yi)聚(ju)(ju)得兩類;模(mo)塊(kuai)1整體(ti)上呈(cheng)現出(chu)(chu)在(zai)(zai)(zai)A組(zu)與B組(zu)中(zhong)(zhong)(zhong)為(wei)低豐度表(biao)(biao)達(da)(da)(da),而在(zai)(zai)(zai)C組(zu)中(zhong)(zhong)(zhong)為(wei)高(gao)豐度表(biao)(biao)達(da)(da)(da);模(mo)塊(kuai)2則呈(cheng)現出(chu)(chu)相(xiang)(xiang)反的趨(qu)勢(shi),即(ji)在(zai)(zai)(zai)A組(zu)與B組(zu)中(zhong)(zhong)(zhong)呈(cheng)現出(chu)(chu)高(gao)豐度表(biao)(biao)達(da)(da)(da),而在(zai)(zai)(zai)C組(zu)中(zhong)(zhong)(zhong)的表(biao)(biao)達(da)(da)(da)量相(xiang)(xiang)對較(jiao)低。另外,聚(ju)(ju)類分析中(zhong)(zhong)(zhong)的表(biao)(biao)達(da)(da)(da)模(mo)式可(ke)以(yi)結(jie)合表(biao)(biao)達(da)(da)(da)趨(qu)勢(shi)圖來進一(yi)步展(zhan)示。 圖3. 差異表達(da)基(ji)因(yin)的(de)聚類熱圖和(he)表達(da)趨勢圖 花瓣圖/Venn圖 當我(wo)們(men)想進一(yi)步明(ming)確比較(jiao)組別(bie)之間(jian)各自特有和(he)彼此共有的(de)差異(yi)基因的(de)情況時,我(wo)們(men)一(yi)般(ban)是通過(guo)Venn圖來(lai)呈(cheng)現(xian),這(zhe)將(jiang)有助于我(wo)們(men)探索不同實驗(yan)條件或者樣品(pin)類型背后機制的(de)共通性(xing)與特異(yi)性(xing)。另外,當涉及的(de)比較(jiao)組別(bie)較(jiao)多時,也是通過(guo)Upset圖來(lai)進行展(zhan)示。 圖4. 差異表達基因的Venn圖和(he)upset圖
以上(shang)便是小派(pai)今(jin)日(ri)的分享(xiang),希望能夠幫助大家在(zai)今(jin)后的轉錄(lu)組學分析時(shi),能更明(ming)確差顯基(ji)因的篩選標(biao)準以及展示方(fang)式,最終在(zai)自己心儀的期刊中(zhong)簡(jian)約,優雅且(qie)明(ming)了地呈現成果!