2021-05-07
代謝組(zu)學研究中,差(cha)異代謝物的(de)(de)篩選是數(shu)(shu)據分(fen)析(xi)(xi)重要的(de)(de)一環,但(dan)由于代謝組(zu)數(shu)(shu)據具有多(duo)維(wei)且某(mou)些變量(liang)間高度相關的(de)(de)特點,所以(yi)(yi)分(fen)析(xi)(xi)方法有很多(duo),如差(cha)異倍數(shu)(shu)分(fen)析(xi)(xi)、T 檢(jian)驗(yan)、PCA、PLS-DA以(yi)(yi)及(ji)OPLS-DA分(fen)析(xi)(xi)等。
下面,小(xiao)編就為大家一(yi)一(yi)解(jie)答:
1. 代(dai)謝組學(xue)常用的顯著性檢驗方法:
p值是一(yi)個(ge)概率,反映某一(yi)事件發生(sheng)的可能性(xing)大小,用于(yu)區(qu)分該變量(liang)是否具(ju)有統計(ji)顯著(zhu)性(xing),通(tong)常認為(wei)p<0.05具(ju)有統計(ji)學意(yi)義。常用的檢驗(yan)方(fang)法有t-test、方(fang)差(cha)(cha)分析(Analysis of Variance, ANOVA)。t檢驗(yan)一(yi)般適用于(yu)兩組差(cha)(cha)異比較,在(zai)多維的情況下就要用到ANOVA方(fang)差(cha)(cha)分析。
(圖(tu)片來源于網絡,侵刪)
2. 單變量(liang)分析(xi)(xi)方法-差異倍數(shu)分析(xi)(xi)在(zai)代謝組學兩兩比較(jiao)中是較(jiao)為常見的,但多組比較(jiao)為什么沒(mei)有呢?
差異倍(bei)(bei)數(shu)(Fold Change,簡稱(cheng)FC值)分析即(ji)根據(ju)代(dai)(dai)謝(xie)(xie)物的(de)(de)(de)相(xiang)對定量(liang)(liang)或絕對定量(liang)(liang)結果,計算某個(ge)代(dai)(dai)謝(xie)(xie)物在兩(liang)組(zu)(zu)間表達(da)量(liang)(liang)的(de)(de)(de)差異。差異倍(bei)(bei)數(shu)作為(wei)(wei)(wei)上下調(diao)(diao)的(de)(de)(de)一(yi)個(ge)標(biao)(biao)準(zhun),假設比(bi)較(jiao)組(zu)(zu)為(wei)(wei)(wei)AvsB,計算方式為(wei)(wei)(wei):FC=B/A,FC大于(yu)1為(wei)(wei)(wei)上調(diao)(diao),小于(yu)1為(wei)(wei)(wei)下調(diao)(diao)(這個(ge)標(biao)(biao)準(zhun)不(bu)是(shi)(shi)固定的(de)(de)(de),也可以設置(zhi)的(de)(de)(de)更為(wei)(wei)(wei)嚴格一(yi)點(dian),比(bi)如調(diao)(diao)整為(wei)(wei)(wei)1.2倍(bei)(bei)、1.5倍(bei)(bei)或者(zhe)(zhe)2倍(bei)(bei),這三種閾值在代(dai)(dai)謝(xie)(xie)組(zu)(zu)研究相(xiang)關文(wen)章(zhang)中是(shi)(shi)較(jiao)為(wei)(wei)(wei)常(chang)見的(de)(de)(de))。我們說(shuo)上下調(diao)(diao),一(yi)般都是(shi)(shi)指和某一(yi)組(zu)(zu)相(xiang)比(bi),另一(yi)組(zu)(zu)上調(diao)(diao)或者(zhe)(zhe)下調(diao)(diao),三組(zu)(zu)或者(zhe)(zhe)多組(zu)(zu)的(de)(de)(de)時候是(shi)(shi)無(wu)法定義和哪組(zu)(zu)相(xiang)比(bi)其他幾組(zu)(zu)高或者(zhe)(zhe)低的(de)(de)(de),因此差異倍(bei)(bei)數(shu)是(shi)(shi)在兩(liang)兩(liang)比(bi)較(jiao)中產生的(de)(de)(de)。
3. 什么(me)是多元統計分(fen)析(xi)?
多元(yuan)統(tong)計分(fen)(fen)析(xi)(xi)分(fen)(fen)為無(wu)監(jian)(jian)(jian)督(du)(du)分(fen)(fen)析(xi)(xi)方法和有(you)(you)監(jian)(jian)(jian)督(du)(du)分(fen)(fen)析(xi)(xi)方法。在(zai)代(dai)謝(xie)組學分(fen)(fen)析(xi)(xi)中無(wu)監(jian)(jian)(jian)督(du)(du)分(fen)(fen)析(xi)(xi)有(you)(you)主(zhu)成(cheng)分(fen)(fen)分(fen)(fen)析(xi)(xi)(PCA),而(er)有(you)(you)監(jian)(jian)(jian)督(du)(du)分(fen)(fen)析(xi)(xi)方法主(zhu)要(yao)是偏最小二乘判(pan)別分(fen)(fen)析(xi)(xi)(PLS-DA)和正交偏最小二乘判(pan)別分(fen)(fen)析(xi)(xi)(OPLS-DA)。
因無(wu)外加(jia)人為因素,得到的(de)(de)PCA模型反映(ying)了代謝組(zu)數(shu)(shu)據(ju)的(de)(de)原始狀(zhuang)態,有利于(yu)掌握(wo)數(shu)(shu)據(ju)的(de)(de)整體情況并對數(shu)(shu)據(ju)從整體上進行把握(wo),并從中(zhong)(zhong)揭示出數(shu)(shu)據(ju)集(ji)中(zhong)(zhong)觀測(ce)數(shu)(shu)據(ju)的(de)(de)分組(zu)、趨勢以及離群。對明顯不同于(yu)大部(bu)分樣品的(de)(de)離群樣品,可加(jia)以甄別或剔除。另外,如(ru)(ru)果存在(zai)質控(kong)樣品,PCA還可進行質控(kong),如(ru)(ru)果質控(kong)樣品分布點越靠(kao)近,則(ze)說明系統穩定,檢測(ce)質量沒有問題。
與PCA只有一個數(shu)據(ju)(ju)集(ji)不同(tong),PLS-DA在分(fen)析時(shi)(shi)必須對(dui)樣品進行(xing)指定并(bing)分(fen)組,這(zhe)樣模(mo)(mo)型會(hui)自(zi)動加上另外一個隱含的(de)數(shu)據(ju)(ju)集(ji)Y。因為(wei)PLS-DA在建模(mo)(mo)時(shi)(shi)對(dui)樣品進行(xing)了(le)指定和(he)分(fen)組,所以能更大地區分(fen)組間差異,但這(zhe)也導(dao)致數(shu)據(ju)(ju)的(de)PLS-DA模(mo)(mo)型存在過擬合(he)(overfitting)的(de)問題, 會(hui)造(zao)成模(mo)(mo)型失真, 在實際數(shu)據(ju)(ju)分(fen)析時(shi)(shi)應注意驗證模(mo)(mo)型有效性和(he)可靠(kao)性。
OPLS-DA使(shi)用(yong)正交信(xin)號校(xiao)正技術,將X矩(ju)陣(zhen)信(xin)息分(fen)(fen)(fen)解成與Y相(xiang)關和不相(xiang)關的(de)兩類(lei)信(xin)息,然后過濾掉與分(fen)(fen)(fen)類(lei)無關的(de)信(xin)息,相(xiang)關的(de)信(xin)息主(zhu)要集中在第一個預測成分(fen)(fen)(fen),有效減少模型(xing)的(de)復雜性和增強模型(xing)的(de)解釋能力(li),從(cong)(cong)而較大(da)程度查看組(zu)間(jian)差異(yi)。OPLS-DA 得分(fen)(fen)(fen)圖,從(cong)(cong)橫坐(zuo)(zuo)標(biao)的(de)方(fang)向可以(yi)看到組(zu)間(jian)的(de)差異(yi);從(cong)(cong)縱坐(zuo)(zuo)標(biao)上看出組(zu)內的(de)差異(yi)(組(zu)內樣本間(jian)的(de)差異(yi))。
4. 代(dai)謝組學常用到的(de)(de)差異代(dai)謝產物(wu)的(de)(de)數據分析方法:
單變(bian)量分(fen)析(xi)(xi)(xi)方(fang)(fang)法(fa)(fa)是簡單常(chang)用的(de)實驗數(shu)據分(fen)析(xi)(xi)(xi)方(fang)(fang)法(fa)(fa)。在進(jin)行兩(liang)組樣本(ben)間的(de)差異代謝物分(fen)析(xi)(xi)(xi)時,常(chang)用的(de)單變(bian)量分(fen)析(xi)(xi)(xi)方(fang)(fang)法(fa)(fa)包括差異倍數(shu)分(fen)析(xi)(xi)(xi)(Fold Change Analysis,FC Analysis)、T 檢驗,以及綜合(he)前(qian)兩(liang)種分(fen)析(xi)(xi)(xi)方(fang)(fang)法(fa)(fa)的(de)火山圖(Volcano Plot)。
多元統計分(fen)(fen)析中無(wu)監(jian)(jian)督分(fen)(fen)析有(you)主成分(fen)(fen)分(fen)(fen)析(PCA),而有(you)監(jian)(jian)督分(fen)(fen)析方法主要是偏最小二乘判別分(fen)(fen)析(PLS-DA)和正交偏最小二乘判別分(fen)(fen)析(OPLS-DA)。
VIP(Variable important in projection)是(O)PLS-DA模(mo)(mo)型變量(liang)的(de)變量(liang)權重值,來衡量(liang)各代謝物(wu)(wu)的(de)表達模(mo)(mo)式對各組樣本(ben)分類判別的(de)影(ying)響強(qiang)度(du)和(he)解釋能(neng)力,挖掘具有生物(wu)(wu)學意義的(de)差異代謝物(wu)(wu)。
由(you)于代(dai)謝組數(shu)據具有多(duo)維且某些(xie)變量間高(gao)度相關的(de)特點,運用傳統(tong)的(de)單變量分析無法(fa)快速、充分、準確地挖掘(jue)數(shu)據內潛在的(de)信息,因此一般采用多(duo)元統(tong)計(ji)分析方法(fa),可以在較(jiao)大程度保留原(yuan)始信息的(de)基礎上將高(gao)維復雜的(de)數(shu)據進行(xing)“簡化(hua)和(he)降維”,建立可靠的(de)數(shu)學模型(xing)對(dui)研究(jiu)對(dui)象的(de)代(dai)謝譜特點進行(xing)歸納和(he)總結。
因此代謝(xie)(xie)組學(xue)推(tui)薦使用單維和多維的方(fang)法進行結合,有助(zhu)于(yu)(yu)我們(men)從不同(tong)角度觀察數據,得出(chu)結論。所以選擇P值小于(yu)(yu)0.05與VIP值大于(yu)(yu)1作為常見(jian)的差異代謝(xie)(xie)物(wu)篩選標(biao)準(zhun)。
5. 代謝組學中LC-MS與GC-MS數據(ju)的區別:
1)LC-MS根(gen)據電(dian)(dian)(dian)離(li)(li)(li)方(fang)式(shi)不同,可分為電(dian)(dian)(dian)噴霧離(li)(li)(li)子源(yuan)(ESI)和大(da)氣壓化(hua)學(xue)(xue)電(dian)(dian)(dian)離(li)(li)(li)源(yuan)(APCI) 2 種工作方(fang)式(shi);GC-MS有電(dian)(dian)(dian)子轟擊電(dian)(dian)(dian)離(li)(li)(li)(EI)、正(zheng)化(hua)學(xue)(xue)電(dian)(dian)(dian)離(li)(li)(li)(CI)、負化(hua)學(xue)(xue)電(dian)(dian)(dian)離(li)(li)(li)(NCI)3種電(dian)(dian)(dian)離(li)(li)(li)方(fang)法,其中前兩者較常用。
2)LC-MS是在正、負離(li)子(zi)兩(liang)種(zhong)(zhong)模式下工作(zuo)的,得到的數(shu)據形式也(ye)(ye)是不一(yi)樣的,而(er)對代謝物的統計學分(fen)析時(shi)也(ye)(ye)是分(fen)開的,但(dan)在代謝通路分(fen)析時(shi)(或(huo)者合并分(fen)析時(shi)),會將正負離(li)子(zi)結合,有重復時(shi)選擇(ze)兩(liang)種(zhong)(zhong)模式中響應較(jiao)高的一(yi)個(ge)模式。
3)GC-MS通常(chang)只能(neng)在單一(yi)離(li)子模(mo)式(shi)下(xia)工作,得(de)到的(de)數據(ju)模(mo)式(shi)非負即正,可(ke)根(gen)據(ju)實(shi)際的(de)離(li)子源(yuan)進行判斷,因此在分析時(shi)工作量就(jiu)少(shao)了(le)一(yi)半。再加(jia)上由于掃描(miao)離(li)子范圍的(de)差別,LC-MS獲得(de)的(de)數據(ju)量明顯更多(duo)。
相比于GC-MS,LC-MS一般無需(xu)衍生處理(li),分(fen)析平行性更好,更適合大規模樣本的分(fen)析。
6. 代謝(xie)組學數據預處(chu)理及其目的?什么(me)是數據歸一化(hua)?
數(shu)據(ju)預處(chu)理,在代謝組學中(zhong),指(zhi)的是(shi)通過一系列降(jiang)噪(zao)(zao)、基(ji)線校正(zheng)以及歸一化等(deng)步驟(zou)轉換原始數(shu)據(ju)的計(ji)算過程,減少(shao)數(shu)據(ju)集的噪(zao)(zao)聲干擾(rao),強(qiang)調其生物(wu)學信息,使其適用(yong)后續的統計(ji)分析方法。
代謝數據有著典型的(de)高(gao)(gao)維度、高(gao)(gao)噪聲等(deng)特(te)性,并(bing)且(qie)存(cun)在數量級的(de)差(cha)異(yi),因(yin)此(ci)還(huan)需要(yao)對數據進(jin)行樣本(ben)間(jian)和(he)代謝物間(jian)的(de)歸一化(hua)處理,以確保各樣本(ben)之間(jian)和(he)代謝物之間(jian)可平行比較。歸一化(hua)的(de)方法:內標歸一化(hua)、總峰面積(ji)歸一化(hua)和(he)QC歸一化(hua)。
簡(jian)單來說,就是對代謝數據集進行(xing)一系列(lie)的數值處理,把數據拉到一個特定范圍里,轉換為可(ke)用于(yu)進一步統計分析的可(ke)用形式。
7. 生信分析KEGG氣泡圖中富集因子(zi)的(de)含義?該如(ru)何選擇(ze)受到顯著影響的(de)通路進(jin)行(xing)研究呢?
KEGG 通(tong)路富集分析
橫坐標表(biao)示每條KEGG 通(tong)路的(de)富(fu)(fu)集因子,富(fu)(fu)集因子(rich factor)指生信分析文件夾中kegg表(biao)格的(de)count/pop hit,即參(can)與(yu)某 KEGG 通(tong)路的(de)差異(yi)代(dai)謝產物(wu)(wu)的(de)數(shu)目(mu)占該通(tong)路注釋到的(de)代(dai)謝產物(wu)(wu)的(de)比例,一般情況(kuang)下,KEGG 通(tong)路富(fu)(fu)集結果中 P 值越(yue)小(xiao)(P<<0.05),統計學(xue)上(shang) KEGG 通(tong)路富(fu)(fu)集越(yue)顯(xian)著,而 KEGG 通(tong)路下包(bao)含的(de)差異(yi)表(biao)達代(dai)謝物(wu)(wu)數(shu)目(mu)在某種程度上(shang)反(fan)映實(shi)驗設計中生物(wu)(wu)學(xue)處理對各個(ge)通(tong)路的(de)影(ying)響(xiang)程度大(da)小(xiao),因此可以結合兩方面因素(su),選擇較為感(gan)興趣的(de)代(dai)謝或(huo)信號轉導途(tu)徑(jing)以及顯(xian)著性(xing)影(ying)響(xiang)這些(xie)途(tu)徑(jing)的(de)差異(yi)表(biao)達代(dai)謝物(wu)(wu)進(jin)行(xing)后續生物(wu)(wu)學(xue)實(shi)驗驗證或(huo)機制(zhi)研(yan)究。
8. 血液樣本做代謝組學分(fen)析,血清(qing)樣本和血漿樣本哪一個比較好?
血(xue)(xue)(xue)(xue)清血(xue)(xue)(xue)(xue)漿(jiang)(jiang)都是血(xue)(xue)(xue)(xue)液樣(yang)本(ben)處(chu)理后(hou)得到的(de)樣(yang)品,現有文獻(xian)報道血(xue)(xue)(xue)(xue)清血(xue)(xue)(xue)(xue)漿(jiang)(jiang)中(zhong)代謝物(wu)種類(lei)及豐度確(que)實不同,但(dan)對(dui)于研究(jiu)而言,并(bing)沒有明確(que)表明哪種樣(yang)本(ben)類(lei)型優于另一種,所以在(zai)(zai)(zai)選擇血(xue)(xue)(xue)(xue)清或者血(xue)(xue)(xue)(xue)漿(jiang)(jiang)時,只要在(zai)(zai)(zai)收(shou)樣(yang)時保(bao)證統一即可,且(qie)血(xue)(xue)(xue)(xue)液樣(yang)本(ben)最好是選擇EDTA或肝素抗凝的(de)血(xue)(xue)(xue)(xue)漿(jiang)(jiang)比較好。收(shou)集過程需要避(bi)免溶血(xue)(xue)(xue)(xue),樣(yang)收(shou)集后(hou)應保(bao)存在(zai)(zai)(zai)-80℃條件下,并(bing)且(qie)避(bi)免反復凍融。
9. 靶向代(dai)謝是如(ru)何進行(xing)定性(xing)和定量的(de)?
靶(ba)向定性(xing)是根據代(dai)謝物(wu)(wu)的(de)母離子和子離子分子量,通過質譜MRM模式(shi)進行定性(xing)。靶(ba)向絕對定量是根據代(dai)謝物(wu)(wu)的(de)實(shi)際(ji)檢(jian)測峰面(mian)積(ji)與標準品的(de)峰面(mian)積(ji)進行換(huan)算(suan)得(de)到的(de)。
10. 脂(zhi)質組(zu)學的命名規則問題?
脂質的(de)(de)命名中(zhong),數(shu)字(zi)(zi)代(dai)表(biao)碳長度及(ji)雙鍵(jian)個(ge)(ge)數(shu),例如(ru)WE(3:0_20:2),表(biao)示有(you)一個(ge)(ge)長度為(wei)3和(he)兩個(ge)(ge)長度為(wei)20的(de)(de)碳鏈。但很多(duo)脂質數(shu)字(zi)(zi)里都(dou)有(you)字(zi)(zi)母,不(bu)同(tong)字(zi)(zi)母(d,t,m,p,e,D)代(dai)表(biao)的(de)(de)基(ji)團(tuan)不(bu)一樣,d是羥(qian)基(ji),m是酰(xian)胺(an)基(ji)等等。