2024-05-16
基(ji)因(yin)組學和蛋(dan)白(bai)質(zhi)組學經(jing)過多年(nian)的(de)發(fa)展,已(yi)取(qu)得了(le)令人矚目的(de)成(cheng)就,如(ru)二代、三代測序技術(shu)已(yi)將基(ji)因(yin)測序帶(dai)到了(le)一個高度成(cheng)熟與廣泛適用的(de)新時代,不僅顯著提高了(le)測序速度和通量(liang),也極(ji)大地降低(di)了(le)成(cheng)本;2023年(nian)Thermo公司(si)推出的(de)全新Orbitrap Astral質(zhi)譜儀,更是引(yin)領蛋(dan)白(bai)質(zhi)組學研究(jiu)邁入到極(ji)微(wei)量(liang)、超高通量(liang)、超高覆蓋度的(de)階段(duan),使得全蛋(dan)白(bai)質(zhi)組研究(jiu)幾近成(cheng)為了(le)可(ke)能(neng)。 代(dai)謝(xie)(xie)(xie)組學(Metabolomics)是“組學”大(da)家族的(de)(de)最新成(cheng)(cheng)員,旨在全面表征生物(wu)樣(yang)本(ben)中的(de)(de)小分子化合(he)物(wu)。代(dai)謝(xie)(xie)(xie)組學卻沒能(neng)順(shun)利的(de)(de)復(fu)刻基因組與蛋(dan)白質組的(de)(de)成(cheng)(cheng)功,仍(reng)然存在諸多技術難題(ti)。這是由于代(dai)謝(xie)(xie)(xie)物(wu)本(ben)身的(de)(de)特點和性質所導致:復(fu)雜(za)多樣(yang)的(de)(de)理(li)化性質、廣泛的(de)(de)濃度范圍以(yi)及龐大(da)的(de)(de)代(dai)謝(xie)(xie)(xie)組體量且尚(shang)未確(que)定大(da)小[1]。這些問(wen)題(ti)加(jia)在一起構成(cheng)(cheng)了代(dai)謝(xie)(xie)(xie)組學工作流程中許多問(wen)題(ti)的(de)(de)根源(yuan),其中最為關(guan)鍵(jian)和核心的(de)(de)就是代(dai)謝(xie)(xie)(xie)物(wu)定性問(wen)題(ti),如何高通量和高深度的(de)(de)實(shi)現代(dai)謝(xie)(xie)(xie)物(wu)的(de)(de)精準定性,已成(cheng)(cheng)為代(dai)謝(xie)(xie)(xie)組學研究者難以(yi)跨越的(de)(de)障(zhang)礙。 代謝物的定(ding)性到底有(you)哪些(xie)困境呢(ni)?下面我(wo)們舉一些(xie)栗子
1、小分子化(hua)合物巨大(da)的數量和(he)理化(hua)多(duo)樣性
截(jie)止(zhi)2024年,PubChem數據(ju)庫共收(shou)錄化(hua)合物(wu)(wu)1.18億條,ChemSpider收(shou)錄更是(shi)達到1.29億!而(er)這些化(hua)合物(wu)(wu)根據(ju)ClassyFire[2]的(de)分類法,可(ke)(ke)以分為4,825種(zhong)類別(bie),不(bu)同(tong)類別(bie)之(zhi)間的(de)理(li)化(hua)性(xing)(xing)質均有(you)區別(bie),甚至有(you)的(de)千(qian)差萬別(bie)。再回過頭來看A/G/C/T、20種(zhong)氨基(ji)酸,是(shi)不(bu)是(shi)親(qin)切(qie)的(de)多。這樣的(de)復雜性(xing)(xing),也決定了(le)想通(tong)過一種(zhong)方法來實(shi)現樣品中所(suo)有(you)代謝物(wu)(wu)的(de)檢測,幾乎是(shi)不(bu)可(ke)(ke)能完(wan)成的(de)事。 ClassyFire分類法
2、大量(liang)存在的同分異構體
根據百(bai)科詞條:將分(fen)子(zi)式相同(tong)、結構(gou)不(bu)同(tong)的(de)(de)化(hua)合物互稱同(tong)分(fen)異(yi)(yi)構(gou)體(ti)(ti)(ti)。同(tong)分(fen)異(yi)(yi)構(gou)體(ti)(ti)(ti)的(de)(de)存在(zai),使得化(hua)合物無法僅依靠精確(que)分(fen)子(zi)量實(shi)現準確(que)定性。我們以代謝組(zu)學研究(jiu)最(zui)常用的(de)(de)HMDB數據庫為例(li),該庫共(gong)收錄代謝物22w+,我們篩選50-1,500分(fen)子(zi)量范圍的(de)(de)共(gong)200,798條進行(xing)統計,發現僅有6%的(de)(de)化(hua)合物不(bu)存在(zai)同(tong)分(fen)異(yi)(yi)構(gou)體(ti)(ti)(ti),53%的(de)(de)化(hua)合物同(tong)分(fen)異(yi)(yi)構(gou)體(ti)(ti)(ti)達到100以上,非常驚人(ren)的(de)(de)數字(zi)。 HMDB庫50-1500分子量(liang)范圍的同分異構統計(ji) 更糟糕的是(shi),除(chu)了傳統(tong)的同分(fen)(fen)異構體(ti),分(fen)(fen)子質量(liang)十分(fen)(fen)接近的化合(he)物,對于(yu)質譜來(lai)說(shuo)要(yao)實現區分(fen)(fen)亦是(shi)個(ge)(ge)(ge)挑戰,比如m/z 213.0975這個(ge)(ge)(ge)MS1信號,僅通過精確(que)分(fen)(fen)子量(liang)來(lai)匹配(pei)(M+H),可(ke)以匹配(pei)上3個(ge)(ge)(ge)同分(fen)(fen)異構和另一個(ge)(ge)(ge)不同分(fen)(fen)子式但MS1在(zai)5ppm誤差范圍內的候選物。 所以僅用MS1精確分(fen)子量來(lai)做(zuo)化合物(wu)定性,那要(yao)十(shi)分(fen)慎重了。
3、質譜信號的復(fu)雜性(xing)
代謝(xie)(xie)物的(de)(de)(de)定性(xing)主要依靠(kao)色(se)譜(pu)質譜(pu)信(xin)(xin)息(xi)來實(shi)(shi)現的(de)(de)(de),以應用(yong)最廣泛的(de)(de)(de)LC-MS平臺為例(li),MS信(xin)(xin)號(hao)主要來源:代謝(xie)(xie)物、污染物、人工制品(pin)、背景噪音等,此外還有(you)代謝(xie)(xie)物產生的(de)(de)(de)同位素、加合物、多聚體、電荷(he)、中性(xing)片段等[1],極其繁(fan)雜,要從這么多信(xin)(xin)號(hao)當中識別真正代謝(xie)(xie)物的(de)(de)(de)MS信(xin)(xin)號(hao),并實(shi)(shi)現代謝(xie)(xie)物的(de)(de)(de)準(zhun)確(que)定性(xing),絕(jue)非易事。 繁雜多樣的質譜信號來源 在非靶向代(dai)(dai)謝組學(xue)研究中,代(dai)(dai)謝物(wu)定(ding)(ding)性的流程并(bing)不復雜,即通過(guo)采(cai)集到(dao)的樣品中代(dai)(dai)謝物(wu)色(se)譜(pu)(pu)質譜(pu)(pu)信息(xi)與標準物(wu)質的色(se)譜(pu)(pu)質譜(pu)(pu)信息(xi)進行比(bi)對,完成匹配(pei)的即可實現(xian)定(ding)(ding)性。其中匹配(pei)的信息(xi)主要(yao)包括MS1(一級質譜(pu)(pu),可獲得(de)精(jing)確分子(zi)量)、MS2(二級質譜(pu)(pu),可獲得(de)碎裂特征信息(xi))、RT(保(bao)留時間,主要(yao)用(yong)于區分同分異構體),還有(you)CCS(碰撞截面積,離(li)子(zi)淌度(du)型質譜(pu)(pu)采(cai)集到(dao)的一種(zhong)參(can)數(shu),主要(yao)作(zuo)用(yong)仍(reng)然是(shi)區分同分異構體)。 但如何解決定性準確性和鑒定覆蓋度難題呢?不得不重點介紹今天的主角——代謝數據庫。代謝數據庫主要包含上述3維或4維(是否含CCS)信息,數據庫圖譜信息的質量和覆蓋范圍對定性起著決定性作用。 常用的代謝數據庫(ku)分為以下幾種類型(xing): 1.自建(jian)標(biao)準(zhun)品庫:自行(xing)購買或(huo)合成標(biao)準(zhun)品,在自己的質譜平(ping)臺(tai)采集,獲得MS1、MS2、RT等信息,構建(jian)一個本地的標(biao)準(zhun)品數據庫; 2.商(shang)業數據庫:已完成標準品信息采集(ji)并(bing)整合成直接可使(shi)用的(de)(de)收費數據庫,大多(duo)也是實(shi)際標準品采集(ji)獲得(de)的(de)(de)信息構建,常用的(de)(de)有mzCloud、NIST、Metlin等; 3.公共數(shu)據(ju)庫:部(bu)分單(dan)位或實驗室,將自(zi)己平臺采集(ji)的(de)標準品(pin)圖譜信(xin)息或直(zhi)接(jie)整(zheng)合好的(de)數(shu)據(ju)庫公開,供免費下載使(shi)用(yong),MoNA庫已將大多(duo)常用(yong)公共庫做了(le)整(zheng)合,缺點(dian)就是信(xin)息較為(wei)混(hun)亂,直(zhi)接(jie)使(shi)用(yong)問(wen)題較多(duo); 4.計算機(ji)模(mo)擬(ni)數據庫(ku):根據化合物結構(gou)性質、代(dai)謝反應等信息,通(tong)過計算機(ji)模(mo)擬(ni)產(chan)生預(yu)測的(de)圖譜(pu)信息構(gou)建的(de)庫(ku),有多種(zhong)不同的(de)預(yu)測策略和方(fang)法,隨著AI模(mo)型的(de)不斷發(fa)展(zhan),該(gai)類(lei)型的(de)庫(ku)有望成為一大趨(qu)勢。 計算機模擬建庫在質(zhi)譜(pu)解析應用中潛力巨(ju)大 從(cong)定性(xing)準確性(xing)角度,數據庫1>2>3>4,但現實(shi)情況(kuang)是(shi)(shi)可購買的(de)標準物質十(shi)分有限,大概僅幾千上萬(wan)種,而且成(cheng)本極其(qi)高(gao)(gao)昂,這對于數量如此(ci)龐大的(de)代(dai)謝組(zu),簡直是(shi)(shi)杯水車薪,于是(shi)(shi)計算機模擬數據庫成(cheng)為了(le)一(yi)種潛力巨大的(de)解決方案,尤其(qi)在AI算法突飛(fei)猛進的(de)今天[3]。該策略(lve)不僅可以(yi)通(tong)過AI模型來生成(cheng)化合物的(de)MSMS圖(tu)譜,還可以(yi)實(shi)現RT、CCS值的(de)預(yu)測,進一(yi)步過濾假陽性(xing),提(ti)高(gao)(gao)鑒定的(de)準確性(xing)。 計算機模擬(ni)建(jian)庫在小分子(zi)和大(da)分子(zi)定(ding)(ding)性(xing)方(fang)面(mian),均已(yi)有(you)著比較廣泛的(de)(de)(de)(de)(de)應(ying)用,比如在大(da)分子(zi)蛋白(bai)組領域,大(da)名鼎鼎的(de)(de)(de)(de)(de)蛋白(bai)搜庫軟(ruan)件(jian)DIANN[4]能實(shi)現(xian)高質(zhi)量的(de)(de)(de)(de)(de)Library-free DIA搜庫,就依賴于其(qi)特有(you)的(de)(de)(de)(de)(de)Deep neural networks(DNNs)算法,生成模擬(ni)的(de)(de)(de)(de)(de)質(zhi)譜(pu)(pu)和RT信息實(shi)現(xian)蛋白(bai)的(de)(de)(de)(de)(de)定(ding)(ding)性(xing);脂質(zhi)組方(fang)面(mian),常用軟(ruan)件(jian)LipidBlast亦是通過計算機模擬(ni)產生的(de)(de)(de)(de)(de)MSMS圖譜(pu)(pu)庫,來實(shi)現(xian)脂質(zhi)定(ding)(ding)性(xing)[5]。包括國內代謝組大(da)牛(niu)開(kai)發的(de)(de)(de)(de)(de)MetDNA基于代謝反應(ying)網絡的(de)(de)(de)(de)(de)代謝物鑒定(ding)(ding)算法也有(you)著不(bu)錯的(de)(de)(de)(de)(de)應(ying)用[6]。 通過(guo)計算機模擬的方式獲(huo)得數據庫來(lai)實現(xian)代(dai)(dai)(dai)謝物(wu)(wu)定(ding)性,是否能獲(huo)得代(dai)(dai)(dai)謝組(zu)領域同行認可呢?S Alseekh聯合國(guo)內代(dai)(dai)(dai)謝組(zu)頂級大(da)牛羅杰、許國(guo)旺等人2021年在著名期刊《Nature methods》上發表了一篇文章(zhang)[7],重新定(ding)義了代(dai)(dai)(dai)謝物(wu)(wu)鑒定(ding)分級level,其中將計算機模擬定(ding)性做了明確的劃分: 新代謝物鑒定level 經(jing)典(dian)的代謝(xie)物定性(xing)分級方式發布(bu)于(yu)2007年[8],一經(jing)發布(bu)即受到廣泛應(ying)用,直到今天仍然是(shi)代謝(xie)組學研究經(jing)典(dian)參考(kao)文獻,但S Alseekh等人(ren)新(xin)發布(bu)的定性(xing)level的劃(hua)分更加貼合如今的技術發展(zhan)現(xian)狀,比(bi)如將預測圖譜(pu)的定性(xing)分級清晰(xi)納入進(jin)來,有助于(yu)代謝(xie)物定性(xing)新(xin)技術的發展(zhan)和應(ying)用。
計算機模擬構建的代(dai)謝庫在實際應用中是否真的靠譜呢,下面通過派森諾全新一(yi)代(dai)數據庫PSNGM實測數據來一(yi)探究(jiu)竟(jing)。 派(pai)森諾PSNGM一經(jing)發布就受到(dao)老師(shi)們(men)廣泛好(hao)評,尤其是我們(men)的(de)(de)分類庫(ku)(ku)(ku)(ku)結合的(de)(de)AI預(yu)測(ce)模(mo)型,讓(rang)代謝物的(de)(de)定(ding)性(xing)(xing)上升了(le)一個臺階。我們(men)選(xuan)取(qu)了(le)使(shi)用PSNGM的(de)(de)腸道庫(ku)(ku)(ku)(ku)、醫(yi)學庫(ku)(ku)(ku)(ku)以(yi)及植物庫(ku)(ku)(ku)(ku)分析(xi)的(de)(de)項目數(shu)據進(jin)行了(le)統計分析(xi),我們(men)對比了(le)實驗圖譜匹配(level A-B(i))與AI預(yu)測(ce)庫(ku)(ku)(ku)(ku)(B(ii))的(de)(de)定(ding)性(xing)(xing)結果(guo),在三(san)大庫(ku)(ku)(ku)(ku)中(zhong),分別有(you)62.2%、60.8%、61.2%的(de)(de)鑒定(ding)結果(guo)在標(biao)準(zhun)品(pin)庫(ku)(ku)(ku)(ku)定(ding)性(xing)(xing)結果(guo)中(zhong)得以(yi)驗證,說(shuo)明(ming)AI庫(ku)(ku)(ku)(ku)的(de)(de)準(zhun)確性(xing)(xing)較(jiao)高;同時(shi)相對于標(biao)準(zhun)品(pin)庫(ku)(ku)(ku)(ku),AI庫(ku)(ku)(ku)(ku)的(de)(de)應用能(neng)讓(rang)鑒定(ding)數(shu)量有(you)30%-38%左右(you)的(de)(de)提升,很(hen)好(hao)的(de)(de)補充了(le)標(biao)準(zhun)品(pin)庫(ku)(ku)(ku)(ku)的(de)(de)不足。 為了(le)驗(yan)證RT模型(xing)的(de)可靠性,我們從自建庫中隨機挑選了(le)100個標準(zhun)品進行驗(yan)證,RT預(yu)測(ce)的(de)準(zhun)確(que)性達到了(le)94%左右(you),平均誤(wu)差在11.9s左右(you),這樣(yang)的(de)表現,RT的(de)過濾將(jiang)會大大降(jiang)低假陽性的(de)幾率,讓定性可靠性進一步(bu)提(ti)升。 代(dai)謝組(zu)學(xue)技術發(fa)展至今,儀器的(de)性(xing)(xing)能(neng)反而(er)不是如(ru)今的(de)瓶頸問題,打(da)造和構建高質(zhi)量、高性(xing)(xing)能(neng)、高覆(fu)蓋的(de)代(dai)謝數(shu)據庫成為了解碼代(dai)謝組(zu)學(xue)研究的(de)關鍵鑰匙(chi),派森諾打(da)造的(de)PSNGM代(dai)謝庫期望能(neng)為代(dai)謝組(zu)學(xue)研究提供更好(hao)的(de)支持(chi),后續(xu)我們會陸(lu)續(xu)揭(jie)秘PSNGM代(dai)謝庫及實測(ce)數(shu)據,期待大家的(de)關注!
參考文獻(xian): 1.Godzien J, de la Fuente A G, Otero A, et al. Metabolite annotation and identification[M]//Comprehensive Analytical Chemistry. Elsevier, 2018, 82: 415-445. 2.Djoumbou Feunang Y, Eisner R, Knox C, Chepelev L, Hastings J, Owen G, Fahy E, Steinbeck C, Subramanian S, Bolton E, Greiner R, and Wishart DS. ClassyFire: Automated Chemical Classification With A Comprehensive, Computable Taxonomy. Journal of Cheminformatics, 2016, 8:61. 3.Cai Y, Zhou Z, Zhu Z J. Advanced analytical and informatic strategies for metabolite annotation in untargeted metabolomics[J]. TrAC Trends in Analytical Chemistry, 2023, 158: 116903. 4.Demichev V, Messner C B, Vernardis S I, et al. DIA-NN: neural networks and interference correction enable deep proteome coverage in high throughput[J]. Nature methods, 2020, 17(1): 41-44. 5.Kind T, Liu K H, Lee D Y, et al. LipidBlast in silico tandem mass spectrometry database for lipid identification[J]. Nature methods, 2013, 10(8): 755-758. 6.Shen X, Wang R, Xiong X, et al. Metabolic reaction network-based recursive metabolite annotation for untargeted metabolomics[J]. Nature communications, 2019, 10(1): 1516. 7.Alseekh S, Aharoni A, Brotman Y, et al. Mass spectrometry-based metabolomics: a guide for annotation, quantification and best reporting practices[J]. Nature methods, 2021, 18(7): 747-756. 8.Sumner L W , Amberg A , Barrett D ,et al.Proposed minimum reporting standards for chemical analysis Chemical Analysis Working Group (CAWG) Metabolomics Standards Initiative (MSI)[J].other, 2007, 3(3).DOI:10.1007/s11306-007-0082-2.