2024-05-13
Alphabet旗(qi)下人(ren)工智能(AI)藥物(wu)(wu)(wu)發現公司Isomorphic Labs與谷歌(Google)旗(qi)下DeepMind在(zai)5月8日共同宣布推出新一(yi)代AI生(sheng)物(wu)(wu)(wu)分子(zi)結(jie)構(gou)模型(xing)AlphaFold 3。AlphaFold 3在(zai)不需要任何結(jie)構(gou)信息的(de)情況下,在(zai)PoseBusters基(ji)準測試中(zhong)的(de)準確度(du)比最佳(jia)傳統(tong)(tong)方法高出50%,使AlphaFold 3成為(wei)首個超(chao)越基(ji)于物(wu)(wu)(wu)理的(de)工具進行(xing)生(sheng)物(wu)(wu)(wu)分子(zi)結(jie)構(gou)預測的(de)AI系統(tong)(tong)。這是AI驅動生(sheng)物(wu)(wu)(wu)學研究的(de)重(zhong)要時刻,但AI加速生(sheng)物(wu)(wu)(wu)學的(de)潛力是無限(xian)的(de)。 隨著(zhu)AlphaFold等人(ren)工(gong)(gong)智(zhi)(zhi)能工(gong)(gong)具(ju)在(zai)(zai)(zai)生(sheng)物(wu)領域(yu)的(de)廣(guang)泛應(ying)用,我(wo)(wo)們迎來了(le)一個(ge)(ge)全新(xin)的(de)時代,AI技(ji)術正逐漸滲透到生(sheng)命科(ke)學(xue)的(de)各個(ge)(ge)領域(yu)。著(zhu)名生(sheng)物(wu)學(xue)家、中國科(ke)學(xue)院院士(shi)施(shi)一公教授(shou)曾評價AlphaFold,“依我(wo)(wo)之見(jian)(jian),這(zhe)是人(ren)工(gong)(gong)智(zhi)(zhi)能(AI)對科(ke)學(xue)領域(yu)最大(da)的(de)一次(ci)貢獻,也是人(ren)類在(zai)(zai)(zai)21世(shi)紀取得(de)的(de)最重(zhong)要(yao)的(de)科(ke)學(xue)突破之一,是人(ren)類在(zai)(zai)(zai)認識自(zi)然(ran)界的(de)科(ke)學(xue)探索征程中一個(ge)(ge)非常了(le)不(bu)起的(de)歷(li)史性成就。”正如(ru)AlphaFold的(de)成功一樣,人(ren)工(gong)(gong)智(zhi)(zhi)能技(ji)術在(zai)(zai)(zai)單(dan)細(xi)(xi)(xi)胞(bao)(bao)(bao)測序(xu)領域(yu)也有著(zhu)巨大(da)的(de)應(ying)用潛力。單(dan)細(xi)(xi)(xi)胞(bao)(bao)(bao)測序(xu)技(ji)術正在(zai)(zai)(zai)迅速發展(zhan),它使得(de)我(wo)(wo)們能夠(gou)深入了(le)解(jie)細(xi)(xi)(xi)胞(bao)(bao)(bao)的(de)異質性和功能特性。通過結合人(ren)工(gong)(gong)智(zhi)(zhi)能算(suan)法(fa),我(wo)(wo)們可以更有效地分析和理解(jie)單(dan)細(xi)(xi)(xi)胞(bao)(bao)(bao)數(shu)據,從而(er)揭(jie)示細(xi)(xi)(xi)胞(bao)(bao)(bao)在(zai)(zai)(zai)健康和疾病狀態下的(de)變化(hua)(hua)模式,為個(ge)(ge)性化(hua)(hua)醫(yi)療(liao)(liao)和疾病治療(liao)(liao)提供新(xin)的(de)方向。因此,可以預見(jian)(jian),在(zai)(zai)(zai)AI技(ji)術的(de)推動下,單(dan)細(xi)(xi)(xi)胞(bao)(bao)(bao)測序(xu)領域(yu)將迎來更加令(ling)人(ren)振奮的(de)發展(zhan)前景,為我(wo)(wo)們解(jie)碼(ma)生(sheng)命的(de)奧(ao)秘帶來新(xin)的(de)希望和機遇。
利用人工智能大模型對單細胞數據進行分析 在單細(xi)(xi)胞(bao)(bao)RNA測序分析中(zhong)(zhong),對不(bu)同(tong)細(xi)(xi)胞(bao)(bao)進行(xing)(xing)準確的(de)(de)(de)類(lei)型(xing)注釋(shi)是(shi)非常重要的(de)(de)(de)。這(zhe)個(ge)過(guo)程往往需要專(zhuan)業(ye)知識(shi)(shi),通過(guo)對比每個(ge)細(xi)(xi)胞(bao)(bao)群中(zhong)(zhong)高(gao)表達的(de)(de)(de)基因(yin)與已知的(de)(de)(de)細(xi)(xi)胞(bao)(bao)類(lei)型(xing)標(biao)記(ji)基因(yin)來完成。然(ran)而,這(zhe)一(yi)(yi)過(guo)程不(bu)僅(jin)繁瑣而且(qie)耗時。在2024年(nian)3月《Nature Methods》上(shang)線的(de)(de)(de)一(yi)(yi)項研究(jiu):Assessing GPT-4 for cell type annotation in single-cell RNA-seq analysis。研究(jiu)者們開發(fa)了一(yi)(yi)個(ge)R軟(ruan)件包GPTCelltype,專(zhuan)門(men)用于GPT-4的(de)(de)(de)自動細(xi)(xi)胞(bao)(bao)類(lei)型(xing)注釋(shi)。這(zhe)一(yi)(yi)工(gong)具(ju)的(de)(de)(de)使用,顯示出比現有方法更高(gao)的(de)(de)(de)準確性和(he)(he)速度。它可以快速區分純凈和(he)(he)混合細(xi)(xi)胞(bao)(bao)類(lei)型(xing),甚至能在輸(shu)入(ru)基因(yin)集(ji)包含較(jiao)少基因(yin)或受到(dao)噪聲(sheng)干擾時,依(yi)然(ran)保持較(jiao)高(gao)的(de)(de)(de)性能。在對GPT-4的(de)(de)(de)評估過(guo)程中(zhong)(zhong),研究(jiu)團隊系統(tong)性地評估了它在十個(ge)數據集(ji)上(shang)的(de)(de)(de)細(xi)(xi)胞(bao)(bao)類(lei)型(xing)注釋(shi)性能。這(zhe)些數據集(ji)涵蓋了五個(ge)物種(zhong)(zhong)以及(ji)數百種(zhong)(zhong)組織和(he)(he)細(xi)(xi)胞(bao)(bao)類(lei)型(xing)。評估的(de)(de)(de)結果(guo)顯示,GPT-4的(de)(de)(de)注釋(shi)與原(yuan)始研究(jiu)中(zhong)(zhong)提(ti)供的(de)(de)(de)手動注釋(shi)高(gao)度一(yi)(yi)致(zhi)。從示意圖(圖1)可以看(kan)出,依(yi)賴GPT-4進行(xing)(xing)scRNA-Seq的(de)(de)(de)細(xi)(xi)胞(bao)(bao)注釋(shi)好處(chu)有:無(wu)需生物學(xue)專(zhuan)業(ye)知識(shi)(shi)、無(wu)需代(dai)碼知識(shi)(shi)、無(wu)需參(can)考(kao)數據集(ji)、人工(gong)成本(ben)低、分析流(liu)程適配性高(gao)、無(wu)組織類(lei)型(xing)限(xian)制、注釋(shi)分辨率(lv)/粒度高(gao)。 圖1 GPT-4細胞類型注釋示例以(yi)及與其他方法的(de)比較 2024年2月26日,來自(zi)加拿大多(duo)倫多(duo)大學的研究(jiu)人員和(he)微軟聯合在(zai)Nature Methods上(shang)發表(biao)研究(jiu)scGPT: toward building a foundation model for single-cell multi-omics using generative AI。研究(jiu)人員利用單細胞(bao)測序數據(ju),構建了一(yi)個(ge)(ge)(ge)單細胞(bao)生物學基礎(chu)模型——scGPT,該(gai)模型基于一(yi)個(ge)(ge)(ge)生成式預訓練(lian)變換器,跨越超過(guo)3300萬(wan)個(ge)(ge)(ge)細胞(bao)的存儲庫。研究(jiu)結果表(biao)明,scGPT能有(you)效地(di)提煉出有(you)關基因(yin)和(he)細胞(bao)的關鍵生物學觀點(dian)。通過(guo)對遷移學習的進一(yi)步調(diao)整,scGPT可以得到優化,從而在(zai)各種下(xia)游應用中實現(xian)卓越的性能。 scGPT對(dui)單細胞(bao)(bao)分析的(de)(de)(de)下(xia)游分析各(ge)項工作都有幫助,比(bi)如細胞(bao)(bao)注(zhu)釋、批次矯正和多組學整(zheng)合(he)等方(fang)面。scGPT可(ke)以非常精(jing)準(zhun)(zhun)(zhun)的(de)(de)(de)預(yu)(yu)測(ce)(ce)各(ge)種細胞(bao)(bao)類型(xing),并(bing)且(qie)尤其精(jing)通于對(dui)免疫細胞(bao)(bao)亞(ya)型(xing)的(de)(de)(de)注(zhu)釋。scGPT還(huan)可(ke)以預(yu)(yu)測(ce)(ce)不(bu)同條件下(xia)的(de)(de)(de)細胞(bao)(bao),基(ji)因(yin)表(biao)達量的(de)(de)(de)變(bian)化,以及(ji)基(ji)因(yin)相互作用網絡的(de)(de)(de)動(dong)態變(bian)化。比(bi)如,微調后的(de)(de)(de)scGPT能夠(gou)準(zhun)(zhun)(zhun)確(que)預(yu)(yu)測(ce)(ce)細胞(bao)(bao)在處理后的(de)(de)(de)基(ji)因(yin)表(biao)達譜(pu)趨勢(shi)變(bian)化。作者展(zhan)示(shi)了在DAD1或者KCTD16敲除后,差異(yi)Top20基(ji)因(yin)的(de)(de)(de)預(yu)(yu)測(ce)(ce)差異(yi)倍數,與真實(shi)值幾(ji)乎完全一(yi)致。除了訓(xun)練集中(zhong)已驗(yan)(yan)證的(de)(de)(de)情況,scGPT還(huan)能夠(gou)預(yu)(yu)測(ce)(ce)未經實(shi)驗(yan)(yan)證實(shi)的(de)(de)(de)基(ji)因(yin)敲除組合(he)的(de)(de)(de)影響,其預(yu)(yu)測(ce)(ce)結(jie)果與 CRISPR 實(shi)驗(yan)(yan)驗(yan)(yan)證的(de)(de)(de)結(jie)果一(yi)致。這表(biao)明(ming)scGPT具有很強的(de)(de)(de)泛化能力,其準(zhun)(zhun)(zhun)確(que)預(yu)(yu)測(ce)(ce)不(bu)是由過擬(ni)合(he)引起的(de)(de)(de),且(qie)與真實(shi)世界的(de)(de)(de)實(shi)驗(yan)(yan)結(jie)果一(yi)致。 圖(tu)2 scGPT工作流程
機器學習與單細胞測序數據的聯合是機遇和挑戰并存的 用(yong)于單細(xi)(xi)(xi)胞(bao)(bao)(bao)測(ce)序數(shu)(shu)據(ju)(ju)(ju)分析(xi)(xi)的(de)(de)(de)(de)(de)機(ji)器(qi)學習處于快(kuai)速發(fa)展階段,在(zai)處理和(he)分析(xi)(xi)此類數(shu)(shu)據(ju)(ju)(ju)時,我們仍(reng)然面(mian)臨(lin)很(hen)多挑(tiao)戰:1.單細(xi)(xi)(xi)胞(bao)(bao)(bao)表達定(ding)(ding)(ding)量(liang)的(de)(de)(de)(de)(de)挑(tiao)戰:盡管已經開(kai)發(fa)了許多針對單細(xi)(xi)(xi)胞(bao)(bao)(bao)表達定(ding)(ding)(ding)量(liang)的(de)(de)(de)(de)(de)算法(fa),但是(shi)reads水(shui)平上的(de)(de)(de)(de)(de)單細(xi)(xi)(xi)胞(bao)(bao)(bao)數(shu)(shu)據(ju)(ju)(ju)定(ding)(ding)(ding)量(liang)仍(reng)面(mian)臨(lin)挑(tiao)戰。即使(shi)已知轉(zhuan)錄本的(de)(de)(de)(de)(de)結構,但是(shi)確定(ding)(ding)(ding)它們的(de)(de)(de)(de)(de)真實豐度(du)也(ye)很(hen)有難(nan)度(du)。2.細(xi)(xi)(xi)胞(bao)(bao)(bao)數(shu)(shu)量(liang)的(de)(de)(de)(de)(de)限(xian)制(zhi):與(yu)實際的(de)(de)(de)(de)(de)轉(zhuan)錄組分析(xi)(xi)中的(de)(de)(de)(de)(de)細(xi)(xi)(xi)胞(bao)(bao)(bao)數(shu)(shu)量(liang)相(xiang)比,現有的(de)(de)(de)(de)(de)很(hen)多方法(fa)只能測(ce)量(liang)非(fei)常有限(xian)的(de)(de)(de)(de)(de)細(xi)(xi)(xi)胞(bao)(bao)(bao)數(shu)(shu)量(liang)。3.構建(jian)軌跡的(de)(de)(de)(de)(de)特(te)征(zheng)(zheng)定(ding)(ding)(ding)義(yi):為了構建(jian)軌跡,需(xu)要(yao)定(ding)(ding)(ding)義(yi)特(te)定(ding)(ding)(ding)的(de)(de)(de)(de)(de)特(te)征(zheng)(zheng)。通常,表達模式相(xiang)似(si)的(de)(de)(de)(de)(de)特(te)征(zheng)(zheng)會(hui)保留重(zhong)要(yao)的(de)(de)(de)(de)(de)細(xi)(xi)(xi)胞(bao)(bao)(bao)系(xi)譜信息。4.單細(xi)(xi)(xi)胞(bao)(bao)(bao)數(shu)(shu)據(ju)(ju)(ju)的(de)(de)(de)(de)(de)噪聲(sheng)和(he)稀疏(shu)性:由于技(ji)術(shu)限(xian)制(zhi)和(he)生(sheng)物變異性,單細(xi)(xi)(xi)胞(bao)(bao)(bao)數(shu)(shu)據(ju)(ju)(ju)通常是(shi)嘈雜和(he)稀疏(shu)的(de)(de)(de)(de)(de),這增加(jia)了分析(xi)(xi)的(de)(de)(de)(de)(de)難(nan)度(du)。技(ji)術(shu)噪聲(sheng)是(shi)一(yi)個普遍存在(zai)的(de)(de)(de)(de)(de)問(wen)題,它會(hui)影響(xiang)到單細(xi)(xi)(xi)胞(bao)(bao)(bao)數(shu)(shu)據(ju)(ju)(ju)下游分析(xi)(xi)的(de)(de)(de)(de)(de)準確性。5.數(shu)(shu)據(ju)(ju)(ju)并行處理的(de)(de)(de)(de)(de)重(zhong)要(yao)性:鑒(jian)于單細(xi)(xi)(xi)胞(bao)(bao)(bao)數(shu)(shu)據(ju)(ju)(ju)通常包含(han)成千(qian)上萬的(de)(de)(de)(de)(de)特(te)征(zheng)(zheng),通過并行處理來加(jia)快(kuai)分析(xi)(xi)速度(du)變得非(fei)常重(zhong)要(yao)。 但同(tong)時(shi),挑(tiao)戰意味著(zhu)機遇,未(wei)來(lai)可期:機器(qi)學(xue)習(xi)和單細胞(bao)數(shu)據分析的(de)聯(lian)合有望改變(bian)生物學(xue)和醫學(xue)的(de)許(xu)多領域。單細胞(bao)測序和計(ji)算方法(fa)之間的(de)協(xie)同(tong)作用將生物學(xue)研究推入了(le)一(yi)個前所未(wei)有的(de)時(shi)代(dai)。隨著(zhu)技(ji)術的(de)不斷進(jin)步,將計(ji)算方法(fa)與單細胞(bao)數(shu)據相(xiang)結合無疑會帶來(lai)進(jin)一(yi)步的(de)突破,塑造我(wo)們對(dui)細胞(bao)生物學(xue)的(de)理解并推動醫學(xue)和生物技(ji)術的(de)創新。
總 結 AI技術,例(li)如(ru)ChatGPT模型,正在深刻地改(gai)變著千(qian)行百業(ye)。同樣,AI技術也給單細胞(bao)數據領域帶來了革命性的分析(xi)手段和(he)成(cheng)果,這使得AI在生物學研究(jiu)中(zhong)的運用(yong)只(zhi)是時間問(wen)題。 如(ru)scGPT這(zhe)樣(yang)的(de)技(ji)術在沒有輸入任何(he)生物學(xue)或醫學(xue)知(zhi)識(shi)的(de)情況(kuang)下,僅(jin)憑借(jie)大量(liang)的(de)基因(yin)(yin)表(biao)達數據就能(neng)(neng)推(tui)斷(duan)出如(ru)此(ci)多的(de)分子(zi)生物學(xue)知(zhi)識(shi),這(zhe)是(shi)人類難以企及的(de)能(neng)(neng)力。而(er)且隨著國產(chan)平臺的(de)競爭,成本不斷(duan)降(jiang)低,單細胞數據量(liang)以指數增長(chang)的(de)形(xing)式增加,scGPT會以我們(men)想象不到的(de)速度學(xue)習這(zhe)些基因(yin)(yin)中的(de)信息(xi)。 同時(shi),類(lei)似于scGPT技術的(de)(de)出(chu)(chu)(chu)現打破了數(shu)據只能被動觀察的(de)(de)命運(yun),將整個基(ji)因(yin)表達(da)譜(pu)轉變成(cheng)了一個能夠感(gan)知干預(yu)和做(zuo)出(chu)(chu)(chu)反應的(de)(de)網絡。這(zhe)個模型(xing)就(jiu)像是計(ji)算機世界中(zhong)(zhong)的(de)(de)一種干細胞原型(xing),與(yu)培養皿(min)中(zhong)(zhong)的(de)(de)細胞類(lei)似,它可以輕(qing)松地預(yu)測出(chu)(chu)(chu)細胞分(fen)(fen)化和逆分(fen)(fen)化中(zhong)(zhong)的(de)(de)重(zhong)要調控(kong)基(ji)因(yin),這(zhe)在過去可能需(xu)要對相關領域多年的(de)(de)研(yan)究總結才能得出(chu)(chu)(chu)結論(lun)。更(geng)重(zhong)要的(de)(de)是,與(yu)以往依(yi)賴于樣本的(de)(de)分(fen)(fen)析不同,這(zhe)個模型(xing)不需(xu)要收集到非(fei)常珍貴(gui)的(de)(de)樣本,卻能得出(chu)(chu)(chu)相似的(de)(de)結論(lun)。