2023-03-02
當跑完(wan)常規的(de)細胞(bao)過(guo)濾,拿到單細胞(bao)測序數據(ju)后,緊(jin)接著就是(shi)(shi)(shi)(shi)做細胞(bao)類型鑒(jian)定,如果這一(yi)步不(bu)準確,那么后續所有(you)分析都是(shi)(shi)(shi)(shi)不(bu)可(ke)靠的(de)。我(wo)(wo)(wo)們(men)知道(dao)使(shi)用各類marker gene進(jin)行專業的(de)人(ren)工(gong)注(zhu)釋是(shi)(shi)(shi)(shi)細胞(bao)注(zhu)釋的(de)金標準,但是(shi)(shi)(shi)(shi)其過(guo)程是(shi)(shi)(shi)(shi)緩(huan)慢(man)和(he)比較繁重(zhong)的(de),而且可(ke)能是(shi)(shi)(shi)(shi)主觀的(de)。在對(dui)大量數據(ju)集開(kai)展具(ju)體的(de)鑒(jian)定之(zhi)前,我(wo)(wo)(wo)們(men)還(huan)是(shi)(shi)(shi)(shi)希望(wang)能有(you)一(yi)些自動化的(de)軟件(jian)給我(wo)(wo)(wo)們(men)的(de)鑒(jian)定工(gong)作提供一(yi)些指(zhi)引和(he)參(can)考,本期文章就是(shi)(shi)(shi)(shi)向大家(jia)介紹一(yi)些輔助我(wo)(wo)(wo)們(men)的(de)自動化注(zhu)釋軟件(jian),加快我(wo)(wo)(wo)們(men)的(de)科研速(su)度!
1、SingleR 相信這(zhe)(zhe)個軟件(jian)(jian)大家都已(yi)熟悉,可(ke)能(neng)是目前(qian)應用較為廣(guang)泛(fan)比較被認可(ke)的(de)(de)注釋軟件(jian)(jian),如(ru)此耳(er)熟能(neng)詳可(ke)能(neng)讓(rang)很多人(ren)誤以(yi)為它已(yi)有(you)悠久的(de)(de)歷史,但(dan)實際上這(zhe)(zhe)款軟件(jian)(jian)于(yu)2019年(nian)一(yi)篇發在Nature Immunology上的(de)(de)文(wen)章面世,也(ye)才4年(nian)時(shi)間。SingleR是一(yi)款R包,內置的(de)(de)背(bei)景數據(ju)(ju)庫包含人(ren)和小鼠兩(liang)種(zhong)物種(zhong)的(de)(de)數據(ju)(ju),5個人(ren)的(de)(de)數據(ju)(ju)庫HumanPrimaryCellAtlasData、BlueprintEncodeData、DatabaseImmuneCellExpressionData、MonacoImmuneData、NovershternHematopoieticData;2個小鼠的(de)(de)數據(ju)(ju)庫ImmGenData、MouseRNAseqData所(suo)以(yi)分析工作也(ye)主(zhu)要針對這(zhe)(zhe)2個物種(zhong)來進行。 (參考文獻:Reference-based analysis of lungsingle-cell sequencing reveals a transitional profibrotic macrophage. NatureImmunology, 2019)原理示意圖: 2、scCATCH 相(xiang)比于(yu)SingleR,scCATCH的結果會(hui)有一(yi)定的差異(yi),這種差異(yi)在一(yi)些研究較(jiao)少的細(xi)胞(bao)類群上體現的尤為明(ming)顯,同時對(dui)于(yu)可能難以區分(fen)的細(xi)胞(bao),scCATCH會(hui)比較(jiao)實誠地標注(zhu)上unknown,而不是像(xiang)SingleR一(yi)樣一(yi)定要迭代出(chu)一(yi)個最相(xiang)近的結果出(chu)來。 (參考文獻:scCATCH: Automatic Annotation onCell Types of Clusters from Single-Cell RNA Sequencing Data. iScience, 2020.)注釋工作原理圖解: 3、Garnett Garnett是一(yi)個(ge)(ge)(ge)單細胞(bao)(bao)自動注釋軟件(jian)包,輸入數(shu)(shu)據(ju)包括一(yi)個(ge)(ge)(ge)單細胞(bao)(bao)數(shu)(shu)據(ju)集和細胞(bao)(bao)類(lei)(lei)型(xing)定(ding)義(yi)(yi)文(wen)件(jian)。Garnett使(shi)用(yong)彈性網回歸(gui)模型(xing)的(de)(de)機器(qi)學習算法訓練出一(yi)個(ge)(ge)(ge)基于(yu)(yu)回歸(gui)的(de)(de)分(fen)類(lei)(lei)器(qi)。隨后訓練好的(de)(de)分(fen)類(lei)(lei)器(qi)就可以用(yong)于(yu)(yu)更多數(shu)(shu)據(ju)集的(de)(de)細胞(bao)(bao)類(lei)(lei)型(xing)定(ding)義(yi)(yi)。Garnett的(de)(de)工(gong)作方式是獲取單細胞(bao)(bao)數(shu)(shu)據(ju)和細胞(bao)(bao)類(lei)(lei)型(xing)定(ding)義(yi)(yi)(marker)文(wen)件(jian),并訓練一(yi)個(ge)(ge)(ge)基于(yu)(yu)回歸(gui)的(de)(de)分(fen)類(lei)(lei)器(qi)。一(yi)旦被訓練成(cheng)一(yi)個(ge)(ge)(ge)針對(dui)某一(yi)組織/樣(yang)本類(lei)(lei)型(xing)的(de)(de)一(yi)個(ge)(ge)(ge)分(fen)類(lei)(lei)器(qi),它就可以應用(yong)于(yu)(yu)從相似(si)組織中(zhong)對(dui)未來的(de)(de)數(shu)(shu)據(ju)集進行分(fen)類(lei)(lei)。 (參考文獻:Supervised classification enablesrapid annotation of cell atlases.Nature Methods, 2019.) 4、CellAssign 基(ji)于marker基(ji)因(yin)的(de)信息(xi)自動(dong)將(jiang)(jiang)單細(xi)(xi)胞(bao)(bao)(bao)RNA-seq數據分配(pei)注釋到已知的(de)細(xi)(xi)胞(bao)(bao)(bao)類(lei)型(xing)中(zhong)。它以marker基(ji)因(yin)的(de)細(xi)(xi)胞(bao)(bao)(bao)類(lei)型(xing)矩陣(zhen)作(zuo)為(wei)輸入,提供先驗的(de)已知marker基(ji)因(yin)是(shi)否屬于某(mou)種細(xi)(xi)胞(bao)(bao)(bao)類(lei)型(xing)。然后(hou),cellassign會概率性地將(jiang)(jiang)每個(ge)細(xi)(xi)胞(bao)(bao)(bao)分配(pei)給一個(ge)細(xi)(xi)胞(bao)(bao)(bao)類(lei)型(xing),從而消除了典型(xing)無監督聚類(lei)中(zhong)的(de)主觀偏見。 (參考文獻:Probabilistic cell-type assignment of single-cell RNA-seq for tumor microenvironment profiling) 5、Cell Blast Cell BLAST是一個(ge)自(zi)帶高質量參(can)考數據(ju)(ju)庫(ku)的(de)scRNA-seq數據(ju)(ju)檢索(suo)/注(zhu)(zhu)釋工具(ju)。這(zhe)個(ge)網站由北京大學的(de)研(yan)究(jiu)團(tuan)隊(dui)研(yan)發(fa)(fa),論文發(fa)(fa)表在(zai)在(zai)《Nature Communications》:基于深度(du)學習模(mo)型的(de)scRNA-seq數據(ju)(ju)檢索(suo)和注(zhu)(zhu)釋的(de)新方法Cell BLAST,以及具(ju)備(bei)高質量注(zhu)(zhu)釋的(de)scRNA-seq參(can)考數據(ju)(ju)庫(ku)ACA。這(zhe)一數據(ju)(ju)庫(ku)為有(you)效(xiao)利用現有(you)數據(ju)(ju)進行細胞注(zhu)(zhu)釋和跨數據(ju)(ju)集研(yan)究(jiu)提供了新的(de)工具(ju)和資源(yuan)。 (參考文獻:Searching large-scale scRNA-seqdatabases via unbiased cell embedding with Cell BLAST.Nature Communications, 2020.) 從(cong)第一(yi)款(kuan)單細胞自(zi)動注(zhu)釋軟(ruan)(ruan)件(jian)(jian)在2019年(nian)面世以(yi)來,短短的(de)(de)(de)(de)4年(nian)時間里(li)已(yi)經(jing)有幾(ji)十款(kuan)同類軟(ruan)(ruan)件(jian)(jian)了。自(zi)動注(zhu)釋的(de)(de)(de)(de)軟(ruan)(ruan)件(jian)(jian)對于我(wo)們(men)的(de)(de)(de)(de)研究工(gong)作能(neng)(neng)夠(gou)起到一(yi)定的(de)(de)(de)(de)先(xian)(xian)導意(yi)義,不過(guo)這種(zhong)先(xian)(xian)導意(yi)義一(yi)定是(shi)建(jian)立在對分析過(guo)程的(de)(de)(de)(de)理解之上的(de)(de)(de)(de),不能(neng)(neng)夠(gou)進(jin)行生搬硬套。以(yi)上是(shi)本期(qi)為大家介紹的(de)(de)(de)(de)常見的(de)(de)(de)(de)幾(ji)款(kuan),如(ru)果(guo)你也正在從(cong)事單細胞數據(ju)分析的(de)(de)(de)(de)相(xiang)關工(gong)作并且正在入門(men)的(de)(de)(de)(de)階段徘徊,不妨試(shi)一(yi)試(shi)這幾(ji)種(zhong)自(zi)動注(zhu)釋的(de)(de)(de)(de)軟(ruan)(ruan)件(jian)(jian),也許它們(men)會給(gei)你提供一(yi)些(xie)思路(lu)。