2023-11-09
單細胞項目
細胞類型注釋
“在單細胞(bao)測序中,常見的(de)分(fen)析包括(kuo)數(shu)據質控,降維聚類(lei)(lei),細胞(bao)分(fen)群(qun),差異基(ji)因(yin)富集分(fen)析,擬時序分(fen)析和(he)細胞(bao)通(tong)訊分(fen)析等等。單細胞(bao)測序數(shu)據經過(guo)聚類(lei)(lei)和(he)分(fen)群(qun),可以劃分(fen)出(chu)不同的(de)細胞(bao)亞(ya)群(qun)。由于(yu)細胞(bao)間基(ji)因(yin)表達(da)模式的(de)相似(si)性,相同的(de)細胞(bao)類(lei)(lei)型(xing),往(wang)往(wang)會聚類(lei)(lei)成一(yi)個cluster,但(dan)每(mei)個cluster對(dui)應的(de)細胞(bao)類(lei)(lei)型(xing)是未知的(de),需(xu)要(yao)我們對(dui)每(mei)個亞(ya)群(qun)進(jin)行細胞(bao)類(lei)(lei)型(xing)注釋。而(er)細胞(bao)類(lei)(lei)型(xing)的(de)注釋,也(ye)是單細胞(bao)數(shu)據分(fen)析和(he)解讀過(guo)程中最(zui)關鍵和(he)最(zui)耗時的(de)一(yi)步。“
單細胞注釋的方法和流程有哪些?
目前,細(xi)胞類型注(zhu)(zhu)釋的方法主要(yao)有:自動化注(zhu)(zhu)釋,人工注(zhu)(zhu)釋和驗證(圖(tu)一)。
自(zi)(zi)(zi)動化注(zhu)(zhu)(zhu)釋(shi):根據預先(xian)定(ding)義好的(de)(de)(de)(de)marker基(ji)因列(lie)表或(huo)參考(kao)數(shu)據庫,將(jiang)單(dan)個(ge)細(xi)胞(bao)(bao)或(huo)細(xi)胞(bao)(bao)簇(cu)的(de)(de)(de)(de)基(ji)因表達(da)模(mo)式與已知細(xi)胞(bao)(bao)類型(xing)的(de)(de)(de)(de)基(ji)因表達(da)模(mo)式相匹配,來(lai)識別和標記單(dan)個(ge)細(xi)胞(bao)(bao)或(huo)細(xi)胞(bao)(bao)簇(cu)。自(zi)(zi)(zi)動化注(zhu)(zhu)(zhu)釋(shi)優點是簡單(dan)、快速,但(dan)是也存(cun)在一些(xie)缺陷。首先(xian),由于(yu)自(zi)(zi)(zi)動化軟件(jian)的(de)(de)(de)(de)局限性,需要依賴(lai)和參考(kao)合(he)適的(de)(de)(de)(de)數(shu)據集(ji)(ji),對(dui)于(yu)一些(xie)非模(mo)式物種來(lai)說,可參考(kao)的(de)(de)(de)(de)數(shu)據集(ji)(ji)少,使(shi)用軟件(jian)不(bu)容易構建參考(kao)數(shu)據集(ji)(ji)。其次(ci),對(dui)于(yu)一些(xie)基(ji)因表達(da)譜相似度高的(de)(de)(de)(de)細(xi)胞(bao)(bao)類型(xing)注(zhu)(zhu)(zhu)釋(shi)準(zhun)確(que)率也比較低,比如像T細(xi)胞(bao)(bao)、NK細(xi)胞(bao)(bao)和NKT細(xi)胞(bao)(bao),基(ji)因表達(da)相似,共表達(da)的(de)(de)(de)(de)marker基(ji)因較多,自(zi)(zi)(zi)動化注(zhu)(zhu)(zhu)釋(shi)很難準(zhun)確(que)區分。最(zui)后,自(zi)(zi)(zi)動化注(zhu)(zhu)(zhu)釋(shi)對(dui)細(xi)胞(bao)(bao)亞型(xing)的(de)(de)(de)(de)注(zhu)(zhu)(zhu)釋(shi)結果比較局限,對(dui)一些(xie)罕見細(xi)胞(bao)(bao)類型(xing)的(de)(de)(de)(de)鑒(jian)定(ding)不(bu)夠準(zhun)確(que)。
人(ren)(ren)工(gong)注(zhu)釋(shi):根據文(wen)獻中選用的(de)(de)特(te)(te)異(yi)性(xing)高(gao)的(de)(de)marker基因對細(xi)胞類(lei)型(xing)進行人(ren)(ren)工(gong)判斷,手動檢查每個細(xi)胞的(de)(de)特(te)(te)征,結合不同的(de)(de)文(wen)獻資料確定(ding)每個亞(ya)群的(de)(de)功能和細(xi)胞類(lei)型(xing)。通常,人(ren)(ren)工(gong)注(zhu)釋(shi)根據特(te)(te)異(yi)marker基因表(biao)達(da)的(de)(de)featureplot或(huo)小提(ti)琴圖,結合每個cluster的(de)(de)差異(yi)基因進行綜合判斷。人(ren)(ren)工(gong)注(zhu)釋(shi)的(de)(de)準確率高(gao),能夠基于高(gao)表(biao)達(da)的(de)(de)marker基因和每個cluster的(de)(de)功能,結合具體(ti)疾病類(lei)型(xing)來判斷細(xi)胞類(lei)型(xing)或(huo)狀態。但是(shi)人(ren)(ren)工(gong)注(zhu)釋(shi)可能耗時過長(chang),并且存在(zai)主(zhu)觀性(xing)。
驗(yan)證:通過(guo)自動化注(zhu)釋(shi)和(he)人工(gong)注(zhu)釋(shi),我(wo)們(men)可以較為準確地注(zhu)釋(shi)出細胞(bao)類型。但對于(yu)一些新的細胞(bao)類型,則(ze)需(xu)要結(jie)合實(shi)驗(yan)驗(yan)證來輔助判斷(duan)。結(jie)合多(duo)組學也有(you)助于(yu)驗(yan)證,比(bi)如空間轉(zhuan)錄組技術等。
圖一 細(xi)胞(bao)注釋(shi)流程[1]
派森諾單細胞空轉產品部是如何做細胞注釋的呢?
以上的注釋流程是目前普遍使用的細胞注釋流程,在此基礎上,派森諾單細胞空轉產品部則使用自動化注釋+人工注釋的方式,保障注釋結果的準確性。在自動化注釋結果的基礎上,注釋人員會再次對自動化注釋結果進行人工check,基于參考文獻的中的特異性的marker基因進行注釋。具體方法和流程如下:
第一(yi)步:首先,初(chu)步(bu)確定細胞類(lei)型,人工注(zhu)釋需要了解項目(mu)的(de)樣(yang)本類(lei)型及(ji)病理信息,對不同(tong)樣(yang)本可(ke)能有什么樣(yang)的(de)細胞類(lei)型有個初(chu)步(bu)的(de)了解。比如肝(gan)(gan)組(zu)(zu)織(zhi)中特異存(cun)在的(de)庫否細胞和肝(gan)(gan)實質(zhi)細胞;PBMC中的(de)單核細胞,T細胞,B細胞;心臟組(zu)(zu)織(zhi)中的(de)心肌細胞等。其次(ci),人工注(zhu)釋會基于自動化(hua)注(zhu)釋的(de)結(jie)果(guo),對每個cluster的(de)細胞類(lei)型,再次(ci)進(jin)行(xing)檢(jian)查和檢(jian)驗。
第二步:根(gen)據各(ge)cluster差(cha)(cha)異(yi)表達的(de)基(ji)(ji)因(yin)進行細(xi)胞類型(xing)注釋。降維聚類完成后,會(hui)生(sheng)成各(ge)個cluster的(de)差(cha)(cha)異(yi)基(ji)(ji)因(yin)列表。從差(cha)(cha)異(yi)基(ji)(ji)因(yin)中篩選cluster特異(yi)性的(de)marker基(ji)(ji)因(yin),確(que)定(ding)細(xi)胞類型(xing)(如(ru)圖二所示)。左為(wei)自動化注釋結果,其中cluster16被singleR鑒定(ding)為(wei)B細(xi)胞,右為(wei)該群的(de)差(cha)(cha)異(yi)基(ji)(ji)因(yin)列表,可以看到漿細(xi)胞樣樹突(tu)細(xi)胞(Plasmacytoid dendritic cells,pDCs)marker表達量(liang)排前面,我們(men)根(gen)據差(cha)(cha)異(yi)基(ji)(ji)因(yin)列表的(de)結果初步推斷(duan)cluster16可能為(wei)pDCs。
A.軟件自動化注釋結果
B.cluster16差異基因列表
圖二 差異基因注釋流程
第三步(bu):根(gen)據(ju)不(bu)同的項(xiang)目,人(ren)工(gong)選(xuan)(xuan)擇(ze)合適(shi)的marker基(ji)(ji)因(yin)。在對不(bu)同的細(xi)(xi)胞類(lei)(lei)型進行(xing)(xing)鑒定的同時,我們(men)需要(yao)一些經典的marker基(ji)(ji)因(yin)進行(xing)(xing)判(pan)斷,這就需要(yao)注(zhu)釋人(ren)員去(qu)根(gen)據(ju)每個項(xiang)目情況,查(cha)閱相關文(wen)(wen)獻(xian)及數(shu)據(ju)庫,選(xuan)(xuan)擇(ze)合適(shi)的特異性高(gao)表(biao)達的marker基(ji)(ji)因(yin)。我們(men)根(gen)據(ju)文(wen)(wen)獻(xian)和數(shu)據(ju)庫,整(zheng)理了不(bu)同組(zu)織(zhi)樣本中的細(xi)(xi)胞類(lei)(lei)型marker gene list,以(yi)人(ren)肺組(zu)織(zhi)大類(lei)(lei)圖譜為例,部分細(xi)(xi)胞類(lei)(lei)型及marker基(ji)(ji)因(yin)如下表(biao)所示。
表一 細胞類型的名稱及marker基因
第四步:用來判斷細胞類型(xing)(xing)的(de)marker基(ji)因(yin)(yin),會在(zai)對應的(de)細胞類型(xing)(xing)中特異表(biao)達(da)或者(zhe)高(gao)表(biao)達(da),我(wo)們(men)(men)會借助Featureplot圖(tu)(tu)(tu)、小(xiao)提琴(qin)圖(tu)(tu)(tu)、點圖(tu)(tu)(tu)、氣(qi)泡圖(tu)(tu)(tu)或熱圖(tu)(tu)(tu)等不同(tong)的(de)展(zhan)示(shi)形式,查(cha)看每個marker基(ji)因(yin)(yin)在(zai)cluster中的(de)表(biao)達(da)情況,綜合判斷不同(tong)cluster細胞類型(xing)(xing)。如圖(tu)(tu)(tu)三所示(shi),我(wo)們(men)(men)根(gen)據pDCs細胞的(de)marker,繪制pDCs細胞的(de)marker基(ji)因(yin)(yin)表(biao)達(da)的(de)Featureplot圖(tu)(tu)(tu)(圖(tu)(tu)(tu)三B),可(ke)以看到pDCs細胞的(de)marker基(ji)因(yin)(yin)集中表(biao)達(da)在(zai)cluster16中,結合該簇的(de)差(cha)異基(ji)因(yin)(yin)列表(biao)(圖(tu)(tu)(tu)二B),我(wo)們(men)(men)將cluster16定義為(wei)pDCs。
B.pDCs細胞marker基因表達Featureplot圖
C.按細胞類型著色聚類UMAP圖
D.不同細胞類型marker基因的dotplot圖
圖三 細胞類型注釋流程
第五(wu)步:如果當前選擇的(de)一些marker無法(fa)定義到(dao)已知(zhi)的(de)細胞類型(xing),我們會將這些細胞先(xian)定義為Unknown亞(ya)群。后續可(ke)以根據該亞(ya)群的(de)差異基因富集分析,反向推(tui)斷該亞(ya)群的(de)功能。
細(xi)胞(bao)(bao)類型注(zhu)釋(shi)完成后,確定(ding)不同細(xi)胞(bao)(bao)類型和(he)功能,可(ke)以對感興趣的(de)(de)(de)(de)細(xi)胞(bao)(bao)亞群(qun)進行后續(xu)的(de)(de)(de)(de)個性(xing)化(hua)分(fen)析(xi),比如分(fen)化(hua)軌跡(ji)推(tui)斷,細(xi)胞(bao)(bao)通訊分(fen)析(xi)等(deng)等(deng)。派森諾單(dan)細(xi)胞(bao)(bao)空轉產(chan)品部在(zai)單(dan)細(xi)胞(bao)(bao)轉錄組細(xi)胞(bao)(bao)注(zhu)釋(shi)及(ji)個性(xing)化(hua)分(fen)析(xi)方向,擁有(you)豐(feng)富的(de)(de)(de)(de)項目經(jing)(jing)驗(yan),形成了自有(you)的(de)(de)(de)(de)marker gene list,提供發育(yu)、免疫學(xue)、癌癥生(sheng)物(wu)學(xue)、神經(jing)(jing)生(sheng)物(wu)學(xue)等(deng)方向的(de)(de)(de)(de)分(fen)析(xi)服務,助力于不同生(sheng)物(wu)學(xue)領域的(de)(de)(de)(de)研(yan)究。
參(can)考文獻
1.Clarke ZA, Andrews TS, Atif J, Pouyabahar D, Innes BT, MacParland SA, Bader GD. Tutorial: guidelines for annotating single-cell transcriptomic maps using automated and manual methods. Nat Protoc. 2021 Jun;16(6): 2749-2764.