2024-01-08
組(zu)學測序的(de)(de)腳步已邁入單(dan)(dan)細(xi)胞(bao)時代(dai),在科學探究的(de)(de)過程中,眾多科研(yan)人(ren)員正在準備或已經將單(dan)(dan)細(xi)胞(bao)測序技術納(na)入自己的(de)(de)科研(yan)方法(fa)和項目亮點當中,對(dui)于(yu)單(dan)(dan)細(xi)胞(bao)轉錄(lu)組(zu)數據(ju)(ju)(ju)的(de)(de)處(chu)理,可(ke)能(neng)會遇到大大小(xiao)小(xiao)的(de)(de)疑(yi)問。本期就針對(dui)數據(ju)(ju)(ju)處(chu)理過程中的(de)(de)常見疑(yi)問、出現原因及解決方案做一個匯總,希望能(neng)對(dui)各位老師在數據(ju)(ju)(ju)挖掘上提供些幫助(zhu),同時也祝愿各位老師新的(de)(de)一年里基金申請順(shun)利,成果產出豐(feng)碩,科研(yan)再上巔(dian)峰!
1、單細胞(bao)(bao)項目中,最終每個樣(yang)本的細胞(bao)(bao)捕獲數(shu)目是怎么判定(ding)的?
答:
10x單細(xi)(xi)胞(bao)平臺的(de)(de)初步細(xi)(xi)胞(bao)數目判(pan)定(ding)(ding)是(shi)(shi)由Cellranger軟件完成的(de)(de)。Cellranger是(shi)(shi)10x公司發布的(de)(de)針對10x單細(xi)(xi)胞(bao)數據(ju)進行質控分析的(de)(de)軟件,它對于細(xi)(xi)胞(bao)數的(de)(de)判(pan)定(ding)(ding)是(shi)(shi)根(gen)據(ju)一(yi)定(ding)(ding)的(de)(de)算法規(gui)則(ze)來的(de)(de)。單細(xi)(xi)胞(bao)數據(ju)中,我們認為(wei)一(yi)個(ge)Barcode(或者(zhe)說一(yi)個(ge)液(ye)滴)就是(shi)(shi)一(yi)個(ge)細(xi)(xi)胞(bao)。通(tong)常認為(wei)含有(you)細(xi)(xi)胞(bao)的(de)(de)液(ye)滴應該含有(you)更多的(de)(de)mRNA,因此其(qi)在(zai)(zai) UMI 總量上應該與(yu)空(kong)液(ye)滴(背景(jing)噪(zao)音(yin))存在(zai)(zai)明顯的(de)(de)區(qu)分(也就是(shi)(shi)我們常說的(de)(de) Barcodes 排(pai)序圖(tu)上的(de)(de)拐點,見圖(tu)1右(you)圖(tu))。然(ran)而實際上有(you)時候無法僅通(tong)過 UMI 總數很好地區(qu)分空(kong)液(ye)滴和(he)非(fei)空(kong)液(ye)滴。尤其(qi)當樣(yang)本中混雜了(le)不同(tong)大(da)小(xiao)的(de)(de)細(xi)(xi)胞(bao),小(xiao)細(xi)(xi)胞(bao)由于其(qi)轉錄豐度較低(di)的(de)(de)特點,可(ke)能會難以與(yu)空(kong)液(ye)滴區(qu)分。
因此,CellRanger的算法采(cai)用了(le)兩(liang)步(bu)法來識別細胞( Lun et al., 2019)。
?第一(yi)步(bu),把每個Barcode所含(han)UMI進行統計(ji),所有大于某一(yi)UMI閾值的(de)Barcodes被識(shi)別為細胞。這一(yi)步(bu)保(bao)證了高RNA含(han)量的(de)Barcodes被保(bao)留。
?第二步,把剩余(yu)未(wei)通過(guo)閾值的Barcodes與空液(ye)滴RNA表(biao)達(da)譜進行比(bi)較來回收可(ke)能的低(di)(di)RNA含量(liang)細胞(bao)。如果樣本(ben)中本(ben)身所(suo)含細胞(bao)類型的轉(zhuan)錄豐(feng)度差異大,那么低(di)(di)表(biao)達(da)細胞(bao)很容(rong)易被誤判為背景(jing),這種情況下解(jie)決方案(an)可(ke)參(can)見(jian)后續問(wen)答3。
圖1 細(xi)胞判(pan)定算法與Barcode-UMI分布圖
2、為(wei)什么Cellranger質控顯示細胞數目與預(yu)期不符,可能原因有(you)哪些?
答:
首先我們要(yao)知(zhi)道,單細胞(bao)(bao)實驗由于其技術原理(li)限(xian)制(zhi),無法準確保證最終(zhong)細胞(bao)(bao)捕(bu)獲數目(mu)一定與預期細胞(bao)(bao)數分(fen)毫(hao)不差,小范圍內的上(shang)下波(bo)動都是正常現象。影響細胞(bao)(bao)數目(mu)判定的因(yin)素(su)有很多。那(nei)么具體有哪些(xie)因(yin)素(su)會影響最終(zhong)的細胞(bao)(bao)捕(bu)獲數目(mu)呢?
① 樣本(ben)方面因素,比(bi)如:細(xi)(xi)胞(bao)狀態(活性和內(nei)部狀態)、細(xi)(xi)胞(bao)懸(xuan)液(ye)背景雜質、細(xi)(xi)胞(bao)濃度、細(xi)(xi)胞(bao)大小是(shi)否均(jun)一、細(xi)(xi)胞(bao)形狀是(shi)否規則、細(xi)(xi)胞(bao)結團率等都有關系(xi)。在此額外提一句,什么是細胞內部狀態,就是有一些細胞,它雖然檢測活性的時候可能是合格的,但是它的內部狀態可能已經處在凋亡階段,那這時候我們是沒辦法去判斷的,那后續上了單細胞的儀器之后,它可能在形成油包水之前或過程中就凋亡了,在這個過程中我們沒有辦法去判斷和檢測,因此最后可能會出現質控顯示細胞數目與預期不符的情況。
經過我們多年實驗經驗發現,不(bu)同的細胞懸(xuan)液(ye)情況可(ke)能導致(zhi)最(zui)終數(shu)據(ju)呈現也不(bu)同:
如果懸液中(zhong)大細胞與小細胞都(dou)比(bi)較(jiao)多,那么由于高豐度RNA與低豐度RNA細胞區分太明顯而導致小細胞被誤判定為背景噪音區,從而造成計算得到的細胞數目與預期捕獲數目相比偏少;
如果懸液(ye)中小細胞整體偏多(duo),那么有可能會使細胞與背景噪音無法很好的區分開,從而造成計算得到的細胞數目與預期捕獲數目相比偏多;
如果懸液(ye)中部分細(xi)胞(bao)內部狀態不好(hao),狀態差的細胞在形成液滴的過程中可能會進一步降解,那么也會導致計算得到的細胞數目與預期捕獲數目相比偏少;
如(ru)果懸液中背景雜質過(guo)多,雜質也會進入液滴中,此時容易發現最終判定得到的細胞數目與預期相比偏多。
當然除以上之外也會有(you)其他情況,比如細(xi)(xi)胞(bao)結團過高可能會導致雙細(xi)(xi)胞(bao)率(lv)偏高等······如果老師(shi)有(you)關于(yu)細(xi)(xi)胞(bao)懸液制備的(de)任何問題都可隨時咨詢(xun)我們(men),我們(men)有(you)豐富的(de)樣(yang)本制備經驗~
小鼠主動脈血管(guan)解離(li)展示:
人(ren)前列腺癌(ai)腰椎轉移樣本解離展示:
非(fei)人鼠樣本解離(li)展示:
圖2 不同(tong)類型(xing)樣本解離結果展示
② 外界因素,比如儀器細胞計數準確度、細胞活性準確度以及人為實驗操作等等。但實際上(shang)這種情(qing)況基(ji)本不會發生,因為我們在做之前都會對儀器進行質檢,從而避免這種批量性問題。
3、如果cellranger質控顯示(shi)細胞數目與(yu)預期不符,這種情(qing)況會影響數據發表嗎?
答:
① 單細胞測序發展至今,大部分都會做多個生物學重復,因此個別(bie)樣(yang)本的(de)細(xi)胞數(shu)捕獲數(shu)目(mu)偏低(di)或偏高對整體(ti)數(shu)據分析基本無影(ying)響,最(zui)終分析也(ye)不會看(kan)單個樣(yang)本細(xi)胞數(shu)目(mu)絕對值的(de)差異,更多的(de)是(shi)看(kan)不同(tong)組(zu)間的(de)細(xi)胞類(lei)型(xing)和(he)占比(bi)。
② Cellranger結果里除細胞數目外還有2個指標(中位基因和測序深度)也非常重要。因為總的測序數據量是固定的,當捕獲細胞數目變少,意味著平攤到每個細胞的測序數據量增加了(即測序深度增加),測序深度增加會提高中位基因數和測序飽和度指標,也就意味著每個細胞捕獲到的基因數目多了,這樣(yang)可能會提高一些中低豐度(du)基因的檢(jian)出(chu)率(lv)。
③ 細胞(bao)數(shu)目不是決定數(shu)據質量的最重(zhong)要因素,很多(duo)高分(fen)文章實際上單個樣本(ben)捕獲的細胞(bao)數(shu)目也并沒有(you)那么多(duo),建議可以(yi)將重(zhong)點放在下游的數(shu)據挖(wa)掘(jue)上。比如這篇2023年的Cell Discovery上的小鼠腸道文章(DOI:10.1038/s41421-023-00578-4,IF:33.5),12個小鼠共獲得3萬多個細胞,平均每個樣本細胞數不足3000;2023年的Signal Transduction and Targeted Therapy上的人類胎兒BM基質的細胞的文章(DOI:10.1038/s41392-023-01338-2,IF:39.3),9個胚胎樣本最后得到不足9000細胞,平均每個樣本細胞數不足1000;2022年的Nature Genetics上的人結直腸癌文章(DOI:10.1038/s41588-022-01088-x,IF:30.8),質控后獲得了來自70個樣本的總計20w個細胞,平均每個樣本細胞數不足3000;
圖3 人結直腸癌項(xiang)目樣本數(shu)目和總細胞分(fen)群(qun)結果展(zhan)示(shi)
④ 我們在后續(xu)數(shu)據挖掘時也可以(yi)根據具體(ti)情況(kuang)進(jin)行人(ren)工調整,比如使(shi)(shi)用Cellranger自帶的(de)(de)(de)參(can)數(shu)--force-cells進(jin)行嘗(chang)試調整(該參(can)數(shu)是10x官方推薦(jian)使(shi)(shi)用的(de)(de)(de))。或者是通過(guo)(guo)細胞過(guo)(guo)濾參(can)數(shu)再進(jin)一步把低(di)質量(liang)的(de)(de)(de)細胞和異常高表達的(de)(de)(de)細胞過(guo)(guo)濾掉。
圖4 10x官方(fang)對于細胞判定不準(zhun)情(qing)況的補充說明
4、什么(me)是(shi)低質量細胞(bao),低質量細胞(bao)可以去除嗎?
答:
低質量細胞一般有兩種,①是(shi)被誤判定(ding)為細(xi)(xi)(xi)胞(bao)的(de)背景噪音(具(ju)體(ti)原因(yin)見問題1);②是(shi)狀態較差的(de)細(xi)(xi)(xi)胞(bao)。這類細(xi)(xi)(xi)胞(bao)一般中值基(ji)因(yin)/UMI還行(因(yin)此(ci)不會在細(xi)(xi)(xi)胞(bao)過(guo)濾的(de)時候被過(guo)濾掉),但(dan)是(shi)會發(fa)現這群細(xi)(xi)(xi)胞(bao)會泛表達(da)各種細(xi)(xi)(xi)胞(bao)的(de)marker,或者是(shi)表達(da)的(de)基(ji)因(yin)大部分都是(shi)線粒體(ti)基(ji)因(yin)或核糖體(ti)基(ji)因(yin)(特殊(shu)樣本(ben)除外),這種細胞分析價值不大,并且因為其表達譜異常,通常會被分到一個群里,在注釋的時候可以區分(fen)出來并直接刪除低(di)質量細胞,避免影(ying)響后(hou)續分(fen)析。
參考文獻:
[1]//www.10xgenomics.com/support/software/cell-ranger/algorithms-overview/cr-gex-algorithm
[2]Lun, A., Riesenfeld, S., Andrews, T. et al. EmptyDrops: distinguishing cells from empty droplets in droplet-based single-cell RNA sequencing data. Genome Biol 20, 63 (2019). //doi.org/10.1186/s13059-019-1662-y
[3]Becker, W.R., Nevins, S.A., Chen, D.C. et al. Single-cell analyses define a continuum of cell state and composition changes in the malignant transformation of polyps to colorectal cancer. Nat Genet 54, 985–995 (2022). //doi.org/10.1038/s41588-022-01088-x