2021-10-15
與傳統的(de)轉(zhuan)錄組測序相比,單(dan)細(xi)胞(bao)測序技術噪聲很大,使(shi)得(de)單(dan)細(xi)胞(bao)轉(zhuan)錄組數據包含大量的(de)dropout事件(導致基(ji)(ji)因表達量為(wei)0或接近0),即(ji)使(shi)是一些標(biao)記(Marker)基(ji)(ji)因也(ye)有可能表達量很低。當在使(shi)用其對聚(ju)類的(de)細(xi)胞(bao)類型進行注(zhu)釋(shi)的(de)時(shi)候,往往會影(ying)響可視(shi)化效果。
Nebulosa是(shi)一個(ge)基于加(jia)權核密度估(gu)計(ji)新出的(de)(de)R包(bao),用(yong)于可(ke)視化單細(xi)胞的(de)(de)數據(ju)。它的(de)(de)目(mu)的(de)(de)是(shi)通過納入(ru)細(xi)胞之間的(de)(de)相似性,允(yun)許細(xi)胞特征(zheng)的(de)(de) "卷(juan)積",來(lai)恢(hui)復(fu)丟失的(de)(de)基因(yin)信號。
數據準備
首(shou)先需要安裝和加(jia)載相(xiang)應的包:
if (!requireNamespace("BiocManager", quietly = TRUE))
install.packages("BiocManager")
BiocManager::install("Nebulosa")
library("Nebulosa")
library("Seurat")
測試數據選擇10x Genomics 免費(fei)提(ti)供的外周血單(dan)核細(xi)胞(PBMC)數據集,約有2700個(ge)細(xi)胞(//cf.10xgenomics.com/samples/cell/pbmc3k/pbmc3k_filtered_gene_bc_matrices.tar.gz),下(xia)載完(wan)解壓獲得單細胞表達(da)矩陣文(wen)件夾(jia)。接下(xia)來就(jiu)簡單的導入(ru)數(shu)據對其進行(xing)質控啦。
data <- Read10X(data.dir = "filtered_gene_bc_matrices/hg19/")
pbmc <- CreateSeuratObject(counts = data,project = "pbmc3k",min.cells = 3,min.features = 200)
pbmc[["percent.mt"]] <- PercentageFeatureSet(pbmc, pattern = "^MT-")
pbmc <- subset(pbmc, subset = nFeature_RNA < 2500 & percent.mt < 5)
接下來可以(yi)(yi)(yi)進行數據的(de)標準化、降維、聚(ju)類(lei),最(zui)后(hou)可以(yi)(yi)(yi)獲得UMAP聚(ju)類(lei)圖(Fig 1),結果(guo)保存為.rds文件。具體教程詳見(jian)我們以(yi)(yi)(yi)往的(de)文章(zhang)。
pbmc <- SCTransform(pbmc, verbose = FALSE)
pbmc <- RunPCA(pbmc)pbmc <- RunUMAP(pbmc, dims = 1:30)
pbmc <- FindNeighbors(pbmc, dims = 1:30)
pbmc <- FindClusters(pbmc)
DimPlot(pbmc, label = TRUE, repel = TRUE)
saveRDS(pbmc,"pbmc.rds")
Fig 1:UMAP聚類圖
Marker基因可視化
Nebulosa主函(han)數是(shi)plot_density;和Seurat的(de)(de) FeaturePlot 函(han)數類(lei)似。通過(guo)下面兩條代碼,可(ke)以(yi)簡單的(de)(de)對比一下。
plot_density(pbmc, "CD4")
FeaturePlot(pbmc, "CD4")
Fig2:CD4在Nebulosa(左圖)和FeaturePlot(右圖)的UMAP可視化
可(ke)視(shi)化(hua)結(jie)果(guo)發(fa)現,Nebulosa可(ke)視(shi)化(hua)(左圖)會比Seurat自帶的繪(hui)圖函(han)數(shu)(右(you)圖)效果(guo)好很多;同(tong)時也表明了CD4+ cell存在相當多的dropout。再加上CD3D可(ke)視(shi)化(hua)結(jie)果(guo)(Fig3),我們很容易(yi)可(ke)以判斷cluster 0,1為 CD4+ T cell。
Fig 3:CD3D UMAP可視化
數據準備多個Marker基因聯合可視化
知道了cluster 0,1是CD4+ T cell,讓我(wo)們來鑒定(ding)(ding)(ding)Naive CD4+ T cells吧!更復雜的(de)亞群鑒定(ding)(ding)(ding)需要多個marker一起(qi)來判定(ding)(ding)(ding)。只(zhi)需要一行代(dai)碼,Nebulosa可以將(jiang)多個marker鑒定(ding)(ding)(ding)的(de)結果組(zu)合起(qi)來。
plot_density(pbmc, c("CD4", "CCR7"), joint = TRUE)[[3]]
Fig 4:Naive CD4+ T cells鑒定
我們很(hen)容易鑒定Naive CD4+ T cells,值(zhi)得注(zhu)意的是這些細胞(bao)主要包含于(yu)cluster 0(CD4+ T cell)(Fig 4)。
熟(shu)悉PBMC的讀(du)者應(ying)該知道,Naive CD8+ T cells(CD8+CCR7+細(xi)胞)通常聚集在CD4+CCR7+旁邊(bian),與其他(ta)CD8+細(xi)胞分開。我們也可以驗證這一點,下圖鑒定了cluster 9為Naive CD8+ T cell,它聚集在CD4+CCR7+旁邊(bian)(Fig5)。
plot_density(pbmc, c("CD8A", "CCR7"), joint = TRUE)[[3]]
Fig 5:Naive CD8+ T cells的鑒定
總之(zhi),Nebulosa對(dui)于檢測dropped-out genes信號和改善其在低維空間的(de)(de)可(ke)視(shi)(shi)(shi)化是有(you)效的(de)(de),對(dui)于基因表(biao)達較好的(de)(de)基因,直接基因表(biao)達可(ke)視(shi)(shi)(shi)化是更(geng)好的(de)(de)選擇。我們可(ke)以多多嘗試(shi)Nebulosa和Seurat以及Bioconductor中其他可(ke)視(shi)(shi)(shi)化方法(fa)一起使用,進而得出更(geng)加可(ke)靠的(de)(de)分析結論。