2021-07-23
單細(xi)胞(bao)的(de)測序自2009年開(kai)始(shi)(shi),短短十幾年的(de)時間呈現爆發式的(de)增長與普及,其在科(ke)研、醫療、診斷等(deng)多個領域發揮了重要的(de)作用。單細(xi)胞(bao)的(de)捕獲細(xi)胞(bao)數隨著各(ge)種技(ji)術的(de)迭(die)代,從最開(kai)始(shi)(shi)的(de)Smart-seq近百個細(xi)胞(bao)的(de)捕獲通量(liang)增加到10X genomics捕獲近萬個細(xi)胞(bao)。
通過使(shi)用納米芯片等技術,細胞數有(you)(you)了(le)巨(ju)大(da)的(de)(de)(de)(de)提(ti)升。最近研究(jiu)中的(de)(de)(de)(de)的(de)(de)(de)(de)原位(wei)條(tiao)形(xing)碼技術是(shi)的(de)(de)(de)(de)捕獲的(de)(de)(de)(de)量級(ji)(ji)達到了(le)十萬級(ji)(ji)的(de)(de)(de)(de)水(shui)平。并(bing)且,根(gen)據10X官方(fang)的(de)(de)(de)(de)介紹(shao),今(jin)年下(xia)半年預期會有(you)(you)更高級(ji)(ji)細胞水(shui)平通量的(de)(de)(de)(de)技術推出(chu)。
截至(zhi)今日,單細胞的(de)(de)(de)數據(ju)處(chu)理軟件多如牛毛(mao),從上游(you)的(de)(de)(de)數據(ju)比對軟件cellranger、kallisto,到歸一化的(de)(de)(de)處(chu)理方(fang)式、批次效應的(de)(de)(de)矯(jiao)正(zheng)模型,以(yi)及細胞的(de)(de)(de)降維方(fang)法,這(zhe)些(xie)軟件的(de)(de)(de)選取排列組(zu)合不下(xia)百種(zhong),如何進(jin)行選擇與調整往(wang)往(wang)會花(hua)費研究人員大(da)量的(de)(de)(de)時間。
現如(ru)今,Seurat(//satijalab.org/seurat/)作(zuo)(zuo)為一個整合諸多功能(neng)的(de)R包,因其封(feng)裝程(cheng)度高(gao),僅需(xu)幾個函(han)數(shu)就(jiu)可(ke)以完成大(da)量的(de)分(fen)析(xi)(xi)工(gong)作(zuo)(zuo),在單細(xi)胞下游細(xi)胞-表達量矩陣處理分(fen)析(xi)(xi)流(liu)程(cheng)上(shang)擁有著十(shi)分(fen)高(gao)的(de)歡迎程(cheng)度,許多的(de)科研機構都將之作(zuo)(zuo)為分(fen)析(xi)(xi)流(liu)程(cheng)中(zhong)主要的(de)統計繪圖工(gong)具。
但是,受(shou)限于單細胞的(de)(de)表達矩陣十分(fen)(fen)龐大(da)的(de)(de)原因(yin),隨著細胞數(shu)(shu)目(mu)的(de)(de)增長,需(xu)(xu)要加載至(zhi)內存的(de)(de)數(shu)(shu)據(ju)(ju)就(jiu)越發龐大(da)。據(ju)(ju)分(fen)(fen)析(xi)人員的(de)(de)測試,十個(ge)樣本,98000個(ge)左右細胞數(shu)(shu)量的(de)(de)文(wen)件,在(zai)完(wan)成聚類以及umap降維分(fen)(fen)析(xi)之后(hou),全部載入R中需(xu)(xu)要消耗(hao)近40G的(de)(de)內存(普通家用電腦的(de)(de)處(chu)理器內存僅為8G左右),如果加上后(hou)期其(qi)他分(fen)(fen)析(xi)所需(xu)(xu)的(de)(de)內存開銷(xiao),就(jiu)算(suan)正常的(de)(de)超(chao)算(suan)服(fu)務器配置都難以招架。
那么,基于這種(zhong)情況(kuang),開(kai)發(fa)人開(kai)發(fa)了Scanpy(Single-Cell Analysis in Python), 使用Python來實現有效地處理超過一百萬(wan)個細胞(bao)的數據(ju)集。
數據的讀入與存儲
在讀入與數據存儲方面,Scanpy具有多種讀取數據的接口,例如常規的Cellranger 10X轉錄組數據與空間轉錄組分析數據,以及經過轉換后的Seurat loom對象,并且也可以通過添加R語言支持來直接操作Seurat對象。Scanpy通常以anndata(//anndata.readthedocs.io/en/latest/)對象來進行存儲,即H5ad格式文件。AnnData 對象中將細胞稱為觀察值 observations ,將基因稱為變量 variables,并且可以為觀察值與變量添加多種feature,可以進一步擴展meta 信息。受益于H5ad文件格式索引起來十分快速,不需要將數據完全加載至內存中就能進行操作與計算。
分析與運算
在數據的(de)分析與計算方面,Scanpy與Seurat類似支持(chi)了PCA、tsne、umap等降(jiang)維方法。并且Scanpy提(ti)供(gong)leiden(Seurat推薦)和louvain兩(liang)種圖聚類算法,值得一(yi)提(ti)的(de)是(shi)Scanpy在聚類時運(yun)算速度相當快,在筆(bi)者的(de)工作(zuo)電(dian)腦(CPU:Intel I5-7400、內存8G)上(shang)對22501
個細胞進行聚(ju)類(lei)(對應(ying)Seurat中的(de)(de)FindNeighbors與(yu)FindClusters)用時僅花費1分(fen)08秒(miao)。這讓在(zai)個人PC上完成整套單細胞的(de)(de)繪圖與(yu)數據(ju)整合不(bu)再是夢想。另外,得益(yi)于Scanpy良好(hao)的(de)(de)擴(kuo)展性,基(ji)于Scanpy的(de)(de)相關的(de)(de)分(fen)析(xi)(xi)(xi)算(suan)法(fa)也不(bu)少,比如(ru)在(zai)分(fen)析(xi)(xi)(xi)細胞RNA速率中常用的(de)(de)scVelo,以及(ji)用于免疫組(zu)庫分(fen)析(xi)(xi)(xi)的(de)(de)擴(kuo)展scirpy等(deng)。
軟件繪圖與數據統計
scanpy基(ji)于(yu)matplotlib庫實(shi)現(xian)了(le)多種(zhong)多樣的(de)(de)(de)數據(ju)展示效果(guo),無論是(shi)marker可(ke)視化還是(shi)空間轉錄組的(de)(de)(de)可(ke)視化工(gong)作,scanpy都(dou)可(ke)以勝任,例如單(dan)細胞文章中(zhong)(zhong)展示marker基(ji)因的(de)(de)(de)堆疊小(xiao)提琴圖(tu)與(yu)(yu)Dotplot圖(tu),scanpy都(dou)做了(le)很好的(de)(de)(de)封(feng)裝工(gong)作。同時(shi)由于(yu)AnnData 中(zhong)(zhong)meta信息都(dou)是(shi)以pandas dataframe 進(jin)行的(de)(de)(de)存儲,所以數據(ju)的(de)(de)(de)統計與(yu)(yu)分(fen)(fen)析(xi)遍得十分(fen)(fen)的(de)(de)(de)簡單(dan)與(yu)(yu)方便(bian)。
結尾
隨著(zhu)單細胞(bao)樣本量的(de)增(zeng)加與捕獲細胞(bao)數(shu)的(de)增(zeng)多。使用Scanpy進行(xing)數(shu)據(ju)(ju)處(chu)理(li)的(de)高分文章也越(yue)來越(yue)多,相對更加輕量、快速的(de)分析流程(cheng)也縮短了客戶數(shu)據(ju)(ju)處(chu)理(li)的(de)周期,在(zai)交(jiao)付內(nei)容(rong)上即保證了準確性又保證了美(mei)觀(guan)程(cheng)度(du)。
參考文獻:
Svensson V, Vento-Tormo R, Teichmann SA. Exponential scaling of single-cell RNA-seq in the past decade. Nat Protoc. 2018 Apr;13(4):599-604. doi: 10.1038/nprot.2017.149. Epub 2018 Mar 1. PMID: 29494575.
Chen W, Zhao Y, Chen X, Yang Z, Xu X, Bi Y, Chen V, Li J, Choi H, Ernest B, Tran B, Mehta M, Kumar P, Farmer A, Mir A, Mehra UA, Li JL, Moos M Jr, Xiao W, Wang C. A multicenter study benchmarking single-cell RNA sequencing technologies using reference samples. Nat Biotechnol. 2020 Dec 21. doi: 10.1038/s41587-020-00748-9. Epub ahead of print. PMID: 33349700.
更多新聞咨詢請關注(zhu)派森(sen)諾官網