2021-04-30
與常規的RNA-Seq一樣(yang),10x單(dan)細胞RNA-Seq/ST-Seq也(ye)需要測序(xu)數據比對(dui)到參考(kao)基(ji)(ji)因組進行基(ji)(ji)因的定量(liang)。那么參考(kao)基(ji)(ji)因組的質量(liang)就對(dui)單(dan)細胞的分析結果有著(zhu)重大的影響。
接下來小(xiao)編就給(gei)大家介(jie)紹(shao)一下10x單細胞分析的參考基因組(zu)準備。 1、10x官方提(ti)供的(de)參考(kao)基(ji)因(yin)組 對于常用(yong)的(de)(de)人和小鼠,10x官方(fang)提供了經(jing)過(guo)處理(li)的(de)(de),可以直接用(yong)來定量的(de)(de)參考基(ji)因組,可以在下面的(de)(de)鏈接中下載(zai)(//support.10xgenomics.com/spatial-gene-expression/software/downloads/latest)。 可以(yi)看到人(ren)的(de)基(ji)因組(zu)版本(ben)為(wei)GRCh38,小鼠的(de)為(wei)mm10。都是(shi)目前(qian)常用的(de)基(ji)因組(zu)版本(ben),所以(yi)如果您研究的(de)是(shi)人(ren)或(huo)者(zhe)小鼠,那么直接從10x官方下載吧(ba),是(shi)不是(shi)很方便呢! 2、自建參考(kao)基因組 如果您希望使用最新的人/小(xiao)鼠基因(yin)組,或者(zhe)研(yan)究的是其他物種(zhong),那么就需要自行(xing)構(gou)建(jian)參考(kao)基因(yin)組了。單細胞進行(xing)基因(yin)定(ding)量(liang)主要分為兩步(bu): 1.測序數據與參考基因(yin)組(zu)比對,獲取reads在基因(yin)組(zu)上(shang)的(de)位置(zhi); 2.根(gen)據reads比對(dui)信(xin)息和(he)參考基因的(de)位(wei)置,對(dui)基因進行(xing)計(ji)數。 所以我們需要準備兩個文(wen)件(jian)(jian),基因組的(de)DNA序(xu)列文(wen)件(jian)(jian)(FASTA格式(shi))和基因的(de)注釋文(wen)件(jian)(jian)(GTF格式(shi))。常用的(de)Ensembl和NCBI數據庫都提供(gong)了這兩種(zhong)格式(shi)的(de)文(wen)件(jian)(jian)。以Ensembl為例(li),打開Ensembl(//asia.ensembl.org/info/data/ftp/index.html)下載(zai)頁面。 這里我們以人基(ji)因組(zu)為例,點(dian)擊相應的(de)FASTA和GTF超鏈接,可以看到如下頁面: 需要(yao)(yao)注意(yi)的是,大部分物種我們(men)需要(yao)(yao)下載toplevel的序(xu)列文件,但是對于人和小鼠(shu)這類(lei)有單倍型信(xin)息的基因組,我們(men)需要(yao)(yao)下載primary_assembly的序(xu)列。將(jiang)下載好的文件傳(chuan)到linux主機(ji)上。 10x單細胞使用的(de)(de)(de)(de)polydT進行RNA逆轉(zhuan)錄,只能測到帶有polyA尾的(de)(de)(de)(de)RNA序列,所以我們需(xu)要從GTF文(wen)件(jian)中過(guo)(guo)濾掉(diao)non-polyA的(de)(de)(de)(de)基(ji)因(yin)。Cellranger的(de)(de)(de)(de)mkgtf命(ming)令(ling)可(ke)以對GTF文(wen)件(jian)進行過(guo)(guo)濾,通過(guo)(guo)--attribute參數指定需(xu)要保留的(de)(de)(de)(de)基(ji)因(yin)類型: Ensembl和NCBI提供的GTF文(wen)件(jian)(jian)通常都有gene_biotype標(biao)簽來標(biao)記(ji)基因的類(lei)型。如果從其他來源下載的GTF文(wen)件(jian)(jian)中沒(mei)有gene_biotype標(biao)記(ji),那(nei)么就(jiu)不需要對GTF進行(xing)過濾。 處(chu)理完GTF文件之后,就可以使用(yong)cellranger的mkref命令構建基因組(zu)了(le): 這一(yi)步根據基(ji)因(yin)組的(de)大小(xiao)(xiao),需要的(de)內存(cun)和運(yun)行時間(jian)不同。人的(de)基(ji)因(yin)組大約(yue)有3G個堿基(ji)對,小(xiao)(xiao)編在構(gou)建基(ji)因(yin)組時,使用了約(yue)20G內存(cun),耗時約(yue)1.5h。所以建議在大型工(gong)作(zuo)站或者服務器(qi)等(deng)配置較高的(de)機器(qi)上運(yun)行。看到如(ru)下(xia)信息就表示運(yun)行順(shun)利完(wan)成啦! 構建好(hao)的(de)基因組就可(ke)以進(jin)行(xing)下一步的(de)定量啦!