2023-07-06
一、前 言
單細(xi)胞測序(xu)文庫(ku)從Raw Data到Deduplicated Reads,其實是一(yi)個non-trivial的(de)流(liu)程。從fastq文件(jian)下(xia)機開始(shi),不同來源的(de)Reads需經過層層計算和篩選,最終(zhong)只有少(shao)部分(fen)Reads能保留在表達矩陣(或counts table)中。這里用一(yi)張(zhang)圖總(zong)結(jie),以幫(bang)助我們更好地(di)理(li)解單細(xi)胞文庫(ku)的(de)建庫(ku)和上游(you)分(fen)析(xi)(Upstream Analysis)。
二、示意說明
流(liu)程圖讀(du)(du)法:從(cong)下(xia)往上讀(du)(du),不(bu)同(tong)顏色代表(biao)不(bu)同(tong)分析階(jie)段的(de)Reads;畫斜條紋陰影的(de)線(xian)段表(biao)示當(dang)前步驟到下(xia)一步中被清除掉的(de)Reads。 黑色:Total Input Reads,一般我用的(de)是(shi)測序(xu)下(xia)機后(hou)(hou)的(de)Clean Reads(公(gong)司給的(de)QC質控(kong)后(hou)(hou)的(de)Cleandata) 黑色->紫色:umi_tools whitelist, wash_whitelist, umi_tools extract 黑色陰影(ying):Reads with Non-correctable Reads, invalid Barcode & UMI (discarded) 紫(zi)色:Barcode有效的Reads(Reads with valid Barcode & UMI) 紫色(se)->黃色(se):STAR 紫(zi)色陰影:Reads NOT Unique Mapped to Genome (discarded) 黃色:Unique Mapped Reads,在10X中也叫Confidently Mapped Reads(Unique Mapped, valid Barcode & UMI Reads) 黃色->綠色(se):featureCounts 黃(huang)色(se)陰影:Unique Mapped, valid Barcode & UMI but NOT assigned to feature 綠色:Effective Reads,即Unique Mapped, valid Barcode & UMI, feature assigned Reads 綠(lv)色->藍色:umi_tools count 藍色陰影:Reads Collapsed due to UMI deduplication 藍色:Deduplicated Reads,即最(zui)終用于生成表達矩(ju)陣的對Reads計數的結(jie)果 有了這張圖,我們可以做一個簡(jian)單(dan)直(zhi)觀的(de)推論:如果想(xiang)提(ti)高單(dan)細胞測序的(de)技術質量,則必須盡可能減少(shao)陰影部(bu)分的(de)Reads在(zai)總文庫中的(de)比例。
三、指導下游分析
仔細思考實驗流程,會發現每個陰影部分會受不同因素的影響。 黑色陰影(ying):主(zhu)要影響(xiang)因素(su)之一是Barcode & UMI序列質量,即TSO引物質量;也有可能受(shou)TSO concatamer、RNA降解因素(su)影響(xiang) 紫色(se)陰影:主(zhu)要影(ying)響(xiang)因素是樣本制備質(zhi)量(liang),即(ji)細胞(bao)活率(lv)、異源RNA污染等 黃(huang)色陰(yin)影:主要影響因素是生物學(xue)樣本內非mRNA成分的比例,如premRNA等,可能與樣本本身生物學(xue)性質有關 藍色陰影(ying):主要與擴增循(xun)(xun)環數(shu)有(you)關,該部分Reads過多可能是因為擴增循(xun)(xun)環數(shu)過高 “降低(di)陰影部分比(bi)例(li)”可以作為(wei)單細胞(bao)測(ce)序實驗的(de)一項指導原則(ze),幫助我們(men)進行實驗條件(jian)的(de)摸(mo)索,也可以作為(wei)單細胞(bao)技(ji)術(shu)開(kai)發(fa)的(de)一項指導原則(ze),幫助我們(men)迭代優化試劑組(zu)成。