国产午夜精品无码一区二区,国产成人无码网站,日本少妇xxxx做受,欧美视频二区欧美影视,女人被躁到高潮嗷嗷叫游戏

首頁> 關于我們 >新聞中心>技術分享>新聞詳情

大揭秘!單細胞轉錄組測序細胞關鍵質控流程的價值

2025-03-27

Highlights

1.本文系統梳理單細胞轉錄組(zu)測序關鍵(jian)質控流程,涵蓋數據比對(dui)、細胞(bao)(bao)識別、背景去除(chu)、低質量(liang)細胞(bao)(bao)去除(chu)、多(duo)胞(bao)(bao)去除(chu)等(deng)環節,詳細解析 Cell Ranger、soupX、Cellbender、Seurat、Scanpy、DoubletFinder 等(deng)主流軟(ruan)件技(ji)術原理。

2.單細胞轉錄組測序質控流程可解決(jue)實驗(yan)數據失(shi)真(zhen)問題,通過各環節質控與軟件協作,為后續細胞類型分析、狀態研究及細胞間相互作用探究提供可靠數據(ju)支撐

3.派森諾單細胞轉錄組依托 10x Genomics 平臺,優(you)化質控流程(cheng),提供樣本處理至數(shu)據挖(wa)掘(jue)標準化服務,確保數(shu)據的高質量(liang)與可用性,助力老師科研。

單細胞(bao)轉錄(lu)組(zu)測序(scRNA-seq)技(ji)術(shu)通過解(jie)析單個細胞(bao)的(de)基因表達圖譜(pu),為生命科(ke)學研究開(kai)辟了(le)全新維度(du)。然而(er),實驗過程(cheng)中不可避免(mian)的(de)空液(ye)滴、低質(zhi)(zhi)量細胞(bao)、雙(shuang)胞(bao)污染及環境 RNA 干擾,可能導(dao)致(zhi)數據失真。本(ben)文(wen)系統梳理單細胞(bao)轉錄(lu)組(zu)測序的(de)關鍵(jian)質(zhi)(zhi)控流程(cheng),揭示主(zhu)流軟件的(de)技(ji)術(shu)原理與應(ying)用價值。

一、數據比對——Cell Ranger的精準(zhun)定位術

數據(ju)比(bi)對是(shi)將測序得到(dao)的原始讀段(cDNA片段)與參(can)考(kao)基因組(zu)或(huo)轉(zhuan)錄組(zu)進(jin)行匹配(pei),確定其在(zai)基因組(zu)上的位置,為后續(xu)分析提供(gong)關鍵支(zhi)撐。Cell Ranger 作為 10x Genomics 平臺的配(pei)套工具可以通(tong)過以下流程,高效地(di)將復雜的測序數據(ju)轉(zhuan)化(hua)為直觀(guan)的基因表達矩陣(zhen)。

流程如下(xia):

1.樣本拆分:通過cellranger mkfastq將混樣測序數(shu)據按樣本標簽拆分為獨立(li)的fastq文件。

2.序(xu)列(lie)提取:從測(ce)序(xu)數據(ju)(ju)的(de)(de) R1 端(duan)提取 16bp 的(de)(de)細(xi)胞條(tiao)形碼(Barcode)和 12bp 的(de)(de) UMI 序(xu)列(lie),Barcode 用(yong)(yong)于(yu)(yu)區分不同細(xi)胞,UMI 則能精準計(ji)數基(ji)因表達量,而 R2 端(duan)數據(ju)(ju)主(zhu)要用(yong)(yong)于(yu)(yu)基(ji)因比(bi)對。

3.參考基因(yin)(yin)組(zu)比(bi)(bi)對(dui):基于(yu)STAR算(suan)法(fa),將測序片段比(bi)(bi)對(dui)到參考基因(yin)(yin)組(zu),并區(qu)(qu)(qu)分外(wai)顯子(zi)(zi)(zi)、內含子(zi)(zi)(zi)和基因(yin)(yin)間區(qu)(qu)(qu)(規則:50%以上比(bi)(bi)對(dui)到外(wai)顯子(zi)(zi)(zi)才記為外(wai)顯子(zi)(zi)(zi)區(qu)(qu)(qu))。

4.質量(liang)控制:校正Barcode(允許1個堿基錯配),過濾無效UMI(如含(han)AAAAAAAAAA的同聚物),最(zui)終生成原始表達矩陣,為后續分析奠定基礎。

二、細胞識別:Cell Ranger 精準定位(wei) “真細胞”

在(zai)單細胞(bao)測序實驗中,每個(ge)(ge)細胞(bao)會被分配唯一的細胞(bao)條形碼(ma),Cell Ranger 會識別(bie)這些條形碼(ma)。它通(tong)過統計(ji)每個(ge)(ge)條形碼(ma)關聯的測序 reads 數和獨特分子標(biao)識符(UMI)數,評估(gu) “潛在(zai)細胞(bao)” 的測序深度和數據(ju)(ju)質量。高質量細胞(bao)數據(ju)(ju)具有充足(zu)測序深度和合(he)理(li) UMI 計(ji)數,利于后(hou)續(xu)細胞(bao)精準識別(bie)。

Cell Ranger 軟(ruan)件主要根(gen)據(ju) UMI 計(ji)數(shu)(shu)分(fen)布(bu)(bu)識別細(xi)胞,通(tong)(tong)過每個細(xi)胞條形碼(ma)對(dui)應的(de) UMI 計(ji)數(shu)(shu)構建分(fen)布(bu)(bu)。通(tong)(tong)常,真(zhen)實(shi)細(xi)胞的(de) UMI 計(ji)數(shu)(shu)遠高于背(bei)景噪(zao)音(yin),軟(ruan)件通(tong)(tong)過設定基(ji)因(yin)表(biao)達量(liang)閾(yu)值識別“潛在細(xi)胞”,“潛在細(xi)胞” 的(de)表(biao)達基(ji)因(yin)數(shu)(shu)量(liang)或總體表(biao)達量(liang)高于閾(yu)值則被認定為真(zhen)實(shi)細(xi)胞,反(fan)之(zhi)則為背(bei)景噪(zao)音(yin)。背(bei)景噪(zao)音(yin)的(de)基(ji)因(yin)表(biao)達量(liang)低且分(fen)布(bu)(bu)均勻(yun),與真(zhen)實(shi)細(xi)胞差異(yi)明(ming)顯。

某些情況下,自(zi)(zi)動(dong)識(shi)別可(ke)能(neng)(neng)無(wu)法(fa)準確判(pan)定細(xi)(xi)(xi)胞(bao)(bao)(bao)(bao)數量。如樣(yang)本(ben)細(xi)(xi)(xi)胞(bao)(bao)(bao)(bao)活性差、捕獲效率低或存在大量背(bei)景(jing) RNA 污染時,自(zi)(zi)動(dong)識(shi)別的細(xi)(xi)(xi)胞(bao)(bao)(bao)(bao)數量可(ke)能(neng)(neng)低于實際。此時可(ke)借助條(tiao)形碼秩圖,利用 force - cells 功能(neng)(neng)重(zhong)新識(shi)別被誤判(pan)為背(bei)景(jing)的細(xi)(xi)(xi)胞(bao)(bao)(bao)(bao)并納入統(tong)計,使最終細(xi)(xi)(xi)胞(bao)(bao)(bao)(bao)數更符合(he)實驗預期,確保(bao)后(hou)續數據(ju)分析可(ke)靠。

三(san)、背景去除:soupX 與(yu) Cellbender “凈化” 數據(ju)

在實(shi)際的(de)(de)單細(xi)胞(bao)測序數(shu)據常受到背景信號(hao)的(de)(de)干(gan)擾,這(zhe)些背景信號(hao)來源于細(xi)胞(bao)外 RNA 污染、細(xi)胞(bao)破碎(sui)后的(de)(de) RNA 泄露或樣本處理過程(cheng)中(zhong)的(de)(de)雜質(zhi)。背景信號(hao)會導(dao)致虛假基(ji)因(yin)(yin)表達(da)(da)信息,模糊細(xi)胞(bao)間的(de)(de)基(ji)因(yin)(yin)表達(da)(da)差異(yi),影響對細(xi)胞(bao)類型、狀(zhuang)態和(he)相(xiang)互作用的(de)(de)分(fen)析。此時需(xu)借助軟件去(qu)除(chu),主要(yao)有兩種soupX和(he)Cellbender。

注:單細(xi)胞測序實驗中(zhong)通過 poly (A) 捕(bu)獲已自然排除核糖(tang)體 RNA 等背(bei)景(jing),且(qie)質(zhi)控聚焦于過濾(lv)低(di)質(zhi)量細(xi)胞(如線粒體基因比例(li)、檢測基因數(shu)閾值(zhi))已經做了背(bei)景(jing)去除,所以一般正常情(qing)況下為了保留更多的低(di)豐度(du)轉錄本的異(yi)質(zhi)性信號(hao)無需背(bei)景(jing)去除。

SoupX 專(zhuan)注(zhu)于去(qu)除因(yin)(yin)(yin)細胞(bao)裂解(jie)導致的(de)游離 RNA 污染。它通過統(tong)計分析,依據基(ji)因(yin)(yin)(yin)在(zai)不(bu)同細胞(bao)中(zhong)的(de)表達(da)模式,識別出(chu)在(zai)背景(jing)高表達(da)、細胞(bao)內(nei)低表達(da)的(de)基(ji)因(yin)(yin)(yin),估算背景(jing)組成并(bing)從原始基(ji)因(yin)(yin)(yin)表達(da)矩陣(zhen)中(zhong)減去(qu),使數據更(geng)真實(shi)地(di)反(fan)映目標(biao)細胞(bao)的(de)表達(da)情(qing)況。下(xia)面左圖中(zhong)Slc17a7是小鼠的(de)興奮性神經(jing)元(yuan)經(jing)典marker,在(zai)某些非神經(jing)元(yuan)細胞(bao)中(zhong)也高表達(da),是比較(jiao)典型的(de)環境RNA污染,去(qu)除 Slc17a7 等環境 RNA 污染后,神經(jing)元(yuan) marker 表達(da)更(geng)清(qing)晰(xi)(右圖)。

Cellbender 是基(ji)于深(shen)度學(xue)習的(de)軟(ruan)件(jian)工具,應用更(geng)為(wei)廣泛,它能(neng)處理多種復雜背景污染(ran),包括(kuo)游離 RNA、空液(ye)滴(di)、低質量(liang)細(xi)胞和(he)環境 RNA 等。Cellbender 將(jiang)背景噪聲分解為(wei)液(ye)滴(di)外 RNA 滲(shen)入和(he)液(ye)滴(di)內(nei)自由 RNA,利用分子捕獲概(gai)率模型(xing)區(qu)分真(zhen)實信號與噪聲。下圖基(ji)因 CTNNA3,這是一(yi)種參與細(xi)胞間(jian)粘附的(de)蛋(dan)白(bai)質編(bian)碼基(ji)因,在 CellBender 之(zhi)前(qian)(左)和(he)之(zhi)后(右(you))具有已知和(he)特異性(xing)的(de)表達模式。作為(wei)參考,CellBender 加工后 CTNNA3 高表達的(de)兩個細(xi)胞簇是心肌細(xi)胞(左中簇)和(he)血管平滑肌細(xi)胞(右(you)上(shang)簇)。

四、低(di)質量細胞去除:Seurat 與 Scanpy “剔除瑕疵”

單細胞測序在上機前需要對樣本進行解離,由于解離需要用到大量消化細胞間基質的酶,這些酶或多或少會對細胞的狀態產生影響,有的可能會導致細胞發生應激,有的甚至會直接導致細胞膜破碎并死亡,由此便產生了一些低質量的細胞,下游數據表(biao)現為UMI計(ji)數偏低、基因(yin)檢出(chu)數較少、線(xian)粒(li)體基因(yin)占比異常(chang)升高以及(ji)核糖(tang)體基因(yin)比例偏離正(zheng)常(chang)范(fan)圍等特征。這類細胞受實驗(yan)操(cao)作、細胞自(zi)身狀態等因素影響,數據質量欠佳,會干擾后續(xu)分析結果。此時需借助軟件去(qu)除,主要有兩種(zhong)Seurat和Scanpy。

一般常用的是(shi)(shi)Seurat,主要原因(yin)是(shi)(shi)Seurat(R語言)通過計(ji)算每(mei)個(ge)細胞的 UMI 計(ji)數(shu)、檢測到的基(ji)因(yin)數(shu)量(liang)、線粒體基(ji)因(yin)比例等(deng)指標(biao)來對數(shu)據進行質量(liang)控制,識別并去除低(di)質量(liang)細胞。且Seurat提供標(biao)準化(hua)質控函(han)數(shu),函(han)數(shu)經(jing) 10x Genomics官網大量(liang)標(biao)準數(shu)據集(ji)驗證,閾值參數(shu)直接參考 CNS 文章,且90% 以上單(dan)細胞領域 CNS 論文采用 Seurat 質控標(biao)準,確保分析結果的可(ke)重(zhong)復性與(yu)方法學權威性。

Scanpy(Python)專為(wei)大規模(mo)數(shu)(shu)據設計,支持百萬(wan)級(ji)細(xi)(xi)胞(bao)(bao)(bao)處理。其運用內置函數(shu)(shu)計算(suan)細(xi)(xi)胞(bao)(bao)(bao)各項質量指標,包括細(xi)(xi)胞(bao)(bao)(bao)總(zong)計數(shu)(shu),即每(mei)個細(xi)(xi)胞(bao)(bao)(bao)中所有基因(yin)表達量總(zong)和檢測到的(de)基因(yin)數(shu)(shu)以及線粒體基因(yin)比例,經(jing)加(jia)載數(shu)(shu)據、算(suan)指標、設條(tiao)件、篩選細(xi)(xi)胞(bao)(bao)(bao)等流程去除低質量細(xi)(xi)胞(bao)(bao)(bao)。

?重要參數

(1)nFeature_RNA:過濾(lv)掉總的(de)基因數大(da)于7000或(huo)者小于400的(de)細胞,過(guo)高的基因數可能為雙(shuang)細胞(bao)(bao)或多細胞(bao)(bao),過(guo)少的基因數可能是空液滴或低(di)質量細胞(bao)(bao);

(2)nCount_RNA: 過(guo)濾掉總的UMI數(shu)大于(yu)50000的細胞,單(dan)個細胞的總 RNA 量有限,過(guo)(guo)高 UMI 可能(neng)是由于實驗(yan)過(guo)(guo)程(cheng)中兩(liang)個細胞進入了(le)一個微滴,過(guo)(guo)低可能(neng)因(yin)細胞過(guo)(guo)小(如血小板)或捕獲效率低導致數據不可靠(kao),這類數據需要去除。

(3)percent.mito:過濾(lv)掉線(xian)粒體基因表達占比大于20%的細(xi)胞,正常細胞中(zhong),線粒體基(ji)因(yin)比例很低(di)(di),除了一些特殊(shu)的(de)代(dai)謝旺盛的(de)組織類型如腎(shen)臟(zang)組織,凋亡中(zhong)的(de)細胞通(tong)常線粒體基(ji)因(yin)表(biao)達(da)異(yi)常高(gao),線粒體基(ji)因(yin)表(biao)達(da)量(liang)(liang)可以作為鑒定(ding)樣本中(zhong)低(di)(di)質量(liang)(liang)細胞的(de)參照指標。抽(chou)核(he)樣本此參數一般卡到5%以下,因(yin)線粒體 DNA 主要存在于細胞質。

五、多(duo)胞去除:DoubletFinder 聯合 Seurat “撥亂反正”

scRNAseq的(de)理(li)想情(qing)況(kuang)是每個barcode 下只(zhi)有一(yi)個細(xi)胞(bao)(bao)(bao),但(dan)在實際情(qing)況(kuang)中會有兩個或(huo)多(duo)(duo)個細(xi)胞(bao)(bao)(bao)共用一(yi)個barcode,稱(cheng)之為 doublets。這些(xie)細(xi)胞(bao)(bao)(bao)主要特(te)點是檢測的(de)UMI數和(he)基(ji)因(yin)數往(wang)往(wang)比正常細(xi)胞(bao)(bao)(bao)要多(duo)(duo)一(yi)倍及以(yi)上,另外可能會帶(dai)有不(bu)同(tong)細(xi)胞(bao)(bao)(bao)類(lei)型(xing)的(de)經典(dian)marker基(ji)因(yin)。多(duo)(duo)細(xi)胞(bao)(bao)(bao)會混淆不(bu)同(tong)細(xi)胞(bao)(bao)(bao)的(de)基(ji)因(yin)表(biao)達,增加數據中的(de)噪音。因(yin)此(ci),去除結果中的(de)多(duo)(duo)細(xi)胞(bao)(bao)(bao)可以(yi)提高(gao)數據的(de)準確性,有助于后續(xu)提供更(geng)精確的(de)生物(wu)學解釋。

常(chang)見多胞(bao)去(qu)除方法是Seurat 聯合(he)DoubletFinder共同(tong)協作進(jin)行。Seurat 可根據(ju)(ju)單(dan)個細胞(bao)中的 max gene 數(shu)(shu)初步(bu)判斷(duan) doublet,DoubletFinder 是一款 R 語言包(bao),它(ta)從現(xian)有矩(ju)陣(zhen)的細胞(bao)中模(mo)(mo)擬一些雙細胞(bao),計算(suan)每(mei)個細胞(bao)與模(mo)(mo)擬雙胞(bao)的相似性(xing),相似性(xing)越(yue)高,該細胞(bao)為真實雙胞(bao)的可能(neng)性(xing)就越(yue)大。二(er)者聯合(he)通過模(mo)(mo)擬生成(cheng) doublets、計算(suan)每(mei)個細胞(bao)的最近鄰、計算(suan)最近鄰中的模(mo)(mo)擬 doublets 數(shu)(shu)量(liang)得(de)到 pANN 排序,再根據(ju)(ju)期望 doublets 數(shu)(shu)量(liang)設置(zhi) pANN 閾值,從而過濾掉 doublets。

六(liu)、總 結

單細(xi)胞質控(kong)軟件通(tong)過多(duo)維度(du)協作,構建了從(cong)數據(ju)比(bi)對到多(duo)胞去除的完整(zheng)質控(kong)體系。隨著算(suan)法優化與硬件升級(ji),質控(kong)流程將向自動化、智能(neng)化方向持續演進,為單細(xi)胞研究提供更可靠的數據(ju)保障。