2020-08-20
高通量(liang)(liang)(liang)測(ce)序(xu)(NGS)的(de)(de)數(shu)據產出和(he)數(shu)據質(zhi)量(liang)(liang)(liang)跟多個因(yin)素(su)息息相關(guan),其中主要影響因(yin)素(su)為文(wen)庫(ku)(ku)質(zhi)量(liang)(liang)(liang)、測(ce)序(xu)試劑(ji)(ji)和(he)儀器(qi)(qi)狀況(kuang),由于測(ce)序(xu)試劑(ji)(ji)和(he)儀器(qi)(qi)狀況(kuang)不(bu)易(yi)控制,因(yin)此,為了保證測(ce)序(xu)質(zhi)量(liang)(liang)(liang),需要嚴格把控文(wen)庫(ku)(ku)質(zhi)量(liang)(liang)(liang)。好的(de)(de)文(wen)庫(ku)(ku)千篇一律,差的(de)(de)文(wen)庫(ku)(ku)五花八門,今天,讓我們(men)一起看(kan)看(kan)質(zhi)量(liang)(liang)(liang)差的(de)(de)文(wen)庫(ku)(ku)究竟差在(zai)哪,以(yi)及什(shen)么樣(yang)的(de)(de)文(wen)庫(ku)(ku)會被定義為“差的(de)(de)文(wen)庫(ku)(ku)”。
定(ding)義一個文庫(ku)是好是差(cha),可以從三個方面(mian)衡量:文庫(ku)片段、文庫(ku)堿基復雜度(du)(du)和文庫(ku)濃度(du)(du)。
一(yi)、文庫片段
文庫片段目前大多(duo)數公(gong)司(si)都是使用微(wei)流控芯片技(ji)術的(de)(de)儀器進行檢測,如PerkinElmer公(gong)司(si)的(de)(de)LabChip GXII Touch(圖(tu)(tu)1),Agilent公(gong)司(si)的(de)(de)2100 Bioanalyzer(圖(tu)(tu)2)、Tapestation(圖(tu)(tu)3)、Fragment Analyzer(圖(tu)(tu)4),以及Bioptic公(gong)司(si)的(de)(de)Qseq系列(圖(tu)(tu)5)等儀器。
圖(tu)1
圖(tu)2
圖3
圖4
圖5
相較于傳(chuan)統的(de)(de)瓊脂糖(tang)凝膠電泳(yong),采用(yong)微流控芯片(pian)(pian)(pian)(pian)技術可以更好(hao)地(di)獲得文(wen)庫的(de)(de)片(pian)(pian)(pian)(pian)段大小范圍(wei)及文(wen)庫片(pian)(pian)(pian)(pian)段的(de)(de)精確分布,且靈敏度更高,含量低的(de)(de)片(pian)(pian)(pian)(pian)段也可以檢(jian)測(ce)(ce)到(dao),檢(jian)測(ce)(ce)過程簡(jian)單方便、效率高。構建好(hao)的(de)(de)文(wen)庫中除了目的(de)(de)片(pian)(pian)(pian)(pian)段,還可能存(cun)在(zai)二聚體、小片(pian)(pian)(pian)(pian)段、大片(pian)(pian)(pian)(pian)段等(deng)非目的(de)(de)片(pian)(pian)(pian)(pian)段的(de)(de)存(cun)在(zai),這些非目的(de)(de)片(pian)(pian)(pian)(pian)段會導致文(wen)庫定量不準確,同時還可能影響(xiang)后續的(de)(de)上機測(ce)(ce)序,降低測(ce)(ce)序數據(ju)的(de)(de)產出(chu)和測(ce)(ce)序的(de)(de)質量,下(xia)面我(wo)們舉幾個例子:
1、二聚體(ti)污染:
二(er)(er)聚(ju)(ju)體(ti)(ti)包括接頭二(er)(er)聚(ju)(ju)體(ti)(ti)和引物二(er)(er)聚(ju)(ju)體(ti)(ti),通(tong)常長(chang)度(du)小于(yu)100bp的(de)是(shi)引物二(er)(er)聚(ju)(ju)體(ti)(ti),長(chang)度(du)在120bp左(zuo)右的(de)是(shi)接頭二(er)(er)聚(ju)(ju)體(ti)(ti)。文庫中(zhong)如果(guo)存在二(er)(er)聚(ju)(ju)體(ti)(ti),在上機測(ce)序(xu)(xu)時,二(er)(er)聚(ju)(ju)體(ti)(ti)會與(yu)flowcell上面的(de)錨定序(xu)(xu)列(lie)(lie)結合,并且可以通(tong)過橋(qiao)式PCR擴增形成(cheng)簇(cu),從而降低(di)測(ce)序(xu)(xu)的(de)有效數據(ju)產量,同(tong)時由于(yu)二(er)(er)聚(ju)(ju)體(ti)(ti)序(xu)(xu)列(lie)(lie)短,在長(chang)簇(cu)時存在優勢擴增,且是(shi)固定序(xu)(xu)列(lie)(lie),其堿基復雜(za)度(du)低(di),且長(chang)度(du)短,會降低(di)測(ce)序(xu)(xu)的(de)Q30,影響clean reads的(de)過濾(lv)率(lv)。二(er)(er)聚(ju)(ju)體(ti)(ti)污染的(de)文庫的(de)檢測(ce)結果(guo)如圖6所示(shi)。
圖6
2、小片段:
在檢測結果(guo)中,除了(le)目的(de)片(pian)段外(wai),還存(cun)在其他的(de)小(xiao)片(pian)段,這種情況產(chan)生的(de)原因(yin)可能是(shi)片(pian)段化過程中打斷的(de)條件不合適,部分片(pian)段被(bei)打斷得(de)太小(xiao),或(huo)者是(shi)文(wen)(wen)(wen)庫分選(xuan)時(shi)磁珠比例不當導致。小(xiao)片(pian)段的(de)存(cun)在會影響文(wen)(wen)(wen)庫濃度的(de)定量,進(jin)而影響文(wen)(wen)(wen)庫的(de)產(chan)出(chu);除此之(zhi)外(wai),小(xiao)片(pian)段的(de)插入(ru)偏短(duan),測序時(shi)會測通,產(chan)出(chu)了(le)冗(rong)余(yu)的(de)數(shu)據,影響有效數(shu)據的(de)占比。小(xiao)片(pian)段污染的(de)文(wen)(wen)(wen)庫的(de)檢測結果(guo)如(ru)圖7所示。
圖7
3、大(da)片(pian)段:
在檢(jian)測(ce)結果(guo)中,除(chu)了(le)目的(de)(de)(de)片(pian)段(duan)(duan)外,還存在其他的(de)(de)(de)大(da)片(pian)段(duan)(duan),這(zhe)種情況產(chan)生的(de)(de)(de)原(yuan)因(yin)有(you)兩種,第一種是類(lei)似小片(pian)段(duan)(duan)存在的(de)(de)(de)原(yuan)因(yin),即可能是片(pian)段(duan)(duan)化過程中打(da)斷的(de)(de)(de)條(tiao)件不(bu)合適,殘留部分較(jiao)長的(de)(de)(de)片(pian)段(duan)(duan),或者(zhe)是文庫分選過程磁珠(zhu)比(bi)例不(bu)當導致;第二種原(yuan)因(yin)是文庫的(de)(de)(de)擴增循環數太高,文庫過度(du)擴增自(zi)我(wo)互(hu)聯形成多聚體,在檢(jian)測(ce)時(shi)就出現了(le)大(da)片(pian)段(duan)(duan)。大(da)片(pian)段(duan)(duan)在上(shang)機(ji)測(ce)序時(shi),可能會跨孔長簇,測(ce)序儀(yi)會過濾掉這(zhe)部分的(de)(de)(de)數據(ju),降低產(chan)出。大(da)片(pian)段(duan)(duan)污染的(de)(de)(de)文庫的(de)(de)(de)檢(jian)測(ce)結果(guo)如圖8所示。
圖8
4、寬(kuan)峰:
文(wen)庫(ku)的(de)(de)(de)片段分布寬(kuan),這(zhe)種現象通常稱(cheng)為寬(kuan)峰(feng)(feng),寬(kuan)峰(feng)(feng)產(chan)生的(de)(de)(de)原因同(tong)樣是打(da)斷條件不合(he)適,或(huo)者文(wen)庫(ku)沒有進行分選或(huo)分選條件不合(he)適。寬(kuan)峰(feng)(feng)的(de)(de)(de)文(wen)庫(ku)由于片段分布廣,難以確定文(wen)庫(ku)的(de)(de)(de)準確濃度,因此文(wen)庫(ku)的(de)(de)(de)數據產(chan)出不好(hao)控(kong)制。寬(kuan)峰(feng)(feng)文(wen)庫(ku)的(de)(de)(de)檢測結果如圖9所示,片段分布廣,分布在200bp-1000bp。
圖(tu)9
5、插入片段偏大:
高通量測(ce)序的特(te)點是通量大(da),讀長短(duan),如果(guo)需要測(ce)序的文庫長度(du)太長,一方面會(hui)影響文庫濃度(du)的熒光定量,另一方面,在上機測(ce)序時可能(neng)會(hui)跨孔長簇,產生index hopping,降低測(ce)序數據的產出和質量。插入片段偏(pian)大(da)文庫的檢測(ce)結果(guo)如圖(tu)10所示。
圖10
二、文庫堿基復雜(za)度
文(wen)庫(ku)(ku)堿(jian)基(ji)復雜(za)度對(dui)于測序(xu)(xu)(xu)(xu)數據(ju)的(de)(de)(de)影(ying)響(xiang)非常大,堿(jian)基(ji)復雜(za)度低的(de)(de)(de)文(wen)庫(ku)(ku)(常見(jian)的(de)(de)(de)有甲基(ji)化文(wen)庫(ku)(ku)、small RNA文(wen)庫(ku)(ku)、擴增(zeng)子(zi)文(wen)庫(ku)(ku)、pcr-free文(wen)庫(ku)(ku))會影(ying)響(xiang)測序(xu)(xu)(xu)(xu)過程中熒光信(xin)號的(de)(de)(de)讀取,不(bu)易產出高質(zhi)量的(de)(de)(de)數據(ju),因此測序(xu)(xu)(xu)(xu)時要保(bao)證文(wen)庫(ku)(ku)的(de)(de)(de)堿(jian)基(ji)盡可能平衡,對(dui)于堿(jian)基(ji)復雜(za)度低的(de)(de)(de)文(wen)庫(ku)(ku),可以(yi)摻(chan)入一定(ding)比例的(de)(de)(de)phix文(wen)庫(ku)(ku)或者已知的(de)(de)(de)堿(jian)基(ji)平衡文(wen)庫(ku)(ku)混(hun)合測序(xu)(xu)(xu)(xu),幫助平衡每個(ge)測序(xu)(xu)(xu)(xu)cycle產生的(de)(de)(de)熒光信(xin)號,從而提高測序(xu)(xu)(xu)(xu)的(de)(de)(de)產出和(he)質(zhi)量。
三、文庫濃度(du)
文庫(ku)濃度質檢方法主要有(you)NanoDrop分光光度計法、Qubit熒光計法、qPCR熒光定量(liang)法。
三者詳(xiang)細的原(yuan)理和優(you)劣勢在之后的文章中咱們再詳(xiang)細討(tao)論,請各位(wei)老師時刻關注派森諾公眾號更新(xin)~
以上說了這么(me)多,不(bu)知(zhi)道大家對(dui)文(wen)庫的(de)(de)(de)質(zhi)檢是(shi)(shi)不(bu)是(shi)(shi)有了更(geng)深入的(de)(de)(de)了解呢?派森諾會提供專業的(de)(de)(de)文(wen)庫質(zhi)檢和定量,保證(zheng)文(wen)庫的(de)(de)(de)測序(xu)方(fang)案,以下是(shi)(shi)我們PE150測序(xu)模式文(wen)庫送樣(yang)標準,請(qing)大家參(can)考~