国产午夜精品无码一区二区,国产成人无码网站,日本少妇xxxx做受,欧美视频二区欧美影视,女人被躁到高潮嗷嗷叫游戏

首頁> 關于我們 >新聞中心>技術分享>新聞詳情

干貨間 | 基因組survey分析

2018-06-13


什么是基因組survey


基因(yin)組survey:即基因組(zu)大小和復雜(za)程度的(de)調研,基因組大小(xiao)是指單倍體細胞核中的(de)所含的(de)DNA的總量(liang)。常用的(de)估計基因組(zu)大小的(de)方法有兩種(zhong):


其一是流式細胞法,該方法用DNA含量(liang)衡量(liang)不同物種基因組的大(da)小,基因(yin)組的大小(xiao)通常(chang)用“C-value”來表示(shi),也有(you)用pg”(皮克)單位(wei)來表示,1pg=10-12g,另外也有用堿基對來表示,例如1Mb=106bases,之間的直接換(huan)算關(guan)系是1 pg = 978 Mb或者1 Mb = 1.022 × 10-3 pg,流式細(xi)胞法是通過(guo)DNA熒光染料(liao)對分(fen)選后的細胞(bao)進行染色,然后和已知DNA含量的(de)商品化標準品比對(dui),得到檢(jian)測物種(zhong)的(de)DNA含量,進(jin)而通過(guo)上面的(de)換算(suan)關(guan)系推(tui)測出基因組大小(xiao)。


其二是(shi)高通量(liang)測序(xu)法,即(ji)對沒有(you)參考基因組序列的物種,進行小(xiao)片段低(di)深度測序,以較低(di)的成本(ben)基于K-mer分析去預估基因(yin)組的大小、雜合度及重復序列等(deng)信息。該結果可進一步指(zhi)導后(hou)續的(de)建庫策略和測序(xu)數據量(liang),此外(wai)這次測序(xu)的(de)數據還可用(yong)于(yu)后(hou)續基(ji)因(yin)組的(de)拼接(jie)(jie)與拼接(jie)(jie)結果的(de)校正。今(jin)天(tian)小編(bian)重點(dian)向大家介(jie)紹基(ji)于(yu)高(gao)通(tong)量(liang)測序(xu)的(de)方法(fa)估計基(ji)因(yin)組大小、雜(za)合度及重復序(xu)列。


基于K-mer評估基因組大小的原理


假設reads的長(chang)度為L,基(ji)因(yin)組大(da)小(xiao)為G,總的reads數(shu)目Nkmer長度(du)為(wei)K,即將長(chang)度L的(de)reads打(da)斷(duan)成K長度(du)kmer片段且kmer每次(ci)延伸1bp,則該條read會(hui)被打斷為(wei)L-K+1個(ge)kmer,例如:當(dang)K=17reads長度L=100的時候,一共可以產(chan)生100-17+1個(ge)kmer片段。


根據Lander-Waterman模(mo)型,Kdepth = N*(L-K+1)/GKnum = (L-K+1)*N (Kdepthkmer的期(qi)望深度(du)kmer深(shen)度頻(pin)率(lv)分布(bu)遵循泊松(song)分布(bu),可(ke)以(yi)將深度(du)分布曲線的(de)峰值作為期望深度(du)。Knum為從reads得(de)到kmer的(de)總數目,則基因(yin)組大小(xiao)G=Knum/KdepthK的選擇和測序深度會(hui)對基因(yin)組估(gu)計大小產生影響,短片段(duan)插(cha)入(ru)庫數據深度不用過低或過高。


基因組大小估(gu)計結果解(jie)讀


了(le)解完原理接下來我們就利(li)用基因組survey的一款(kuan)軟件Jellyfish來統計(ji)K-mer depth及頻(pin)數,統計(ji)結果用(yong)于(yu)畫K-mer分布圖及基因(yin)組特(te)征的評估。K-mer 深度(du)(du)分(fen)布曲(qu)(qu)線(xian)屬于標準(zhun)的泊松分(fen)布曲(qu)(qu)線(xian),該曲(qu)(qu)線(xian)的形態受到以下幾個(ge)因(yin)素的影響:測序(xu)(xu)錯誤(wu)率、基因(yin)組的雜合(he)度(du)(du)和重復序(xu)(xu)列。以一(yi)個(ge)雜合(he)度(du)(du)較高的物種的 K-mer 分布(bu)圖為示例(li)圖(tu)圖(tu)1 


圖片1.png

圖1 Kmer分布示意圖

注:最左邊的(de)(de)峰(feng)(feng)(feng)為(wei)(wei)測序(xu)錯誤(wu)峰(feng)(feng)(feng);第(di)(di)二個峰(feng)(feng)(feng)為(wei)(wei)雜合(he)(he)峰(feng)(feng)(feng),如果(guo)基(ji)因組雜合(he)(he)度比(bi)較(jiao)低,則不會(hui)出現該(gai)峰(feng)(feng)(feng);第(di)(di)三個峰(feng)(feng)(feng)為(wei)(wei)純(chun)合(he)(he)峰(feng)(feng)(feng),雜合(he)(he)峰(feng)(feng)(feng)的(de)(de)峰(feng)(feng)(feng)值所(suo)在位(wei)置一般為(wei)(wei)純(chun)合(he)(he)峰(feng)(feng)(feng)所(suo)在位(wei)置的(de)(de)一半,基(ji)因組的(de)(de)雜合(he)(he)度越(yue)(yue)高,則雜合(he)(he)峰(feng)(feng)(feng)與純(chun)合(he)(he)峰(feng)(feng)(feng)的(de)(de)比(bi)值越(yue)(yue)大(da);第(di)(di)四個峰(feng)(feng)(feng)為(wei)(wei)重復(fu)序(xu)列(lie)峰(feng)(feng)(feng),在純(chun)合(he)(he)峰(feng)(feng)(feng)值所(suo)在位(wei)置的(de)(de)兩倍以(yi)上,重復(fu)序(xu)列(lie)越(yue)(yue)高,重復(fu)峰(feng)(feng)(feng)所(suo)占面(mian)積越(yue)(yue)大(da)。


測(ce)序錯(cuo)誤峰:當某個堿(jian)基發(fa)生測序錯誤后,將其reads打斷(duan)成(cheng)長(chang)度(du)K的(de)kmer后,會(hui)將錯誤的(de)kmer數量放大,這(zhe)些kmer出現頻率較低(di),在Depth較低時(shi)會出(chu)現較高(gao)的錯誤(wu)(wu)峰,用于評估測序錯誤(wu)(wu)率。


純合峰:c值即為公式中(zhong)的Kdepth用于評(ping)估基因組大小(xiao)。


雜合峰:用于(yu)評估基(ji)因組雜合度。具體解釋為(wei):假(jia)設純合的GTAKmer中出現了a次即深度a,而雜合GTATT/A,則就會(hui)形成GTA/GAA兩(liang)種kmer,則每(mei)種對(dui)應就(jiu)會平(ping)均出現(xian)a/2次即(ji)深度為a/2

Repeat region:用于評估基因組重(zhong)復(fu)序列(lie)比例,若出現(xian)兩個主峰,峰高相(xiang)差不(bu)大且橫坐標是2倍關系,則為高雜合(he)或高重復。


以某(mou)動物為(wei)例,PE400文庫Hiseq平臺(tai)測105G數據量,使用軟件Jellyfish設置K=17,得到95,767,623,756kmer純合峰(feng)對應的Kmer深(shen)度(du)為118,最終估計出基因組大小(xiao)約(yue)為812MKmer分布圖(tu)見下圖(tu)2


圖片2.png

圖2 某動物Kmer分布示意圖

 

動植物基因組(zu)推出的基因組(zu)survey項目,分析內容包括(kuo):


原(yuan)始數據質控(kong);

樣本質量分析:物種污染(ran)評估;

基因(yin)組評估(gu):基因(yin)組大(da)小、雜合度、重復(fu)序列比例(li)評估(gu)等。測序數據也可以(yi)在后(hou)續(xu)做基因(yin)組拼接(jie)和校正時(shi)再次利用哦。