<bdo id='ydcp0'><sup id='ydcp0'><div id='ydcp0'><bdo id='ydcp0'></bdo></div></sup></bdo>

關于我們

干貨間 | 基因組survey分析

2018-06-13

什么是基因組survey？

基因(yin)組survey：即基因組(zu)大小和復雜(za)程度的(de)調研，基因組大小(xiao)是指單倍體細胞核中的(de)所含的(de)DNA的總量(liang)。常用的(de)估計基因組(zu)大小的(de)方法有兩種(zhong)：

其一是流式細胞法，該方法用DNA含量(liang)衡量(liang)不同物種基因組的大(da)小，基因(yin)組的大小(xiao)通常(chang)用“C-value”來表示(shi)，也有(you)用“pg”（皮克）單位(wei)來表示，1pg=10^-12g，另外也有用“堿基對”來表示，例如1Mb=10⁶bases，之間的直接換(huan)算關(guan)系是1 pg = 978 Mb或者1 Mb = 1.022 × 10^-3 pg，流式細(xi)胞法是通過(guo)DNA熒光染料(liao)對分(fen)選后的細胞(bao)進行染色，然后和已知DNA含量的(de)商品化標準品比對(dui)，得到檢(jian)測物種(zhong)的(de)DNA含量，進(jin)而通過(guo)上面的(de)換算(suan)關(guan)系推(tui)測出基因組大小(xiao)。

其二是(shi)高通量(liang)測序(xu)法，即(ji)對沒有(you)參考基因組序列的物種，進行小(xiao)片段低(di)深度測序，以較低(di)的成本(ben)基于K-mer分析去預估基因(yin)組的大小、雜合度及重復序列等(deng)信息。該結果可進一步指(zhi)導后(hou)續的(de)建庫策略和測序(xu)數據量(liang)，此外(wai)這次測序(xu)的(de)數據還可用(yong)于(yu)后(hou)續基(ji)因(yin)組的(de)拼接(jie)(jie)與拼接(jie)(jie)結果的(de)校正。今(jin)天(tian)小編(bian)重點(dian)向大家介(jie)紹基(ji)于(yu)高(gao)通(tong)量(liang)測序(xu)的(de)方法(fa)估計基(ji)因(yin)組大小、雜(za)合度及重復序(xu)列。

基于K-mer評估基因組大小的原理

假設reads的長(chang)度為L，基(ji)因(yin)組大(da)小(xiao)為G，總的reads數(shu)目N，kmer長度(du)為(wei)K，即將長(chang)度L的(de)reads打(da)斷(duan)成K長度(du)kmer片段且kmer每次(ci)延伸1bp，則該條read會(hui)被打斷為(wei)L-K+1個(ge)kmer，例如：當(dang)K=17，reads長度L=100的時候，一共可以產(chan)生100-17+1個(ge)kmer片段。

根據Lander-Waterman模(mo)型，Kdepth = N*(L-K+1)/G，Knum = (L-K+1)*N (Kdepth為kmer的期(qi)望深度(du)，kmer深(shen)度頻(pin)率(lv)分布(bu)遵循泊松(song)分布(bu)，可(ke)以(yi)將深度(du)分布曲線的(de)峰值作為期望深度(du)。Knum為從reads得(de)到kmer的(de)總數目），則基因(yin)組大小(xiao)G=Knum/Kdepth，K的選擇和測序深度會(hui)對基因(yin)組估(gu)計大小產生影響，短片段(duan)插(cha)入(ru)庫數據深度不用過低或過高。

基因組大小估(gu)計結果解(jie)讀

了(le)解完原理接下來我們就利(li)用基因組survey的一款(kuan)軟件Jellyfish來統計(ji)K-mer depth及頻(pin)數，統計(ji)結果用(yong)于(yu)畫K-mer分布圖及基因(yin)組特(te)征的評估。K-mer 深度(du)(du)分(fen)布曲(qu)(qu)線(xian)屬于標準(zhun)的泊松分(fen)布曲(qu)(qu)線(xian)，該曲(qu)(qu)線(xian)的形態受到以下幾個(ge)因(yin)素的影響：測序(xu)(xu)錯誤(wu)率、基因(yin)組的雜合(he)度(du)(du)和重復序(xu)(xu)列。以一(yi)個(ge)雜合(he)度(du)(du)較高的物種的 K-mer 分布(bu)圖為示例(li)圖(tu)圖(tu)1：

圖片1.png

圖1 Kmer分布示意圖

注：最左邊的(de)(de)峰(feng)(feng)(feng)為(wei)(wei)測序(xu)錯誤(wu)峰(feng)(feng)(feng)；第(di)(di)二個峰(feng)(feng)(feng)為(wei)(wei)雜合(he)(he)峰(feng)(feng)(feng)，如果(guo)基(ji)因組雜合(he)(he)度比(bi)較(jiao)低，則不會(hui)出現該(gai)峰(feng)(feng)(feng)；第(di)(di)三個峰(feng)(feng)(feng)為(wei)(wei)純(chun)合(he)(he)峰(feng)(feng)(feng)，雜合(he)(he)峰(feng)(feng)(feng)的(de)(de)峰(feng)(feng)(feng)值所(suo)在位(wei)置一般為(wei)(wei)純(chun)合(he)(he)峰(feng)(feng)(feng)所(suo)在位(wei)置的(de)(de)一半，基(ji)因組的(de)(de)雜合(he)(he)度越(yue)(yue)高，則雜合(he)(he)峰(feng)(feng)(feng)與純(chun)合(he)(he)峰(feng)(feng)(feng)的(de)(de)比(bi)值越(yue)(yue)大(da)；第(di)(di)四個峰(feng)(feng)(feng)為(wei)(wei)重復(fu)序(xu)列(lie)峰(feng)(feng)(feng)，在純(chun)合(he)(he)峰(feng)(feng)(feng)值所(suo)在位(wei)置的(de)(de)兩倍以(yi)上，重復(fu)序(xu)列(lie)越(yue)(yue)高，重復(fu)峰(feng)(feng)(feng)所(suo)占面(mian)積越(yue)(yue)大(da)。

測(ce)序錯(cuo)誤峰：當某個堿(jian)基發(fa)生測序錯誤后，將其reads打斷(duan)成(cheng)長(chang)度(du)K的(de)kmer后，會(hui)將錯誤的(de)kmer數量放大，這(zhe)些kmer出現頻率較低(di)，在Depth較低時(shi)會出(chu)現較高(gao)的錯誤(wu)(wu)峰，用于評估測序錯誤(wu)(wu)率。

純合峰：c值即為公式中(zhong)的Kdepth用于評(ping)估基因組大小(xiao)。

雜合峰：用于(yu)評估基(ji)因組雜合度。具體解釋為(wei)：假(jia)設純合的GTA在Kmer中出現了a次即深度a，而雜合GTA中T為T/A，則就會(hui)形成GTA/GAA兩(liang)種kmer，則每(mei)種對(dui)應就(jiu)會平(ping)均出現(xian)a/2次即(ji)深度為a/2。

Repeat region：用于評估基因組重(zhong)復(fu)序列(lie)比例，若出現(xian)兩個主峰，峰高相(xiang)差不(bu)大且橫坐標是2倍關系，則為高雜合(he)或高重復。

以某(mou)動物為(wei)例，PE400文庫Hiseq平臺(tai)測105G數據量，使用軟件Jellyfish設置K=17，得到95,767,623,756個kmer，純合峰(feng)對應的Kmer深(shen)度(du)為118，最終估計出基因組大小(xiao)約(yue)為812M，Kmer分布圖(tu)見下圖(tu)2。

圖片2.png

圖2 某動物Kmer分布示意圖

動植物基因組(zu)推出的基因組(zu)survey項目，分析內容包括(kuo)：

l 原(yuan)始數據質控(kong)；

l 樣本質量分析：物種污染(ran)評估；

l 基因(yin)組評估(gu)：基因(yin)組大(da)小、雜合度、重復(fu)序列比例(li)評估(gu)等。測序數據也可以(yi)在后(hou)續(xu)做基因(yin)組拼接(jie)和校正時(shi)再次利用哦。

国产午夜精品无码一区二区,国产成人无码网站,日本少妇xxxx做受,欧美视频二区欧美影视,女人被躁到高潮嗷嗷叫游戏

轉錄組

單細胞組

蛋白組

表觀基因組學

代謝組

微生物組

微生物基因組

動植物基因組

人基因組

三代測序服務

常規分子實驗

常規測序與合成

微生物采樣工具

婦幼健康

腫瘤早篩

新型冠狀病毒核酸檢測

NGS測序平臺

單細胞空轉平臺

質譜平臺

成果展示

最新資訊

培訓課程

公司概況

專家團隊

榮譽資質

新聞中心

聯系我們

加入我們