国产午夜精品无码一区二区,国产成人无码网站,日本少妇xxxx做受,欧美视频二区欧美影视,女人被躁到高潮嗷嗷叫游戏

首頁> 關于我們 >新聞中心>公司新聞>新聞詳情

【5分鐘小課堂第2彈】從碎片重建整體,宏基因組拼接組裝全攻略

2016-08-23

在上一期的“5分(fen)鐘小課堂”中(zhong)(zhong),小(xiao)編(bian)梳(shu)理了(le)宏(hong)基因(yin)組(zu)學研(yan)(yan)究的(de)(de)關鍵步驟流(liu)程,并概述(shu)了(le)挖掘宏(hong)基因(yin)組(zu)學大數據的(de)(de)四(si)大“法(fa)寶”:拼(pin)接(jie)組(zu)裝、功能注(zhu)釋、生(sheng)物(wu)標記物(wu)篩選和菌株水平的(de)(de)精細解析(xi)。其中(zhong)(zhong),首當其沖的(de)(de)就是宏(hong)基因(yin)組(zu)的(de)(de)拼(pin)接(jie)組(zu)裝,可謂高通量測序中(zhong)(zhong)的(de)(de)“拼(pin)圖游(you)戲”。作為(wei)后續三(san)大“法(fa)寶”的(de)(de)數據來源,拼(pin)接(jie)組(zu)裝的(de)(de)效(xiao)果(guo)將直接(jie)影響下游(you)分析(xi)的(de)(de)可靠(kao)性(xing),對研(yan)(yan)究意(yi)義的(de)(de)重要性(xing)不言而喻。今天,就讓小(xiao)編(bian)與您一起(qi),探(tan)索宏(hong)基因(yin)組(zu)拼(pin)圖游(you)戲的(de)(de)奧秘,獻上(shang)史上(shang)最全攻略!

1. 什么是拼接?

拼(pin)接組裝是根據序列(lie)的(de)(de)一致性,將(jiang)高(gao)通量測序產生的(de)(de)眾多(duo)宏基因組DNA短片(pian)段依次有(you)序地(di)重(zhong)疊連(lian)接在(zai)一起,從而“重(zhong)建”獲(huo)得較長的(de)(de)連(lian)續不間(jian)斷序列(lie),也就(jiu)是傳說中的(de)(de)“Contigs”。利(li)用雙端PE(Paired-end)序列(lie)攜帶的(de)(de)信息,可以估計Contigs之間(jian)的(de)(de)間(jian)隔長度(即Gaps),從而連(lian)接形成Scaffolds。


宏基因組的拼接組裝流程圖,修改自文獻[1]

通過(guo)以上介紹,小伙伴們(men)有沒(mei)有發現,宏(hong)基因組(zu)拼接(jie)組(zu)裝和拼圖游戲真的(de)有異曲同工之(zhi)妙呢(ni)!這里,拼圖的(de)原材料就是短(duan)片(pian)段序(xu)列,拼出的(de)圖就是Contigs和Scaffolds,而游戲的(de)通關秘訣,無疑就是選取合(he)適的(de)拼接(jie)組(zu)裝算(suan)法啦(la)!

2. “拼圖游戲”的關鍵:de Bruijn圖和一筆畫問題

宏(hong)基因組包含成千上萬種微生物,彼此之間的含量(liang)(liang)差異可(ke)達好幾個(ge)數(shu)量(liang)(liang)級。拼接組裝這樣的“大雜燴”,不僅需要(yao)龐大的數(shu)據量(liang)(liang),更需要(yao)選取精(jing)巧(qiao)、合適(shi)的算法。

目前的(de)宏基因組大(da)數據通(tong)常由Illumina HiSeq測序儀產生,序列較短(2 × 150 bp)但通(tong)量極高。因此(ci),科學家對(dui)(dui)序列拼接組裝的(de)算法做了(le)針對(dui)(dui)性的(de)優(you)化(hua),將拼圖游戲簡化(hua)為我們熟知的(de)“一筆畫問題(ti)”圖論問題(ti),下圖就是個鮮活生動的(de)例子:

基于de Bruijn圖的序列拼接組裝示意圖,修改自文獻[2]

上圖中,原始序列長度為4堿基。首先將每一條短序列都拆分為一系列長度為k的子片段(俗稱k-mer),比如,圖中的原始序列AAGA被拆分為AAG和AGA兩個長度為3堿基的k-mer。然后根據全體k-mer之間的連接順序和重疊關系構建de Bruijn圖,嘗試找到一次性遍歷所有k-mer的“一筆畫”路徑,由(you)此完成(cheng)拼接(jie)組裝,獲得Contigs和(he)Scaffolds序列(圖中的紅色部分(fen)為重(zhong)復序列,可以看到,它們也被正確識別和(he)拼接(jie))。

3. 常用拼接組裝工具簡介

目前,基于de Bruijn圖的序列拼接組裝工具已成為主流,包括[3]和(Iterative De Bruijn graph Assembler for sequencing data with highly Uneven Depth)[4]等。這些工具都能對原始序列中隱含的測序錯誤進行校正,從而提升拼接組裝的精確度。通常而言,SOAPdenovo2的拼接速度較快,而IDBA-UD采用了迭代算法,從一系列k-mer值中,選取最合適的k-mer參數進行拼接組裝,同時針對宏基因組中不同物種測序深度不均一的現象進行了優化,因而被認為更適合于宏基因組的拼接組裝。

IDBA-UD拼接組裝流程圖,修改自文獻[4]

當然,de Bruijn圖也并(bing)非萬能(neng)。對于最近日漸流行的三(san)代(dai)單(dan)分子實時測序技術,由于其具有超長讀長的特性,HGAP(Hierarchical Genome Assembly Process)[5]等根據(ju)序列比對尋找彼此之(zhi)間重疊區域的方法更為合理(li)。

4. 拼接效果的評價

正如游戲得分有高低,在拼(pin)接完(wan)成后(hou),我們(men)也(ye)需要對組裝效(xiao)果進行評(ping)估。顯然(ran),Contigs和(he)Scaffolds長度是評(ping)價(jia)的(de)重要標(biao)準(zhun)之(zhi)一。通常我們(men)使用N50值(zhi)來評(ping)估,將(jiang)所有Contigs/Scaffolds序(xu)(xu)列按照長度從長到短依次排列后(hou)相加,當加和(he)的(de)長度達(da)到總長度的(de)50%時,最后(hou)一條Contigs/Scaffolds序(xu)(xu)列的(de)對應長度即N50值(zhi)。顯然(ran)N50越(yue)長,拼(pin)接組裝效(xiao)果越(yue)好,宏基因組序(xu)(xu)列也(ye)就越(yue)完(wan)整。

N50值計算示意圖

當然,宏基因組的(de)(de)復雜程度將直接影響拼接組裝的(de)(de)效果(guo)。比如(ru),對于(yu)腸道宏基因組樣本,迄今為止的(de)(de)幾(ji)項大型研(yan)究(如(ru)MetaHIT、HMP和IGC等項目)得到(dao)的(de)(de)基因目錄的(de)(de)N50值都在1 kb左右[6-8]。

結語

通(tong)(tong)過以上(shang)的講解(jie),小(xiao)伙伴們對宏(hong)基(ji)因組的“拼圖游戲”應該入門了吧!總體而言,拼圖游戲雖然復雜,但只要(yao)選對合適的算法,通(tong)(tong)關(guan)也(ye)并非(fei)遙不可及(ji)!當(dang)然,隨著科技的不斷發展,我們也(ye)期待涌現更(geng)多更(geng)強(qiang)大的宏(hong)基(ji)因組拼接組裝工(gong)具。

至于拼接獲得的Contigs/Scaffolds序列如何用于后續分(fen)析,且待下回(hui)分(fen)解,敬請各位(wei)小伙伴保(bao)持關注哦!

附:【5分鐘小課堂】后續預告

看不見摸不著的它們(men),都在忙(mang)些啥?宏(hong)基因組功能注(zhu)釋(shi)為您解答!

茫茫菌群,誰(shui)是天(tian)使,誰(shui)是元兇,誰(shui)又是圍觀路(lu)人(ren)甲?

菌株水平的超高分辨率解析,宏基因組學(xue)就是這么高大(da)上!

參考文獻

1. Fan W, Li RQ (2012) Test driving genome assemblers. Nature Biotechnology 30: 330-331.

2. Berger B, Peng J, Singh M (2013) Computational solutions for omics data. Nature Reviews Genetics 14: 333-346.

3. Luo RB, Liu BH, Xie YL, Li ZY, Huang WH, et al. (2012) SOAPdenovo2: an empirically improved memory-efficient short-read de novo assembler. GigaScience 1: 6.

4. Peng Y, Leung HCM, Yiu SM, Chin FYL (2012) IDBA-UD: a de novo assembler for single-cell and metagenomic sequencing data with highly uneven depth. Bioinformatics 28: 1420-1428.

5. Chin CS, Alexander DH, Marks P, Klammer AA, Drake J, et al. (2013) Nonhybrid, finished microbial genome assemblies from long-read SMRT sequencing data. Nat Methods 10: 563-569.

6. Huttenhower C, Gevers D, Knight R, Abubucker S, Badger JH, et al. (2012) Structure, function and diversity of the healthy human microbiome. Nature 486: 207-214.

7. Li JH, Jia HJ, Cai XH, Zhong HZ, Feng Q, et al. (2014) An integrated catalog of reference genes in the human gut microbiome. Nature Biotechnology 32: 834-841.

8. Qin JJ, Li RQ, Raes J, Arumugam M, Burgdorf KS, et al. (2010) A human gut microbial gene catalogue established by metagenomic sequencing. Nature 464: 59-65.