2019-09-18
上周的干貨軟文為您(nin)介紹了如何在Ensembl數據庫查找目標(biao)基(ji)因(yin)序列(Ensembl篇),這(zhe)周我們將(jiang)進入(ru)NCBI篇,為您(nin)講解如何在該數據庫查找目標(biao)基(ji)因(yin)序列。
NCBI,是美國國立生物(wu)技術信(xin)息中心(National Center for Biotechnology Information)的(de)英文縮寫。與專攻基(ji)因組檢索的(de)Ensembl不同,NCBI數據庫(ku)的(de)內容更加(jia)龐雜和全面(mian),它(ta)可(ke)提供(gong)36種數據檢索與分析工(gong)具,這其中就包含大家都非常熟悉的(de)文獻數據庫(ku)PubMed。而我們利用NCBI查找(zhao)目(mu)標序(xu)列(lie),主要是基(ji)于它(ta)的(de)RefSeq、即參考序(xu)列(lie)數據庫(ku)(reference sequence database)來實現的(de)。概括地說(shuo),就是利用相對易獲取、或(huo)已知的(de)信(xin)息,如基(ji)因名或(huo)基(ji)因ID,關聯(lian)到與之對應的(de)RefSeq序(xu)列(lie)接收號,從而get目(mu)標序(xu)列(lie)信(xin)息。具體操(cao)作步驟如下(xia):
進入//www.ncbi.nlm.nih.gov/,在左側下拉菜單選擇“gene”
02、搜(sou)索(suo)基因:
可輸入基因ID(NCBI Gene ID即GI號)或基因名進行查找。這里以小鼠的隱花色素基因舉例,我們直接輸入cryptochrome進行搜索,結果如下:
03、找(zhao)到目標基(ji)因:
小鼠Cry1,即第一個結果,點擊查看:
該(gai)頁面(mian)會展示該(gai)基因具體信息,如上圖展示的NCBI Gene ID、更新時間、官方名稱、物種、及在其他數據庫的鏈接。我們繼續向下拖動頁面,找到“NCBI Reference Sequences (RefSeq)”,點擊代表mRNA記(ji)錄的序列(lie)接(jie)收號,該編(bian)號通常以(yi)NM開頭(圖(tu)中紅框)
04、頁面跳轉至核苷酸數據庫(ku),如下圖:
從(cong)圖(tu)中信息可知該基因來自小鼠(shu)NM_007771染色體,長度為3035bp,點擊“FASTA”可快速查找和下載全基因序列。如下圖,在頁面右側,點擊“Send to”選項,然后選擇“File”,點擊“Creat File”按鈕。
05、點(dian)擊“GenBank”切換頁面:
該頁面(mian)除了提供基因序列外,還包含(han)注釋信息(xi)。我(wo)們(men)下拉頁面(mian)至完整(zheng)序列信息(xi):
從圖中信息(xi)可知,編碼區序列位(wei)于(yu)該基(ji)因的第584-2404號核苷酸,可結合已下載的全基因序列進行查看。
看(kan)到這里(li),相信(xin)有不(bu)少小伙伴已經摩拳(quan)擦掌,躍躍欲試了,然(ran)而在實際操作過(guo)程中,我們有時卻(que)會遇到這樣的情(qing)況:用來進行轉(zhuan)錄組(zu)測序分析的參考基(ji)因組(zu)千真(zhen)萬確就是(shi)來自NCBI數據庫,然而利用剛學會的方法,在NCBI-gene菜單里搜索相應的基因名卻一無所獲,這又是為什么呢?
為了回答這個問題(ti),我們需要(yao)認識另一(yi)個NCBI數據庫:GenBank,它是一個DNA序列數據庫,收集了所有公開的DNA序列以及與之相關的生物學信息和參考文獻,其最主要的信息來源就是作者的直接投遞。同屬于序列數據庫,GenBank與上文提到的RefSeq存在一些區別,主要在于:GenBank是一個開放的數據庫,很多研究者或者公司都可以自己提交序列;而RefSeq是經過NCBI篩選的非冗余數據庫,可信度更高。
因(yin)此,當一(yi)段序列(lie)僅被GenBank收錄,而未被RefSeq收錄時,我們自然無法通過上文介紹的通過基因名跳轉至相應RefSeq序列接收號的方式來進行查找了。解決辦法其實很簡單:直接下載全基因組序列,然后搜索基因名即可。具體操作如下:
01、找到參(can)考基因組的編號:
根據有參轉錄組的結(jie)題報告(gao),找(zhao)到參考(kao)基(ji)因(yin)組的編號,如下(xia)圖(tu):
02、進入NCBI網(wang)站:
進入
03、搜(sou)索及下載:
點(dian)擊搜索,進入該(gai)基(ji)(ji)因(yin)組(zu)的組(zu)裝(zhuang)信息界面,可見該(gai)基(ji)(ji)因(yin)組(zu)僅被錄入GenBank而未被RefSeq收錄(藍框),因此我們選擇下載基因組。點擊右側“Download the GenBank assembly”(圖中紅框):
04、進入下載頁面:
可選擇(ze)下載(zai)CDS序列,或RNA序列(紅框),這里我們選擇下載CDS序列:
05、解(jie)壓文件,查找目標基因:
下載完畢,解壓后得到一個FASTA格式的序列文件。我們用EditPlus軟件打開它,如下圖。“locus_tag”即為該基因登記于GenBank的基因名。點擊查找工具(圖中紅框)搜索目標基因名,即可獲得相應CDS序列:
看到這(zhe)里,聰明的(de)您應該已經察覺到了,查找目(mu)標基(ji)因(yin)(yin)序列的(de)方(fang)法(fa)概括起來其實只有三步:確定數據庫(ku)、輸(shu)入基(ji)因(yin)(yin)信息、下載特定序列。這(zhe)似乎與“如何將一只大象關進冰箱?”有異曲同工之妙:我們需要先選擇一個合適的“冰箱”,是Ensembl還是NCBI?是Ensembl的脊椎動物、植物還是真菌庫?是NCBI的RefSeq還是GenBank?此外,“塞大象的手法”也至關重要,尤其是在NCBI這個“冰箱”里,我們是搜GI號還是基因名?如果搜不到,我們該怎么把這只不愿意進入冰箱的大象“忽悠”進去?在成功地“把冰箱門關上”之后,我們又得到了什么?是全基因的序列,還是CDS序列?
最后,讓我們再來回顧一下這張流(liu)程(cheng)圖(tu),現在的您應該已經對(dui)此心(xin)中有數(shu)了。只(zhi)要掌握(wo)了這些步(bu)驟,相信您一定(ding)能輕松而(er)又準(zhun)確地(di)查找(zhao)到目(mu)標序列。