<bdo id='dljfg'><sup id='dljfg'><div id='dljfg'><bdo id='dljfg'></bdo></div></sup></bdo>

關于我們

干貨 | 如何查找目標基因序列？掌握這幾招就夠了！（NCBI篇）

2019-09-18

上周的干貨軟文為您(nin)介紹了如何在Ensembl數據庫查找目標(biao)基(ji)因(yin)序列（Ensembl篇），這(zhe)周我們將(jiang)進入(ru)NCBI篇，為您(nin)講解如何在該數據庫查找目標(biao)基(ji)因(yin)序列。

搜索已被RefSeq收錄的基因序列

NCBI，是美國國立生物(wu)技術信(xin)息中心(National Center for Biotechnology Information)的(de)英文縮寫。與專攻基(ji)因組檢索的(de)Ensembl不同，NCBI數據庫(ku)的(de)內容更加(jia)龐雜和全面(mian)，它(ta)可(ke)提供(gong)36種數據檢索與分析工(gong)具，這其中就包含大家都非常熟悉的(de)文獻數據庫(ku)PubMed。而我們利用NCBI查找(zhao)目(mu)標序(xu)列(lie)，主要是基(ji)于它(ta)的(de)RefSeq、即參考序(xu)列(lie)數據庫(ku)（reference sequence database）來實現的(de)。概括地說(shuo)，就是利用相對易獲取、或(huo)已知的(de)信(xin)息，如基(ji)因名或(huo)基(ji)因ID，關聯(lian)到與之對應的(de)RefSeq序(xu)列(lie)接收號，從而get目(mu)標序(xu)列(lie)信(xin)息。具體操(cao)作步驟如下(xia)：

01、進入NCBI網站：

進入//www.ncbi.nlm.nih.gov/，在左側下拉菜單選擇“gene”

02、搜(sou)索(suo)基因：

可輸入基因ID（NCBI Gene ID即GI號）或基因名進行查找。這里以小鼠的隱花色素基因舉例，我們直接輸入cryptochrome進行搜索，結果如下：

2.webp.jpg

03、找(zhao)到目標基(ji)因：

小鼠Cry1，即第一個結果，點擊查看：

3.webp.jpg

該(gai)頁面(mian)會展示該(gai)基因具體信息，如上圖展示的NCBI Gene ID、更新時間、官方名稱、物種、及在其他數據庫的鏈接。我們繼續向下拖動頁面，找到“NCBI Reference Sequences (RefSeq)”，點擊代表mRNA記(ji)錄的序列(lie)接(jie)收號，該編(bian)號通常以(yi)NM開頭（圖(tu)中紅框）

04、頁面跳轉至核苷酸數據庫(ku)，如下圖：

從(cong)圖(tu)中信息可知該基因來自小鼠(shu)NM_007771染色體，長度為3035bp，點擊“FASTA”可快速查找和下載全基因序列。如下圖，在頁面右側，點擊“Send to”選項，然后選擇“File”，點擊“Creat File”按鈕。

05、點(dian)擊“GenBank”切換頁面：

該頁面(mian)除了提供基因序列外，還包含(han)注釋信息(xi)。我(wo)們(men)下拉頁面(mian)至完整(zheng)序列信息(xi)：

9.webp.jpg

從圖中信息(xi)可知，編碼區序列位(wei)于(yu)該基(ji)因的第584-2404號核苷酸，可結合已下載的全基因序列進行查看。

搜(sou)索未被RefSeq收錄的基因(yin)序列

看(kan)到這里(li)，相信(xin)有不(bu)少小伙伴已經摩拳(quan)擦掌，躍躍欲試了，然(ran)而在實際操作過(guo)程中，我們有時卻(que)會遇到這樣的情(qing)況：用來進行轉(zhuan)錄組(zu)測序分析的參考基(ji)因組(zu)千真(zhen)萬確就是(shi)來自NCBI數據庫，然而利用剛學會的方法，在NCBI-gene菜單里搜索相應的基因名卻一無所獲，這又是為什么呢？

為了回答這個問題(ti)，我們需要(yao)認識另一(yi)個NCBI數據庫：GenBank，它是一個DNA序列數據庫，收集了所有公開的DNA序列以及與之相關的生物學信息和參考文獻，其最主要的信息來源就是作者的直接投遞。同屬于序列數據庫，GenBank與上文提到的RefSeq存在一些區別，主要在于：GenBank是一個開放的數據庫，很多研究者或者公司都可以自己提交序列；而RefSeq是經過NCBI篩選的非冗余數據庫，可信度更高。

因(yin)此，當一(yi)段序列(lie)僅被GenBank收錄，而未被RefSeq收錄時，我們自然無法通過上文介紹的通過基因名跳轉至相應RefSeq序列接收號的方式來進行查找了。解決辦法其實很簡單：直接下載全基因組序列，然后搜索基因名即可。具體操作如下：

01、找到參(can)考基因組的編號：

根據有參轉錄組的結(jie)題報告(gao)，找(zhao)到參考(kao)基(ji)因(yin)組的編號，如下(xia)圖(tu)：

10.webp.jpg

02、進入NCBI網(wang)站：

進入

11.webp.jpg

03、搜(sou)索及下載：

點(dian)擊搜索，進入該(gai)基(ji)(ji)因(yin)組(zu)的組(zu)裝(zhuang)信息界面，可見該(gai)基(ji)(ji)因(yin)組(zu)僅被錄入GenBank而未被RefSeq收錄（藍框），因此我們選擇下載基因組。點擊右側“Download the GenBank assembly”（圖中紅框）：

12.webp.jpg

04、進入下載頁面：

可選擇(ze)下載(zai)CDS序列，或RNA序列（紅框），這里我們選擇下載CDS序列：

13.webp.jpg

05、解(jie)壓文件，查找目標基因：

下載完畢，解壓后得到一個FASTA格式的序列文件。我們用EditPlus軟件打開它，如下圖。“locus_tag”即為該基因登記于GenBank的基因名。點擊查找工具（圖中紅框）搜索目標基因名，即可獲得相應CDS序列：

14.webp.jpg

總結(jie)

看到這(zhe)里，聰明的(de)您應該已經察覺到了，查找目(mu)標基(ji)因(yin)(yin)序列的(de)方(fang)法(fa)概括起來其實只有三步：確定數據庫(ku)、輸(shu)入基(ji)因(yin)(yin)信息、下載特定序列。這(zhe)似乎與“如何將一只大象關進冰箱？”有異曲同工之妙：我們需要先選擇一個合適的“冰箱”，是Ensembl還是NCBI？是Ensembl的脊椎動物、植物還是真菌庫？是NCBI的RefSeq還是GenBank？此外，“塞大象的手法”也至關重要，尤其是在NCBI這個“冰箱”里，我們是搜GI號還是基因名？如果搜不到，我們該怎么把這只不愿意進入冰箱的大象“忽悠”進去？在成功地“把冰箱門關上”之后，我們又得到了什么？是全基因的序列，還是CDS序列？

最后，讓我們再來回顧一下這張流(liu)程(cheng)圖(tu)，現在的您應該已經對(dui)此心(xin)中有數(shu)了。只(zhi)要掌握(wo)了這些步(bu)驟，相信您一定(ding)能輕松而(er)又準(zhun)確地(di)查找(zhao)到目(mu)標序列。

15.webp.jpg

轉錄組

單細胞組

蛋白組

表觀基因組學

代謝組

微生物組

微生物基因組

動植物基因組

人基因組

三代測序服務

常規分子實驗

常規測序與合成

微生物采樣工具

婦幼健康

腫瘤早篩

新型冠狀病毒核酸檢測

NGS測序平臺