2022-09-02
隨著高通量測(ce)序技術的發(fa)展,不僅(jin)讓我們(men)對微生(sheng)物的群落結構和功(gong)能有了更全面的了解(jie),同時也產(chan)生(sheng)了大(da)量的原始測(ce)序數(shu)據(ju)(ju)。原始數(shu)據(ju)(ju)上傳公共平臺并發(fa)布,即(ji)是對自身數(shu)據(ju)(ju)的真(zhen)實性、可重復性的一種驗證依(yi)據(ju)(ju),同時也是對所研究領域內信息發(fa)展,數(shu)據(ju)(ju)再(zai)利用做了貢獻(xian)。
但現實是(shi)我(wo)們在(zai)上傳(chuan)過程中往往會(hui)遇到各(ge)種各(ge)樣的(de)問題,在(zai)某一(yi)個步驟(zou)中重復(fu)出現“error”,各(ge)種報錯但又找不出具體原(yuan)因,距離成功往往就只剩一(yi)步~
今天小編就將(jiang)目前最新的(de)完整宏組(zu)學(xue)數據上傳步驟與各位(wei)分享,您值(zhi)得擁(yong)有!
1、進入NCBI_submit向導
NCBI數據上傳網址://submit.ncbi.nlm.nih.gov/
進(jin)(jin)入網址,點(dian)擊(ji)圖片右上角Log in,進(jin)(jin)入登陸界面;
需要注(zhu)意的(de)是目(mu)前NCBI登(deng)陸(lu)需要第三方賬號(hao)(hao),原來注(zhu)冊(ce)的(de)NCBI賬號(hao)(hao)可能已經停用,這里(li)推(tui)薦(jian)用截圖中紅框內的(de)ORCiD或者Microsoft賬號(hao)(hao)登(deng)陸(lu),當然(ran)如(ru)果老師(shi)有其他賬戶(hu)也可以選擇登(deng)陸(lu)~
賬號登陸(lu)后(hou)下拉(la)網(wang)頁找到Sequence Read Archive (SRA),點擊(ji)Submit即(ji)可。
2、SRA提交
2.1創(chuang)建(jian)new submission
進入SRA提交頁(ye)面,點擊(ji)New submission。
2.2 Submitter信息(xi)填寫
確認無誤后,點擊continue(“*”標注為(wei)必須(xu)填寫(xie),其(qi)余內容選填);
2.3 General Information信息填(tian)寫
第一個紅框為bioproject號填寫,由于(yu)沒有申請,故選擇NO;
第二個紅(hong)框(kuang)為biosample申請,由于沒有申請,故選擇NO;
第三個(ge)紅(hong)框為(wei)數(shu)據(ju)公(gong)(gong)布時間選擇,前者(zhe)為(wei)上傳后(hou)立即公(gong)(gong)布,后(hou)者(zhe)為(wei)選擇指定(ding)日(ri)期(qi)公(gong)(gong)布,可根據(ju)需求進行(xing)選擇;
填寫完后,點(dian)擊continue,進行下一項。
2.4 Project Info信息錄入
此步驟為bioproject申請,需(xu)要填(tian)寫紅框標注(zhu)的“*”部分:
第一個紅框中(zhong)需要填(tian)寫項(xiang)目標題,有固定格式“*+metagenome”,如(ru)土壤類型(xing)項(xiang)目“soil metagenome”,腸道類型(xing)項(xiang)目“gut metagenome”等等;
第二個(ge)紅框(kuang)中需要填寫樣(yang)品信(xin)息描述,比如采樣(yang)地點、深度、類型等(deng)(deng)等(deng)(deng);
填寫完(wan)后,點擊continue,進行下一項。
2.5 Sample Type選擇(ze)
2.6 Biosample Attributes信息錄入
選(xuan)擇第一個紅框為線上填寫樣品信息;
選擇第二(er)個紅框可以下載(zai)表格填寫樣(yang)品信息,以下載(zai)表格為(wei)例進行說明(ming);
表格(ge)打開(kai)如上(shang)圖所示,填寫完相應信(xin)息后將表格(ge)保存(cun)為txt格(ge)式上(shang)傳(chuan)到網(wang)頁中(zhong);
*注意(yi):多樣(yang)(yang)(yang)(yang)品上傳表格(ge)填寫(xie)的信(xin)息(xi)(xi)如果所有樣(yang)(yang)(yang)(yang)品均一(yi)致(zhi),NCBI會默(mo)認為(wei)是同一(yi)個(ge)樣(yang)(yang)(yang)(yang)本(ben),出(chu)現報錯提示,所以建議樣(yang)(yang)(yang)(yang)本(ben)信(xin)息(xi)(xi)不(bu)要完(wan)全(quan)一(yi)樣(yang)(yang)(yang)(yang),可以在樣(yang)(yang)(yang)(yang)本(ben)采(cai)集時間一(yi)欄中小幅度更改采(cai)樣(yang)(yang)(yang)(yang)日(ri)期時間;將(jiang)鼠標移至表頭紅色(se)三角處,可顯示對應(ying)表格(ge)填寫(xie)示例規范,collection_data中可填寫(xie)的示例有1990-10-30T14:41:36Z,那(nei)么我們在填寫(xie)這(zhe)(zhe)部分信(xin)息(xi)(xi)時可將(jiang)采(cai)樣(yang)(yang)(yang)(yang)的具體時間,即T后(hou)面的信(xin)息(xi)(xi)做(zuo)小幅度修(xiu)改,或按(an)照您真實的采(cai)樣(yang)(yang)(yang)(yang)時間填寫(xie),這(zhe)(zhe)樣(yang)(yang)(yang)(yang)可以保證每個(ge)樣(yang)(yang)(yang)(yang)品的信(xin)息(xi)(xi)不(bu)一(yi)致(zhi);
PS:經(jing)過測試,提交表格后會出(chu)現黃色框warning信息,不要緊(jin)張,可以忽略(lve),continue進行下一項~
2.7 SRA metadata信息錄入
選(xuan)擇(ze)第(di)一個紅框為(wei)線上填寫樣(yang)品(pin)信息;
選(xuan)擇第二個紅(hong)框可以下載表(biao)格(ge)填寫(xie)樣品(pin)信(xin)息(xi),以下載表(biao)格(ge)為例進行說明;
表(biao)格中每一(yi)列均需要填寫相應信息:
sample_name:上(shang)傳樣本(ben)名稱;
library_ID:與上傳樣本名稱(cheng)一致即可;
title:如(ru)果是做的(de)是16s項(xiang)目,可(ke)(ke)(ke)以填寫“sequences of bacteria”,如(ru)果是做的(de)真菌(jun)項(xiang)目,可(ke)(ke)(ke)以填寫“sequences of fungi”,如(ru)果是某功(gong)能基因的(de)項(xiang)目,可(ke)(ke)(ke)以填寫“sequences of * gene”;
library_strategy:如果老師的項目是菌群多樣性檢測,或者擴增子項目,選擇AMPLICON;如果是宏基因組項目選擇WGS;如果是宏轉錄組項目選擇RNA-Seq;
library_source:菌群多樣性檢測,或者擴增子項目以及宏基因組項目選擇METAGENOMIC;宏轉錄組項目選擇METATRANSCRIPTOMIC;
library_selection:菌群多樣(yang)性檢(jian)測,或者擴增子項目選擇PCR;宏基因組項目選擇RANDOM;宏轉錄組選擇RT-PCR;
library_layout:單端測(ce)序選擇(ze)single,雙端測(ce)序選擇(ze)paired;
platform:根據(ju)測序(xu)所(suo)用(yong)平(ping)臺進行選擇;
instrument_model:根據上一列選定結(jie)果,繼續選擇(ze)儀器(qi)型號;
design_description:簡單(dan)描述(shu)下實驗設計思路,如測序區(qu)域信息等等;
filetype:上傳數據的文件類型,比如Illumina平臺測(ce)序(xu)原始(shi)數據類型為(wei)fastq格式;
filename/ filename2:填寫上(shang)(shang)傳(chuan)文件(jian)(jian)(jian)(jian)的(de)名(ming)稱,需(xu)要(yao)注意的(de)是上(shang)(shang)傳(chuan)文件(jian)(jian)(jian)(jian)的(de)名(ming)稱必須與文件(jian)(jian)(jian)(jian)一(yi)致,包括后綴名(ming)也要(yao)加(jia)上(shang)(shang),如Illumina NovaSeq平臺為雙端測序平臺,每個(ge)樣本原始(shi)數據均有R1和R2兩(liang)個(ge)文件(jian)(jian)(jian)(jian),1_R1.fastq\1_R2.fastq,那么分別(bie)在filename/ filename2填寫這兩(liang)個(ge)文件(jian)(jian)(jian)(jian)名(ming)稱即可;如果是壓縮文件(jian)(jian)(jian)(jian),也可直接上(shang)(shang)傳(chuan),加(jia)入壓縮文件(jian)(jian)(jian)(jian)的(de)后綴名(ming)即可,如1_R1.fastq.gz/2_R2.fastq.gz;
上(shang)述表格信息填寫完畢并保(bao)存后,點擊瀏覽,上(shang)傳該文件即可;
出現如(ru)上warning信息不(bu)要緊(jin),可以繼續點擊continue,進行(xing)下一項;
2.8 Files數據(ju)上(shang)傳
方法一(yi):在線上(shang)傳
選擇(ze)在線上傳數(shu)據(ju)(ju),并在瀏覽中選擇(ze)要上傳的(de)原始數(shu)據(ju)(ju)文件,待所有文件上傳成(cheng)功后,點(dian)擊continue;
*在線上傳適合樣品不(bu)多(duo),數據量不(bu)大的項目
方法二:Aspera插(cha)件上(shang)傳(推薦)
插件如何(he)下載?返(fan)回SRA首頁~~
點擊Aspera Browser plugin,會自動跳轉至下載頁面;
下載(zai)完成后,按提(ti)示安(an)裝(zhuang)軟件即(ji)可;
返回我(wo)們上傳的頁面位(wei)置,并打(da)開Aspera插(cha)件,該插(cha)件上傳數據需運(yun)行dos命令行窗口,鍵盤“win+R”搜索(suo)cmd即可(ke),如下圖;
首先在dos運行(xing)命令窗口中(zhong)(zhong)需要(yao)先找到軟件(jian)安裝的位置,一般默認安裝在C盤中(zhong)(zhong);運行(xing)NCBI中(zhong)(zhong)給出的命令行(xing)(將上圖中(zhong)(zhong)第二紅框中(zhong)(zhong)的信息復制粘貼到cmd窗口中(zhong)(zhong)即(ji)可(ke)):
ascp -i<path/to/key_file>(之前(qian)下載key file文件,并(bing)帶上文件路徑信息) -QT -l100m -k1 -d<path/to/folder/containing files>(數據存放的路徑,需注意目錄以“\”結尾)subasp@upload.ncbi.nlm.nih.gov:uploads/*******@163.com_CEFVcPsr
成圖如下:
點擊(ji)回車(che)鍵(jian)即可自(zi)動(dong)上傳(chuan),而且速(su)度很快(kuai),適合(he)多樣(yang)品及(ji)數據量較大(da)的項(xiang)目;
數(shu)據上傳完后等(deng)(deng)待10分鐘左(zuo)右(you)時間,點擊Select preload folder,在(zai)新窗口中點擊Refresh folders即可查(cha)到之前上傳的(de)文(wen)件(jian)信息,如果還沒有出現,再繼續耐(nai)心等(deng)(deng)待~
選(xuan)擇好(hao)上(shang)傳的文(wen)件(jian)后(hou),點(dian)擊網頁下(xia)方continue,進入上(shang)傳數據的最后(hou)一(yi)項內(nei)容;
2.9 Overview信息(xi)回(hui)顧
查看上傳樣(yang)本(ben)信息(xi)是否有誤,如(ru)無問題,點(dian)擊Submit;
3、 序列登錄號獲取
所(suo)有步驟(zou)完成(cheng)后,網頁會自動跳轉至SRA界面,申(shen)請的相(xiang)應(ying)(ying)提交(jiao)進(jin)(jin)程處(chu)于(yu)processing;根據不(bu)同的樣本量(liang)需要(yao)等(deng)待(dai)時間(jian)不(bu)等(deng),一(yi)般情況下是(shi)24h內即可完成(cheng),待(dai)相(xiang)應(ying)(ying)進(jin)(jin)行變為Processed后,可以查詢序(xu)列(lie)登錄號;
登(deng)入網(wang)址//www.ncbi.nlm.nih.gov/Traces/sra_sub/會出現如下界面(mian) :
點(dian)擊(ji)紅框鏈接NCBI PDA,網(wang)頁(ye)自(zi)動跳轉如下頁(ye)面(mian):
其中(zhong)SRP編號即為我(wo)們(men)需(xu)要的序(xu)列登錄號。