2019-05-29
很多老師有沒有一種感(gan)慨(kai),辛辛苦苦做完實驗(yan)設(she)計(ji),測序工作,數據分(fen)析和(he)文章撰(zhuan)寫,在文章發表的(de)前夕,還(huan)有一項磨人的(de)工作不(bu)得不(bu)做,那(nei)就是數據上傳。
為什么要進行數(shu)據上(shang)傳(chuan)?
數據上傳到哪里?
怎(zen)么(me)進行數(shu)據(ju)上傳??
突然之間的三(san)連(lian)問是(shi)不是(shi)有點懵,不要怕,本(ben)篇軟文就來帶領大(da)家梳(shu)理這些問題,數據上傳So easy~
為什么要進行(xing)數(shu)據上傳?
簡單來(lai)說,為了發表文章(zhang),但根(gen)本原因是為了幫助大(da)家(jia)管理這些動輒幾(ji)十個G或者幾(ji)T的數據(ju),同時(shi)實現(xian)科研共享。
數據上傳到哪里(li)?
這里(li)建議將數(shu)據(ju)上(shang)傳(chuan)到NCBI的(de)SRA數(shu)據(ju)庫(ku)。NCBI SRA(Sequence Read Archive)數(shu)據(ju)庫(ku)是最常用的(de)存放測序(xu)Raw Reads的(de)數(shu)據(ju)庫(ku)(當然還有(you)GEO等其他大(da)的(de)相(xiang)關的(de)上(shang)傳(chuan)數(shu)據(ju)的(de)數(shu)據(ju)庫(ku),大(da)家感興趣的(de)可(ke)以自行(xing)檢索)。
將測序數據上傳至該數據庫,可(ke)分為4大(da)步(bu):
? 注冊并(bing)登錄(lu)NCBI賬號;
? 申請BioProject號;
? 申請BioSample號;
? 創建SRA提(ti)交(jiao)任務。?
搞清楚這4大步,上(shang)傳過程不復雜(za)!
一 注冊并登錄(lu)NCBI賬號
網址://www.ncbi.nlm.nih.gov/
1
打開(kai)網(wang)址,點擊(ji)右上角 Sign in to NCBI;
2
點(dian)擊注冊賬號(hao) Register for an NCBI account;
3
填(tian)寫賬號郵箱等信息(xi),點擊(ji) Create accout 完成注冊。
二 申請BioProject號(hao)
登錄賬號后,打開網(wang)址//submit.ncbi.nlm.nih.gov/subs/,并進入,界面(mian)如下。
1
點擊(ji) BioProject,再(zai)點擊(ji) New submission。BioProject:主要描述(shu)測序項目的(de)研究(jiu)目的(de),不同類型的(de)數據(如(ru)基因組和轉錄組)可以都放(fang)到(dao)(dao)一(yi)個BioProject下(xia)。申請(qing)(qing)成功(gong)后,NCBI會給(gei)一(yi)個類似PRJNA544896這樣的(de)號(hao),申請(qing)(qing)過程任何遇到(dao)(dao)問(wen)題,可以寫信給(gei)他們的(de)工(gong)作(zuo)人員(genomeprj@ncbi.nlm.nih.gov),很快就能(neng)收到(dao)(dao)回復;
2
SUBMITTER,填寫信息,完(wan)成后(hou)點擊continue。
注:Submitting organization:提交(jiao)組(zu)織、機構或(huo)者(zhe)學(xue)校等研究單位(wei)。Department:實驗室或(huo)課(ke)題組(zu)或(huo)科(ke)室名稱。
3
SAMPLE TYPE,選擇(ze)(ze)數據類型。轉錄組數據選擇(ze)(ze)第二個,其它數據視(shi)實際情況選擇(ze)(ze)。Sample scope選擇(ze)(ze)Multiisolate。點擊(ji)continue;
4
輸入(ru)測序數(shu)據的(de)物種拉丁名(必填),如果是(shi)微生(sheng)物細菌,還需要(yao)填寫菌株的(de)名稱(cheng)。分離提(ti)取或培養組織名稱(cheng)等(deng),簡單(dan)描(miao)述,此(ci)處可省略。點擊continue;
5
填(tian)寫project釋(shi)放時(shi)間,如沒有(you)特殊要求,一(yi)般為立即釋(shi)放,Public description,主要寫數據測序(xu)目的,測序(xu)組織等(deng)。此處必須填(tian)寫。點(dian)擊continue;
6
填(tian)寫Biosample。此(ci)處省(sheng)略(lve),直(zhi)接continue。因為上傳步驟一(yi)般先申(shen)(shen)請Bioproject號,再(zai)申(shen)(shen)請Biosample號。點擊continue;
7
如(ru)果(guo)文章已(yi)經發出,可以(yi)填寫(xie)Pubmed ID或者文章的(de)DOI。點(dian)擊(ji)continue;如(ru)果(guo)文章還未發出,可以(yi)不(bu)填。
8
確認填寫的信息,點擊submit后提(ti)交完成。
至(zhi)此(ci)Bioproject號申請完成(cheng),會立即(ji)收到郵件。
三 申(shen)請BioSample號
打開網(wang)址//submit.ncbi.nlm.nih.gov/subs/。這與BioProject號不同,這里(li)要求每個(ge)樣品申請一(yi)個(ge)biosample號。
1
點擊BioSample后,在新的界面點擊New submission;
2
SUBMITTER,填寫信息。同BioProject。點擊continue;
3
GENERAL INFO,同BioProject,多個(ge)樣品選擇Batch/Multiple Bio Samples。點擊continue;
4
SAMPLE TYPE,選擇(ze)樣品(pin)的類型,植物(wu)、動物(wu)、人(ren)等,選擇(ze)和自(zi)己樣品(pin)分類一(yi)致的選項(xiang)即可(ke)。點擊continue;
5
ATTRIBUTES,上(shang)傳樣品信息(xi)表(biao)。點擊紅色(se)(se)箭頭處(chu),下(xia)載(zai)信息(xi)模板。點擊綠色(se)(se)箭頭處(chu),可以查看模板中每(mei)一項表(biao)頭的(de)解釋,得(de)知如(ru)(ru)何填寫樣品信息(xi)表(biao)。excel可直(zhi)接打(da)開下(xia)載(zai)的(de)模板,如(ru)(ru)圖(tu):表(biao)格綠色(se)(se)部分(fen)必(bi)填,黃色(se)(se)部分(fen)選填,藍(lan)色(se)(se)表(biao)示這些字段中至少(shao)(shao)有(you)一個(ge)(ge)是必(bi)需(xu)的(de),如(ru)(ru)果(guo)(guo)信息(xi)不可用,請根據(ju)情(qing)況輸(shu)入“未(wei)收集”、“不適用”或“缺少(shao)(shao)”。。每(mei)個(ge)(ge)樣品生成一個(ge)(ge)文(wen)件(jian)(先填寫一個(ge)(ge)文(wen)件(jian)試(shi)著(zhu)上(shang)傳,如(ru)(ru)果(guo)(guo)有(you)報錯(cuo)可以修改,之(zhi)后(hou)只需(xu)改動(dong)樣品名即可)。點擊continue;
6
確認填寫的信息,點擊submit后(hou)提交完成。幾分鐘內(nei)就會收到郵件,包含BioSample號。
四 創(chuang)建SRA提交任務
打開網址(zhi)//submit.ncbi.nlm.nih.gov/subs/,并進入(ru)。
1
點擊SRA,New submission。文件(jian)可(ke)以用(yong)gzip或者bzip2壓縮,不能用(yong)zip壓縮。注:所有文件(jian)名(ming)必須唯(wei)一不可(ke)重名(ming);
2
SUBMITTER,填寫(xie)信(xin)息,同BioProject號申請。點擊continue;
3
GENERAL,填寫(xie)申請好的BioProject號及數據釋放時(shi)間。點擊continue;
4
METADATA,上傳文件(jian)信息表(biao)。點擊箭頭處(chu),下載表(biao)格(ge)模板,并按照介紹填寫(每(mei)一列都必填),填寫完成(cheng)后在瀏覽(lan)處(chu)上傳表(biao)格(ge),點擊continue。
5
FILES,上傳(chuan)壓縮好的原始(shi)數(shu)據,如果文件(jian)大(da)于10GB,或者多于300個(ge)(ge)文件(jian),不能用網頁上傳(chuan),可(ke)安(an)裝Aspera插件(jian)后(hou)(hou)上傳(chuan)。點(dian)擊箭(jian)頭(tou)處下載插件(jian),安(an)裝后(hou)(hou)回(hui)到網頁繼續上傳(chuan)。由于測序數(shu)據較(jiao)大(da),網速(su)的限制等原因,這個(ge)(ge)過程所需(xu)時間可(ke)能較(jiao)長,還請大(da)家耐心等待哦(e)。
6
OVERVIEW,確認填寫的(de)信息,提交(jiao)。
完成了(le)前面(mian)的(de)四個步驟,所有的(de)操作就(jiu)已經完成了(le),靜靜等待NCBI發送序列號郵件就(jiu)可以了(le)。
歡(huan)迎大家(jia)(jia)學習和嘗試前往NCBI上傳原始數(shu)據,測(ce)序文章的成功(gong)發表,離(li)不開數(shu)據的成功(gong)上傳,大家(jia)(jia)加(jia)油~~