2022-07-07
轉錄組原始數據上傳SRA
保姆級上傳手冊
SRA(Sequence Read Archive)作為(wei)NCBI用于保存大規模測(ce)序(xu)原(yuan)始(shi)(shi)數據(ju)(ju)的(de)數據(ju)(ju)庫(ku),也是絕(jue)大多數轉錄組文章上(shang)傳(chuan)原(yuan)始(shi)(shi)數據(ju)(ju)的(de)較優選(xuan)擇。這里我們整(zheng)理了(le)轉錄組原(yuan)始(shi)(shi)數據(ju)(ju)上(shang)傳(chuan)SRA的(de)超簡單(dan)方法,5分鐘讓你成為(wei)平(ping)(ping)(fei)平(ping)(ping)(chang)無(li)奇(hai)的(de)數據(ju)(ju)上(shang)傳(chuan)小天(tian)才!
一、準備工作
上傳之前,首先需(xu)要準備兩樣必備品:原始數據(ju)與NCBI的(de)賬號。 在小派這里(li)(li)做轉錄組(zu)的家(jia)銀(yin)們,在您拿到(dao)的轉錄組(zu)結果中(zhong),有一個(ge)rawdata的文件夾,這里(li)(li)存放的就是(shi)可以直(zhi)接上(shang)傳的原始數據啦(la)。
Fastq是需(xu)要(yao)上(shang)傳(chuan)(chuan)的原始數據(ju)。由于(yu)是雙端測序,因此每個樣本(ben)需(xu)要(yao)上(shang)傳(chuan)(chuan)R1、R2兩份fastq文件(jian),md5文件(jian)是老(lao)師用于(yu)進行數據(ju)一致(zhi)性(xing)驗證,在SRA上(shang)傳(chuan)(chuan)過(guo)程中我們是不需(xu)要(yao)上(shang)傳(chuan)(chuan)該文件(jian)的。
注(zhu)意!這里fastq文(wen)件(jian)直接(jie)上(shang)傳壓(ya)縮包(bao)即可,不需要老師做解壓(ya)處理。
準備好(hao)原始(shi)數據后,就要登錄NCBI進行我們的上(shang)傳操作啦:
登錄完成后(hou)依次點擊submit,如下(xia):
創建(jian)new submission
二、信息填寫
接下來就是信息填寫了,只要根據網站提示填寫相應內容即可。首先是個人信息,*為必填選項,包括名字,郵箱(這里盡量不要使用qq郵箱,以避免無法正常接收郵件),以及學校信息等,填寫完成后點擊繼續。
接(jie)下來(lai)填寫General Information,這里主(zhu)要填寫是(shi)否已經注冊(ce)BioProject和BioSample的信息,沒有申請直接(jie)選(xuan)擇NO即可。另外(wai)可以(yi)根據(ju)您的需要,選(xuan)擇數據(ju)是(shi)上(shang)傳后立即公布,還(huan)是(shi)指定(ding)日期公布,填寫完成后點擊(ji)繼續。
之后填寫項目信息(xi),*為必填項,填寫項(xiang)目(mu)標題(ti)及(ji)項(xiang)目(mu)信息,根據老師的項(xiang)目(mu)情況及(ji)實驗處(chu)理(li)進行填寫即(ji)可。非必(bi)填內容可以(yi)直接(jie)跳過,點擊continue繼續(xu)。
選擇樣本類型(xing),如植物、動物、人、細菌等,這里我們以植物plant 為例,選好(hao)后點擊(ji)continue繼(ji)續。
接下來需要(yao)提(ti)交BioSample attributes,這(zhe)里有在線填寫(xie)和下載(zai)表(biao)格(ge)填寫(xie)兩種(zhong)方式(shi)。這(zhe)里我們推薦下載(zai)表(biao)格(ge)填寫(xie)。
所有的信息根據提示及項目情況進行填寫即可。綠色字段為必填項,如缺少相關信息,如任何必填項沒有資料,可以填寫'not collected', 'not applicable' 或 'missing';藍色字段為至少一個必填項,可參考綠色字段填寫方法;黃色字段則為非必填項。注意,除樣本名外,需要可以有信息將每個樣本區分開,可以通過添加description信息,或者另外增加replication的信息來進行區分(注意,這里信息如果填寫不符合規范,上傳后會報錯,只需根據提示的信息對表格內容進行相應修改后重新上傳即可)。
上傳填寫好的表格后,點(dian)擊continue繼續。
下一步輸入(ru)SRA Metadata信息,還是可以(yi)選(xuan)擇(ze)線上填寫(xie)或下載表格(ge)填寫(xie),這里(li)還是以(yi)表格(ge)填寫(xie)為(wei)例。參照示例填寫(xie)相(xiang)關(guan)信息后,點擊continue繼續。
三、數據上傳
終于到(dao)了(le)最后一步上傳數據(ju)啦!老師(shi)根據(ju)自己(ji)的數據(ju)情況,選(xuan)擇適(shi)合的上傳方(fang)式即可(ke)。如(ru)果數據(ju)較少,可(ke)以選(xuan)擇直接網頁上傳:
如(ru)果數據比較多,這里推薦Aspera方(fang)法上傳數據:
首先下載安裝Aspera://www.ibm.com/aspera/connect/
安裝完成后(hou),找到IBM Aspera Connect的圖標,點擊(ji)屬性,打開(kai)文件所(suo)在位(wei)置(zhi):
在(zai)打開(kai)的文件(jian)(jian)夾里新建(jian)data文件(jian)(jian)夾,將需(xu)要上(shang)傳的fastq文件(jian)(jian)拷貝到data中。下(xia)載NCBI配置(zhi)文件(jian)(jian),配置(zhi)文件(jian)(jian)下(xia)載見下(xia)圖,同樣放(fang)在(zai)上(shang)一步(bu)打開(kai)的文件(jian)(jian)夾中,并復制生成的命令:
在(zai)文(wen)件(jian)夾的空白處,按住shift鍵 同時鼠標右擊,打開命令窗口。在(zai)打開的窗口里輸入命令:
.\ascp.exe -i aspera.openssh -QT -l100m -k1 -d data subasp@upload.ncbi.nlm.nih.gov:uploads/personal_163.com_bdksRkE3
標黃信息來(lai)自(zi)于(yu)剛剛復制(zhi)的(de)命令,按enter鍵進行上傳(chuan),顯示(shi)100%時表明上傳(chuan)完畢。
數據上傳(chuan)成(cheng)功(gong)后,最(zui)后一步檢查一下上傳(chuan)信息是否(fou)有誤,確定沒問題的話點擊(ji)submit,我們的上傳(chuan)工作就(jiu)完成(cheng)啦,接下來就(jiu)靜(jing)靜(jing)的等待NCBI發(fa)送郵件給(gei)我們了。
如果數(shu)據上(shang)傳中出現了無法修改(gai)的錯誤,或遲(chi)遲(chi)沒有審核完成(cheng)的情況,大家(jia)都可以發郵件給NCBI進行咨詢。