2020-08-25
導讀
在農(nong)業科學中(zhong),為了提升作(zuo)物農(nong)藝性狀,經常會遇到(dao)將與(yu)性狀相關的(de)基(ji)因(yin)(yin)或位點在基(ji)因(yin)(yin)組上進行定位的(de)需求,此時BSA作(zuo)為一種簡便又高(gao)效的(de)分析方法便有了大顯身手的(de)機會。可是(shi)BSA究(jiu)竟(jing)是(shi)怎樣的(de)一種研究(jiu)方法呢,適用于什么群體呢?跟著小編了解(jie)一下吧!
什么是BSA?
BSA(Bulked segregation analysis)即混合分組(zu)分析,也稱(cheng)分離(li)群(qun)(qun)(qun)(qun)體(ti)分組(zu)分析,是指利用目標(biao)(biao)性(xing)狀存在(zai)(zai)極(ji)端表型差(cha)異(yi)(yi)的(de)兩個(ge)親本構建(jian)分離(li)群(qun)(qun)(qun)(qun)體(ti),在(zai)(zai)子代(dai)分離(li)群(qun)(qun)(qun)(qun)體(ti)中(zhong),選取兩組(zu)表型差(cha)異(yi)(yi)極(ji)端的(de)個(ge)體(ti)分別構建(jian)混合池(chi) ,結合高通量測序技術對(dui)混合樣本測序,比較兩組(zu)群(qun)(qun)(qun)(qun)體(ti)在(zai)(zai)多態位點(SNP)的(de)等位基因(yin)頻率(AF)是否具有顯著差(cha)異(yi)(yi),定位與(yu)目標(biao)(biao)性(xing)狀相關(guan)聯的(de)位點并對(dui)其(qi)進(jin)行(xing)注釋,研究控制(zhi)目標(biao)(biao)性(xing)狀的(de)基因(yin)及其(qi)分子機制(zhi)。
相較于(yu)傳統的遺傳學研(yan)究方法(基因(yin)定位常用分(fen)析方法,小編已經(jing)安排(pai)上啦!),BSA最大的特點(dian)是不(bu)需要對群體中的所(suo)(suo)有個(ge)體進行(xing)基因(yin)分(fen)型,而是對挑選(xuan)的個(ge)體按照(zhao)性狀進行(xing)混合分(fen)析,所(suo)(suo)以可以極大地降(jiang)低(di)研(yan)究的工作量和(he)成本。
什么樣本適合(he)BSA分析(xi)?
既然BSA已經(jing)兼具了(le)(le)簡便,準確、高(gao)性價(jia)比等優點,自然也有自己的小性子了(le)(le),BSA分(fen)析對使用的群體(ti)有一定要(yao)求(qiu)。
1、人工構建的(de)遺(yi)傳(chuan)群(qun)(qun)體(ti)(最常用來(lai)的(de)是F2、BC、RIL)。通常來(lai)說,使用自然群(qun)(qun)體(ti)和遺(yi)傳(chuan)群(qun)(qun)體(ti)都可(ke)以進行BSA分析,但是考慮到(dao)遺(yi)傳(chuan)背(bei)景(jing)較復雜,可(ke)能導致定(ding)位(wei)結果不理想,所以不推(tui)薦使用自然群(qun)(qun)體(ti)進行BSA研究(jiu)。
2、親本目(mu)標性狀(zhuang)(zhuang)差(cha)異(yi)明顯,其他(ta)性狀(zhuang)(zhuang)差(cha)異(yi)隨機分布,所構建分離群(qun)體兩(liang)個(ge)混池之間目(mu)標性狀(zhuang)(zhuang)有顯著差(cha)異(yi),非目(mu)標性狀(zhuang)(zhuang)無明顯差(cha)異(yi)。
3、有合適的(de)參(can)考基(ji)(ji)(ji)因(yin)(yin)組信息。參(can)考基(ji)(ji)(ji)因(yin)(yin)組組裝的(de)越好,信息越全,對于后續基(ji)(ji)(ji)因(yin)(yin)定位和候(hou)(hou)選區(qu)(qu)間(jian)的(de)注釋都會更加(jia)精確(que),可以鎖定候(hou)(hou)選區(qu)(qu)間(jian)并估(gu)計候(hou)(hou)選區(qu)(qu)域的(de)大(da)小。沒有組裝到染色體級別的(de)參(can)考基(ji)(ji)(ji)因(yin)(yin)組,分(fen)析思路是(shi)一樣的(de),但只能(neng)得到某(mou)個(ge)或某(mou)些scaffolds中的(de)snp與性(xing)狀相(xiang)關,無法(fa)估(gu)計候(hou)(hou)選區(qu)(qu)間(jian)大(da)小,甚至再組裝結果差的(de)情況(kuang)下,無法(fa)判斷基(ji)(ji)(ji)因(yin)(yin)的(de)物理位置。
BSA有哪(na)些分析方(fang)法(fa)?
1、SNP index及(ji)△SNP index
SNP-index作為主(zhu)流(liu)的(de)(de)(de)(de)(de)BSA定位的(de)(de)(de)(de)(de)算法,最早在2013年(nian)被提(ti)出(Takagi)。它的(de)(de)(de)(de)(de)基(ji)本(ben)(ben)原理(li)是(shi)(shi)(shi),構建子代分(fen)離群體(ti),經(jing)過(guo)挑選極(ji)端(duan)性(xing)狀構建混(hun)池(chi)后對(dui)SNP進(jin)行檢(jian)測(ce)(ce),對(dui)各混(hun)池(chi)進(jin)行等(deng)位基(ji)因(yin)頻率分(fen)析(xi),并與(yu)其中一個親本(ben)(ben)進(jin)行比較。與(yu)此親本(ben)(ben)不(bu)同的(de)(de)(de)(de)(de)基(ji)因(yin)型所占(zhan)的(de)(de)(de)(de)(de)比例,即(ji)為該位點的(de)(de)(de)(de)(de)SNP-index。從(cong)下圖可以看到,兩(liang)個位點的(de)(de)(de)(de)(de)SNP-index分(fen)別為0.4和1。值(zhi)得注意的(de)(de)(de)(de)(de)是(shi)(shi)(shi),這里的(de)(de)(de)(de)(de)reference指的(de)(de)(de)(de)(de)并不(bu)是(shi)(shi)(shi)我(wo)們進(jin)行重測(ce)(ce)序(xu)(xu)變異檢(jian)測(ce)(ce)的(de)(de)(de)(de)(de)參考基(ji)因(yin)組,而是(shi)(shi)(shi)我(wo)們構建群體(ti)所使用的(de)(de)(de)(de)(de)親本(ben)(ben)。這也是(shi)(shi)(shi)為什(shen)么進(jin)行SNP-index計算必須依賴于親本(ben)(ben)測(ce)(ce)序(xu)(xu)數據的(de)(de)(de)(de)(de)緣故。
每個混池(chi)(chi)都得到(dao)(dao)一(yi)組SNP-index數據之(zhi)后,兩個混池(chi)(chi)相減(上圖右),即得到(dao)(dao)了△SNP-index的(de)(de)(de)結果,代(dai)表(biao)的(de)(de)(de)是兩個混池(chi)(chi)之(zhi)間(jian)SNP基因型頻率的(de)(de)(de)差(cha)異。理論上說,不(bu)(bu)與性狀相關(guan)的(de)(de)(de)位(wei)(wei)點(dian)(dian),△SNP-index的(de)(de)(de)值應當(dang)在0左右,代(dai)表(biao)混池(chi)(chi)之(zhi)間(jian)不(bu)(bu)存在差(cha)異;而QTL及其(qi)相連(lian)鎖位(wei)(wei)置(zhi)的(de)(de)(de)SNP,△SNP-index值應當(dang)呈現較高的(de)(de)(de)數值。△SNP index這種分析方法會存在因統計(ji)偏差(cha)造(zao)成的(de)(de)(de)假陽性位(wei)(wei)點(dian)(dian),這時我們可以通過計(ji)算滑窗內所有(you)SNP的(de)(de)(de)△SNP-index,來消(xiao)除其(qi)影響,得到(dao)(dao)真正QTL所在的(de)(de)(de)基因組區域。
2、歐(ou)幾里(li)得距(ju)離(ED)
隨著BSA技術的發展,SNP-index顯示出了一定的局限性,比如親本數據缺失,林木類較難構建分析群體,ED值的分析方法應運而生。在BSA和BSR中,歐幾里得距離可以計算同一個位點上,兩個混池之間的等位基因頻率。兩個極端性狀子代混池只在控制性狀的QTL及其連鎖位點出現差異,所以通過各個位點歐幾里得距離的計算,我們可以判斷哪些位點更可能是控制對應性狀的QTL。計算公式如下:
實(shi)際(ji)(ji)應用(yong)中(zhong),我們在BSA的兩組混池(chi)之間可(ke)(ke)能會得到(dao)數十萬甚至上(shang)百(bai)萬個SNP,有的SNP可(ke)(ke)能實(shi)際(ji)(ji)與性狀無關,但因為(wei)抽(chou)樣(yang)偏差,導(dao)致計算得到(dao)的ED值(zhi)(zhi)很高,為(wei)了(le)排除統計異(yi)常值(zhi)(zhi),我們通常會采用(yong)滑窗(chuang)對在一個窗(chuang)口內所有位點的ED值(zhi)(zhi)進行擬合,消除抽(chou)樣(yang)偏差產生(sheng)的假陽性結果。而在BSA定位區(qu)間計算過程中(zhong),會對ED值(zhi)(zhi)采取乘方處理,放(fang)大ED值(zhi)(zhi)的差異(yi),使定位區(qu)間更加明顯。
3、Gradedpool-seq(Ridit檢驗)
Gradedpool-seq的(de)概念在2019年由韓斌和黃學輝課題組(zu)(zu)提出(chu)并發表于Nature Communication(Wang et al., 2019)。這種方(fang)法(fa)與(yu)常規BSA類(lei)似的(de)是,它也(ye)是基(ji)于性(xing)狀(zhuang)分(fen)離(li)群(qun)體中按(an)照性(xing)狀(zhuang)選擇子代個(ge)(ge)(ge)體構成混(hun)池(通常加上親本)進(jin)(jin)行(xing)測(ce)序,并進(jin)(jin)行(xing)QTL定位(wei)(wei)的(de)方(fang)式。Ridit是relative to an identified distribution unit一詞的(de)縮(suo)寫,它是一種非參數(shu)檢(jian)驗分(fen)析方(fang)法(fa),用于按(an)等級(ji)分(fen)組(zu)(zu)資料(liao)的(de)比(bi)較。而(er)對于多(duo)個(ge)(ge)(ge)混(hun)池測(ce)序數(shu)據,Ridit檢(jian)驗會對每個(ge)(ge)(ge)位(wei)(wei)點的(de)等位(wei)(wei)基(ji)因頻率(lv)進(jin)(jin)行(xing)計算,判斷其是否顯著偏離(li)標準分(fen)布,得到一個(ge)(ge)(ge)p值(zhi)(zhi)。換言(yan)之,這個(ge)(ge)(ge)位(wei)(wei)點的(de)p值(zhi)(zhi)越小,即代表這個(ge)(ge)(ge)位(wei)(wei)點與(yu)性(xing)狀(zhuang)相關聯的(de)可(ke)能性(xing)越高(與(yu)GWAS關聯方(fang)法(fa)類(lei)似)。
由于在(zai)BSA項目中(zhong)Ridit檢(jian)驗的(de)對象只有2-4個(ge)混池,基因型數(shu)據較(jiao)少,所(suo)以當Ridit檢(jian)驗的(de)結果(guo)用曼哈頓圖的(de)形式展現出(chu)來,其噪(zao)音非(fei)常強(qiang)烈,很(hen)難從(cong)中(zhong)直觀地判斷(duan)我們的(de)候(hou)選區間(jian)的(de)位置。研究者們選取一定大(da)小的(de)窗(chuang)(chuang)口(kou),并且(qie)將窗(chuang)(chuang)口(kou)內的(de)SNP位點(dian)進行統計(ji),計(ji)算(suan)p值低(di)于閾值的(de)位點(dian)所(suo)占的(de)比例(li)。一般經過(guo)這種滑窗(chuang)(chuang)降噪(zao)處(chu)理,其關聯(lian)區間(jian)也就顯現出(chu)來了。
好啦,嘮叨了這么多,不知道大家是不是有所收獲呢?對于這種即簡便又實用的小可愛,是不是難以拒絕呢?區間定位到了,后續如何進行精細定位與驗證呢?請聽小編下回分解啦!
參(can)考文獻:
1.Hill JT,et al. MMAPPR: mutation mapping analysis pipeline for pooled RNA-seq. Genome Res. 2013, 23(4):687-97
2.Takagi H, Abe A,Yoshida K, et al. QTL‐seq: rapid mapping of quantitative trait loci in riceby wholegenome resequencing of DNA from two bulked populations[J]. Plant Journal,2013,74(1):174-83.
3.Wang, C., Tang, S., Zhan, Q. et al. Dissecting a heterotic gene through GradedPool-Seq mapping informs a rice-improvement strategy. Nat Commun 10, 2982 (2019).