期刊VIP學術指導 符合學術規范和道德
保障品質 保證專業,沒有后顧之憂
摘要:隨著分子生物學和基因組學的快速發展,關聯分析成為近些年來在植物數量性狀研究和植物良種選育中行之有效的分析方法。利用關聯分析在分子水平闡明植物表型性狀的遺傳變異規律和機制,從而為植物的農藝性狀改良及新品種選育提供新思路。系統詳實綜述了關聯分析基本原理、關聯作圖的基本策略、關聯分析的應用以及各種分子標記在關聯分析中的應用,并討論了關聯分析在未來研究中的發展前景。
關鍵詞:關聯分析;植物;表型性狀;遺傳變異;農藝性狀改良;新品種選育;連鎖不平衡;研究發展趨勢;應用前景
《煙臺果樹》(季刊)創刊于1980年,由煙臺市農科院果樹科學研究所主辦。《煙臺果樹》發行量大(年發行16萬冊),覆蓋面廣,讀者遍及全國各地,是交流果樹信息的理想媒體。
關聯分析(association analysis)也稱連鎖不平衡作圖(LD mapping)或者關聯作圖(association mapping),該方法通常以自然群體為研究對象,以連鎖不平衡(linkage disequilibrium,LD)為基礎,將目的性狀表型的多樣性以及遺傳標記或候選基因的多態性聯結起來分析,鑒定某一群體內目的性狀與遺傳標記或候選基因之間的關系[1]。從而在分子水平解釋植物表型性狀的遺傳變異規律和機制,為植物表型性狀的標記輔助選擇以及目的基因的分離、檢測、利用提供依據,進而為植物性狀遺傳改良研究提供理論基礎,為植物雜交育種和性狀改良尋求新途徑[2]。
到目前為止,關聯分析已經在部分植物性狀研究中取得進展,如玉米的開花期[3]、小麥的籽粒大小和研磨品質[4]、水稻的柱頭[5]、葡萄的果穗長度[6]等,關聯分析已經成為當前植物遺傳育種研究的熱點。
本文經過系統全面的介紹關聯分析基本原理以及分析策略,詳細論述關聯分析在目前植物遺傳學研究中的應用進展以及各類分子標記技術在關聯分析中的應用,探討關聯分析在今后的研究發展趨勢和在植物遺傳研究中的應用前景。
1 關聯分析基本原理
1.1 連鎖不平衡
關聯分析是以連鎖不平衡(linkage disequilibrium,LD)為基礎,也可稱為配子相不平衡(gametic phase disequilibrium)、配子不平衡(gametic disequilibrium)、等位基因關聯(allelic association)等,是指群體內不同座位等位基因(可以是標記,也可以是基因/QTL間與標記)間的非隨機關聯[7]。也就是說假設2個不同位點的等位基因一同出現的頻率比理論上同時出現頻率高時,那么稱這2個位點處于連鎖不平衡狀態[8]。LD的基本定義式為Dij=fij-PAi·PBj,其中fij是AiBj基因型的頻率,PAi和PBj分別是等位基因Ai和Bj的頻率。由于Dij可以假定的最大值是所觀察到的等位基因頻率的函數,因此對于雙等位基因和多等位基因,LD的強度有多種標準化度量,其中2種最常見的LD強度測量方法是:(1)單個LD值的標準化度量,Dij′=Dij/Dmax;(2)雙等位基因數據的相關系數r,常用定義為r2=Dij2/(PA1·PA2·PB1·PB2)[9]。同一染色體或者不同染色體的基因座之間均可出現連鎖不平衡狀態,群體內存在的LD均是由突變造成的等位基因出現后座位間所有重組響應累積的結果,位點間連鎖越緊密,其LD程度越高[10]。
1.2 影響連鎖不平衡的因素
遺傳因素和非遺傳因素綜合作用影響群體的LD水平[11]。一般情況下,在隨機匹配群體里沒有突變、遷移或選擇因素的影響時,多態性位點則處于連鎖平衡狀態;與此相反,連鎖、群體混合和選擇將增加LD水平[12]。影響LD程度最重要的2個要素是突變和重組,突變是造成LD的一個重要因素,新突變的發生可沖破原有LD,進而導致新的多態性產生;然而重組則是經過重新組合序列變異,進而減弱染色體內部的LD。無連鎖和自由交配的重組使位點間等位基因處于連鎖平衡狀態,因此LD的水平與重組率成反比[10]。群體中的LD是突變、重組和其他因素影響共同累積的結果[13]。
此外,其他非生物要素和生物要素也影響LD程度,例如物種之間的交配體系、染色體位置、群體大小以及自然與人工選擇[10]。基因轉換或染色體片段所受的選擇強度、遺傳漂變[14-15]等也是影響LD水平的因素。
1.3 連鎖不平衡與關聯分析
在自然群體中,表型差異的根本原因主要是個體等位基因間的差異。連鎖分析則是采用標記位點與引起表型差異位點之間的重組來定位數量性狀基因座(quantitativetraitlocus,QTL),而關聯分析利用引起表型差異的位點與標記之間的LD來定位QTL[10]。因此,進行關聯分析的前提和基礎是了解群體基因組LD的構造和規律。往往因為群體的基因組中存在數目巨大的多態性,因此多態位點的等位基因間存在廣泛的非隨機關聯,亦稱為LD狀態。多個基因座等位基因間的連鎖不平衡結構會產生一系列的單倍型,單倍型的大小則受LD衰減程度的影響。不同物種的連鎖不平衡衰減距離不同,同一物種不同群體、同一群體不同座位的LD衰減距離也不同[16]。染色體上不同位置的連鎖不平衡程度也不相同,研究發現位于著絲粒附近片段的重組率比較低,LD水平則較高;然而染色體臂上的片段區域重組率相對較高,相應LD水平則較低[17]。連鎖不平衡的衰減程度越高,則形成的單倍型越小。
1.4 關聯分析與傳統連鎖分析的差異
關聯分析與傳統連鎖分析相比具有以下優勢:(1)關聯分析不必構建專門作圖群體,而是運用自然群體的遺傳多樣性,將復雜的性狀變異進行分解。利用關聯分析構建的群體不須要管制研究對象的交配方式,而傳統的連鎖分析以父母本雜交產生的子代群體為研究對象。相比而言,關聯分析可應用的種質材料更加廣泛。(2)關聯分析所研究的材料有較為寬泛的遺傳基礎,因此可同時對同一基因座的多個等位基因進行檢測分析,相比絕大部分傳統連鎖分析,其所研究群體通常為2個親本雜交重組的后代,所以基因座一般只觸及2個等位基因。關于具備更小效應的基因,關聯分析的發掘能力顯著高于傳統連鎖分析[13]。(3)關聯分析定位更精準,能夠抵達單基因程度,由于關聯分析應用在長期進化進程中自然群體所積累的重組信息,因而可到達更高的分辨率,從而達到對QTL的精準定位,甚至可直接定位到基因本身[10]。而傳統連鎖分析往往受到重組發生率的影響,進而導致分辨率較低,一般認為初級群體只能將QTL定位到10~20 cM的基因組區間內,而次級群體可達到單基因水平[18-19]。(4)運用的統計分析方法不同,傳統的連鎖作圖措施包含了單標記分析、區間作圖、復合區間作圖以及貝葉斯區間作圖[13]。與此相比,適用于關聯分析作圖的統計方法較為匱乏。
2 關聯分析的基本策略
2.1 基于全基因組掃描的關聯分析
全基因組關聯分析(genome-wide association study,GWAS)是采用自然變異群體,聯合高密度分子標記圖譜進行掃描,進而分析表型性狀與分子標記之間關聯關系的有效方法,現已發展成為發掘復雜農藝性狀遺傳變異的有效手段[20]。在以全基因組掃描為基礎的的關聯分析中,須要用散布于全基因組的高通量分子標記對某物種大群體的全部基因進行同時檢測[8]。GWAS以群體中LD水平為基礎,借助成百上千的個體組成的定位群體,采用一定數量的SNP標記構建的高密度遺傳圖譜,從而與表型數據進行關聯分析。近年來,基于GWAS技術已在多種植物表型研究中取得一定的進展。代力強等以80份玉米核心自交系為關聯作圖群體,通過全基因組測序,篩選出16個與玉米粒長緊密關聯的顯著性SNP標記和3個候選基因[21]。劉靜利用高密度的小麥90K單核苷酸多態性(SNP)芯片對西南麥區192份小麥品種進行株高性狀的全基因組關聯分析,發現57個與株高顯著相關的SNP位點[22]。Feng等利用全基因組測序的472份油菜種質,在染色體A03、A05、A07和C07上鑒定出8個QTL與株高顯著相關,在染色體A01、A03、A07和C07上的5個QTL被鑒定為與主枝數顯著相關[23]。目前,基于全基因組關聯分析已在各類植物物種深入研究,但在園藝植物中應用報道較為匱乏。
GWAS一般采用5步進行:(1)關聯群體的選擇。應選擇遺傳變異豐富、表型差異較大、遺傳基礎較寬泛且應盡量包含某物種全部的遺傳變異。(2)樣本基因分型。基于常用的分子標記主要包括RFLP、AFLP、SSR及SNP等,隨著全基因測序技術的不斷發展,SNP標記方法得到廣泛運用。除了使用基因芯片進行基因分型以外,還可直接重新測序獲得研究樣本個體的基因型,進而更加全面地挖掘樣本基因組變異[20]。(3)群體構造與個體親緣關系分析。GWAS通常以自然變異群體為研究對象,存在一定的遺傳結構,其個體間也存在一定的親緣關系,因而有可能導致染色體間的LD水平提高,使得目標性狀與不相關的標記產生偽關聯。因此,檢測分析并矯正種質材料的群體結構有一定的必要。(4)目標性狀的鑒定。目標性狀評價的準確性對于關聯分析的結果有重要影響,應反復對種質材料進行多重表型分析鑒定。(5)關聯統計分析模型的選擇。隨著生物統計學的不斷發展,關聯統計分析模型不斷得到完善,主要包含一般線性模型(GLM)和混合線性模型(MLM),通常可利用TASSEL軟件或ANOVA計算方法進行關聯分析[24]。
隨著第3代測序技術即單分子測序技術的發展,植物中主要物種全基因組測序逐步完成,物種的基因組信息越來越豐富,進而開發出大量的SNP標記。全基因組關聯分析將成為今后植物數量性狀研究的有利工具[25]。
2.2 基于候選基因的關聯分析
基于候選基因關聯分析主要針對于目標QTL區段內候選基因進行生物信息學分析,推定其生物學功能是否與數量性狀表型位于同一調控網絡,或是輔以生理生化分析,從而快速確定QTL區間內的候選基因,最終只針對篩選后的少數候選基因開展關聯分析[26]。早在2001年,Thornsberry等初次將關聯分析方法引入植物領域研究[27]。根據前人研究發現,dwarf8基因是一個與赤霉素的代謝相關且顯著影響玉米株高的基因[28],而后Thornsberry等選用92份玉米自交系種質對dwarf8基因的多態性進行驗證,研究表明dwarf8基因不僅影響玉米的株高,而且首次發現其中幾個多態性位點與玉米開花期的變異性狀顯著相關[27]。此項研究發現意味著基于連鎖不平衡的關聯分析可能是進行基因功能驗證以及基因發掘的一種行之有效的辦法,為植物表型性狀研究提供了新思路[16]。近年來,基于候選基因的關聯分析已經成功應用于部分植物研究。Yu等以295份水稻材料在苗期進行水稻耐鹽相關表型的全基因組關聯研究,獲得了93個候選基因,其中有6個與耐鹽表型具有高關聯[29]。Perez等以315份不同高粱材料,利用候選基因關聯作圖的方法,檢測油菜素內酯生物合成和信號傳導基因與植物結構性狀之前的標記-性狀關聯,共檢測出26個油菜素內酯基因的73個SNPs與目標表型顯著相關[30]。于永濤利用94份玉米自交系驗證了rab17基因與玉米籽粒產量相關聯[31]。Andersen等利用SNP分子標記驗證了PAL基因與玉米飼用品質間相互關聯[32]。劉翠霞以150份葡萄雜交后代為試驗材料,聯合RNA-seq技術初步篩選了32個候選基因參與單萜代謝[33]。國內外研究結果均表明,基于候選基因關聯分析是一個進行鑒定候選基因功能的強有力的工具。