技术领域
本发明涉及生物技术领域,具体的,涉及一种基于测序基因分型 技术的获取鸡全基因组高密度SNP标记位点的方法。
背景技术
作为禽类的模式生物,鸡在2004年成为第一个完成全基因测序 的农业经济动物,由于不同的鸡品种具有巨大的生物多样性,其作 为优质的遗传学模型,被越来越多地应用到数量遗传学及分子育种、 功能基因定位、基因的调控及发育等领域。分子标记是研究生物遗 传变异的重要工具,单核苷酸多态性(Singlenucleotide polymorphisms,SNP)作为第三代分子标记,具有数量多、分布广、 遗传稳定等特点,被广泛应用于连锁分析、全基因组关联分析和基 因组选择等遗传育种领域。因此了解鸡基因组中的SNP信息,是鸡 的遗传育种过程中非常关键的一环。
目前主流的鸡全基因组SNP分型技术主要有基因分型芯片和二 代测序两种方法。基因分型芯片的特点是技术稳定,结果重复率高, 但芯片技术分型一个实验样本的成本很高,对于群体遗传学研究领 域,群体分型的成本代价太大,并且芯片技术由于技术所限,还存 在着SNP多态位点在不同群体中通用性差,标记密度低(目前鸡主 流的SNP芯片密度为60kSNP芯片),不能满足精细功能基因定位 和全基因组关联分析等问题。下一代测序技术的发展使得基因组学 和转录组学的研究能够更加深入,测序能获得全基因组水平的高密 度标记图谱,但同时也存在着单位样本成本过高的缺点。
简化基因组测序技术(reduced-representationsequencing)使得 群体分析研究所需的覆盖全基因组的高通量分子标记的鉴定与分型 成为可能。但不同的简化基因组测序方法在建库策略、单酶切/双酶 切的组合选择、测序平台的选择等方面均有较大差别,这些都会显 著影响后续分型的效率和成本。举例来说,RAD测序的方法的建库 策略复杂,过多的步骤会干扰后续实验结果;不同的限制性内切酶 在不同的物种基因组上酶切频率和分布均有较大不同,对于特定物 种,选用哪种酶进行实验就成为决定实验获取SNP数量和成本的决 定因素;2b-RAD技术使用ⅡB型限制性内切酶,但这种酶切的片段 大小只有25-35bp,2b-RAD技术虽然可以得到全基因组水平的酶切 片段,但根据全基因组变异的频率,过短的酶切片段很难富含SNP 位点,造成大量数据损失,同时由于酶切片段过短,还会带来许多 在基因组重复区域比对的错误,使得SNP分型可靠性大幅下降,严 重干扰下游应用。
因此有必要开发一种新的鸡基因组SNP标记位点的分析方法, 提供适合鸡基因组SNP标记位点分析的酶切组合,以降低基因分型 的成本,为基因分型后的下游应用提供便利。
发明内容
针对现有技术的不足,本发明的目的在于提供一种基于测序基因 分型技术获取鸡全基因组高密度SNP标记位点的方法。
测序基因分型(GenotypingBySequencing,GBS)技术是由康奈 尔大学的Elshire等人开发的,其建库方法最为简单,DNA经过酶切后, 连接上特定接头,通过控制PCR过程中延伸的时间,来选择酶切产物 中100-500bp的部分,从而实现简化基因组测序的目的;然而这一方 法的缺陷在于,小片段酶切产物不仅在建库过程中扩增效率更高,在 测序仪的模板扩增中也较快生长,容易造成测序数据可利用部分较 少、数据质量较差的问题。
本发明提供了一种基于测序基因分型技术的获取鸡全基因组高 密度SNP标记位点的方法,包括以下步骤:
(1)预测用EcoRI与MseI的双酶切鸡基因组所获得的酶切片段 分布情况;
(2)根据EcoRI与MseI的酶切片段分布特点设计通用接头、条形 码接头及PCR扩增引物;
(3)构建简化基因组测序文库;
(4)利用步骤(3)构建的文库进行上机测序;
(5)根据测序结果获得SNP标记位点。
可选的,步骤(2)中所述的通用接头带有与限制性内切酶MseI 相同的粘性末端序列,所述的条形码接头带有与限制性内切酶EcoRI 相同的粘性末端序列。
可选的,所述通用接头是由SEQIDNO:1和SEQIDNO:2 所示序列退火形成的双链DNA,其中SEQIDNO:1经过5’磷酸化 修饰。
可选的,所述条形码接头是由SEQIDNO:3和SEQIDNO:4 所示序列退火形成的双链DNA;其中SEQIDNO:4经过5’磷酸化 修饰,SEQIDNO:3和SEQIDNO:4中的n和m表示长度为6-9bp 的任意短核苷酸条形码序列。
可选的,步骤(2)所述的PCR扩增引物如SEQIDNO:5和 SEQIDNO:6所示。
可选的,步骤(3)中包括以下步骤:
(a)利用限制性内切酶组合EcoRI-MseI对鸡基因组进行酶切;
(b)制备通用接头和条形码接头;
(c)分别将通用接头和条形码接头与酶切产物进行连接反应, 获得连接产物;
(d)将连接产物等比例进行混池,获得混池后的连接产物;
(e)在混池后的连接产物中加入1.2-1.4倍体积的磁珠进行第 一纯化获得第一纯化产物;
(f)在所述第一纯化产物中加入0.8-0.9倍体积的磁珠进行第二 纯化获得第二纯化产物;
(g)对第二纯化产物进行PCR扩增获得PCR产物;
(h)在PCR产物中加入1.2-1.4倍体积的磁珠进行第三纯化获 得第三纯化产物;
(i)在第三纯化产物中加入0.8-0.9倍体积的磁珠进行第四纯化 获得简化基因组测序文库。
可选的,所述第一纯化和第三纯化的步骤相同,具体包括:加入 磁珠后,在旋转仪上室温孵育18-22min获得孵育后体系;孵育结束 后放置在磁力架上弃去上清,加入480-520μL的70%乙醇,静置 30-40s后缓慢旋转,使磁珠在管壁上移动,待溶液澄清后,去除上 清液,再重复此步骤一次获得沉淀;再在所获得的沉淀中加入Low TE,用移液器上下吸打后,振荡10s,离心后静置澄清获得上清液; 其中,相对于100μL所述沉淀,LowTE的添加量为140-160μL。
可选的,第二纯化和第四纯化的步骤相同,具体包括:加入磁珠 后,在旋转仪上室温孵育13-16min;孵育结束后放置在磁力架上弃 去上清,加入480-520μL的70%乙醇,静置30-40s后缓慢旋转,使 磁珠在管壁上移动,待溶液澄清后,去除上清液,重复此步骤一次 获得沉淀;再在所获得的沉淀中加入LowTE,用移液器上下吸打后, 振荡10s,离心后静置澄清获得上清液;其中,相对于100μL所述 沉淀,LowTE的添加量为30-50μL。
可选的,步骤(c)中所述的通用接头的退火体系为:100μMSEQ IDNO:15μL;100μMSEQIDNO:25μL,5×AnnealingBuffer 10μL,无核酸酶水30μL;退火程序为:加热至95℃,并以1℃/min 的速度降温至25℃,25℃保温30min后于4℃保存。
条形码接头的退火体系为:100μMSEQIDNO:35μL;100μM SEQIDNO:45μL,5×AnnealingBuffer10μL,无核酸酶水30μL; 反应程序为:95℃3min,以1℃/min的速度降温,直至降到25℃, 25℃保温30min后于4℃保存。
接头混合的体系AdaptersMix:通用接头0.8μL,条形码接头 15μL,无核酸酶水84.2μL,总体系100μL。
可选的,步骤(c)中所述的连接反应的体系为:酶切产物20μL, 5×DNALigaseReactionBuffer8μL,DNA连接酶2μL,无核酸酶水 5μL,接头混合物5μL;混匀后置于PCR上,反应程序为:22℃保 温1h,65℃保温30min,降温至4℃保存。
本发明开发了一种基于EcoRI–MseI双酶切测序进行基因分 型的方法,为不同品种的鸡利用双酶切GBS构建全基因组高密度 SNP图谱提供了一种通用的策略,使得获取每个SNP标记位点的成 本比传统芯片技术降低一个数量级,该方法技术稳定,重复性高。
附图说明
图1为本发明提供的测序文库Agilent2100检测结果。
图2为本发明提供的测序质量报告。
具体实施方式
下面将结合实施例对本发明的优选实施方式进行详细说明。需要 理解的是以下实施例的给出仅是为了起到说明的目的,并不是用于对 本发明的范围进行限制。本领域的技术人员在不背离本发明的宗旨和 精神的情况下,可以对本发明进行各种修改和替换。
以下实施例中使用的测序试剂盒为NextSeq500HighOutputKit (75cycles)。
以下实施例中使用的测序数据比对基因组的软件为bowtie2(版 本号bowtie2-2.2.3)(基于Linux操作系统),SNP鉴定软件为Tassel (版本号tassel-4.3.13)。
实施例1
实施例1用于说明本发明所述的方法
1、实验材料:
采集红色原鸡,商业蛋鸡品种白来航鸡,商业肉鸡品种艾拔益 加肉鸡、岭南黄鸡,中国地方鸡种惠阳胡须鸡、文昌鸡、河南斗鸡、 清远麻鸡、黑狼山鸡、茶花鸡、北京油鸡、藏鸡、丝羽乌骨鸡、寿 光鸡、竹丝鸡、石岐杂鸡、仙居鸡、隐形白鸡、矮脚黄鸡各4-6个 个体血液样本,共计96个个体,提取基因组,并将基因组浓度稀释 至50ng/μL备用。
2、接头和引物序列:
合成一对通用接头序列,96对条形码接头序列,一对PCR引物 序列。
3、测序文库构建:
将96只鸡样本提取基因组后进行基因组酶切。反应体系为 20μL,包括15μLNuclease-freewater,2μL10×CutSmartBuffer,0.5μL 酶1,0.5μL酶2(0.5μLEcoRI,0.5μLMseI),200ng样本DNA, 混匀,离心,置于PCR仪,反应条件为:37℃90min,65℃30min, 4℃保存。
4、接头退火与混合:
通用接头反应体系为:共50μL,包括30μL无核酸酶水,10μL 5×Annealingbuffer,SEQIDNO:1(100μM)5μL,SEQIDNO:2 (100μM)5μL,混匀离心,反应条件为95℃3min,下降1℃/min, 直至降到25℃,25℃30min,4℃保存。
条形码接头反应体系为:共50μL,包括30μL无核酸酶水,10 μL5×Annealingbuffer,SEQIDNO:3(100μM)5μL,SEQIDNO: 4(100μM)5μL,混匀离心,反应条件为95℃3min,下降1℃/min, 直至降到25℃,25℃30min,4℃保存。
接头混合的体系AdaptersMix:通用接头0.8μL,条形码接头 15μL,无核酸酶水84.2μL,总体系100μL。
5、接头连接:
反应体系为40μL,包括20μL酶切产物,5μLNuclease-freewater, 8μL5×DNALigaseReactionBuffer,2μLExpressLinkT4DNALigase, 5μLAdaptersMix,充分混匀,离心,反应条件为22℃保温1h,65℃ 30min,4℃保存。
6、混池:
将96个样本的连接产物中各5μL混合到一起,取出240μL用 于下步纯化。
7、磁珠纯化连接产物:
在240μL连接产物中加入312μLAMPureXPBeads,将离心管 置于旋转仪上,15-25℃孵育20min,然后放置于磁力架上3min,弃 上清;加入500μL70%乙醇,将离心管置于磁力架上,30s后慢慢 旋转管子,旋转两圈,使磁珠在管壁上移动,待溶液澄清后,去除 上清液,然后将此步再重复一次;取下离心管,短暂离心,将离心 管放置于磁力架上,用小枪头去除残留乙醇,晾干3min;加入150μL LowTE,用枪头上下吸打几次,震荡10s,短暂离心置于磁力架上, 3min,待溶液澄清后,将上清液转移到新的离心管中;向150μLLow TE洗脱液中加入120μLAMPureXPBeads,将离心管置于旋转仪 上,15-25℃孵育15min,然后放置于磁力架上3min,弃上清;加入 500μL70%乙醇,将离心管置于磁力架上,30s后慢慢旋转管子,旋 转两圈,使磁珠在管壁上移动,待溶液澄清后,去除上清液,然后 将此步再重复一次;取下离心管,短暂离心,将离心管放置于磁力 架上,用小枪头去除残留乙醇,晾干3min;加入50μLLowTE,用 枪头上下吸打几次,震荡10s,短暂离心,置于磁力架上,3min,待 溶液澄清后,将上清液转移到新的离心管中,再将离心管置于磁力 架上2min,将上清转移至新的离心管,得到纯化后的连接产物。
浓度测定及PCR扩增。Qubit2.0测定纯化后的连接产物浓度, 用以确定PCR过程纯化后连接产物的量。扩增体系为60μL,包括 50μLPlatinumPCRSuperMixHighFidelity,10ng纯化后的连接产 物,1.2μL10μMPrimerA,1.2μL10μMPrimerB,补无核酸酶水至 60μL,反应条件为95℃5min,17×(95℃30s,62℃30s,68℃ 30s),72℃5min,4℃保存。
重复步骤5)纯化,最后用30μLLowTE洗脱。Qubit2.0测定 文库浓度,Agilent2100检测文库片段大小分布。检测报告见附图1。 8、测序平台的选择:
利用Illumina二代测序平台的NextSeq500测序系统,使用单端 75bp测序试剂盒。由于NextSeq500测序仪单次可以产生400M的测 序reads,因此该试验平台和方法可最大化降低测序成本,相对于 Hiseq测序系统速度也更快。测序质量报告见附图2。
9、SNP标记的挖掘分析:
利用TASSEL软件对测序数据进行SNP的挖掘,基因组mapping 软件采用bowtie2进行。共检测出291,772个SNP标记,检出SNP 后对其进行位置分布的分析及功能注释,可知SNP在基因组上分布 均匀,结果详见表1,说明利用本发明所提供的分析方法可以获得数 据质量高的SNP标记位点分析结果。
表1SNP位点在不同染色体的分布及注释结果。
染色体 染色体长度 SNP数 SNP间距(bp) 1 195276750 58839 3318 2 148809762 45818 3247
3 110447801 34272 3222 4 90216835 38865 3125 5 59580361 19024 3131 6 34951654 11675 2993 7 36245040 11281 3212 8 28767244 8776 3277 9 23441680 7518 3118 10 19911089 6244 3188 11 19401079 5881 3298 12 19897011 5958 3339 13 17760035 5256 3379 14 15161805 4337 3495 15 12656803 3616 3500 16 535270 134 3994 17 10454150 2749 3802 18 11219875 3913 3851 19 9983394 2658 3755 20 14302601 3914 3654 21 6802778 1983 3430 22 4081097 825 4946 23 5723239 1568 3650 24 6323281 1533 4124 25 2191139 401 5464 26 5329985 1123 4746 27 5209285 1176 4429 28 4742627 1073 4419 Z 82363669 12313 6689 W 1248174 49 25472 合计 1003035513 291772 3437
对比例1传统芯片方法获取及鸡基因组SNP标记
对比例1为实施例1的对照例。对比例1中样本与实施例1相 同,所有样本都用Illumina公司鸡的60KSNP芯片进行基因分型。 芯片的杂交、扫描检测工作由加拿大DNALandmarks公司(DNA LandmarksInc.,Quebec,Canada)完成。经过质控,最后剩余47,965 个SNP可用于下一步数据分析。每个SNP获取的资金成本约为实施 例1中的10倍,实验时间成本约为实施例1中的5倍。
实施例2鸡基因组最适内切酶组合的选择
实施例2用于说明本发明所使用的酶切组合。
发明人考虑不同酶切位点识别特点(如识别碱基数、GC含量、 甲基化情况)等,共设计8组双酶切组合,通过3个岭南黄鸡与惠阳胡 须鸡个体进行不同酶切组合的测序实验,实验流程同实施例1,实验 结果如表2所示。可知,EcoRI–MseI酶切组合的SNP个数为134,291 个(SNP个数会随着实验个体数目的变化而变化),酶切片段数目为 414,294,与基因组的比对率最高,在一次Nextseq500测序实验中可进 行96个样本的分型实验,试验投入产出比达到最优。
表2不同酶切组合在鸡基因组中分型结果
酶切组合 SNP个数 酶切片段 比对率 Pst I–Mse I 402,083 1,247,742 97.26% Pst I–ApeK I 195,960 761,797 96.90% EcoR I–Mse I 134,291 414,294 98.37% Bgl II–ApeK I 133,770 436,503 97.82% Pst I–Mse I 117,571 498,114 94.28% HinP1 I-Mse I 94,724 491,451 95.03% HinP1 I-ApeK I 71,751 389,479 91.77% EcoR I–Mse I 26,112 96,527 96.25%
虽然,上文中已经用一般性说明及具体实施方案对本发明作了 详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这 对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神 的基础上所做的这些修改或改进,均属于本发明要求保护的范围。