技术领域
本发明涉及生物技术领域,尤其涉及一种基于高通量测序的精确鉴定基因型的方法及其应用。
背景技术
基因编辑技术自诞生以来就在工业生产、医学检测以及临床治疗上起到了巨大的作用。随着分子生物学技术的发展,从ZFN到Talen再到CRISPR-Cas9,基因编辑也变得越来越简便易行。如今,无论是药物筛选,转基因农产品的研发,或是基因治疗,无一例外需要使用基因编辑技术。
然而,基因编辑后基因型的检测并非一件容易的事。由于绝大多数生物或细胞组织都是二倍体甚至是三倍体,而基因编辑技术具有一定的随机性,每一条染色单体的编辑情况不一定相同,所以想要精确地检测其每一条染色单体的确切基因序列并非一件容易的事。如果采用传统的TA克隆检测方法,不仅需要繁杂的操作步骤以及大量的测序量,其最终结果也并不精确;一个样本只能鉴定最多几十条序列,没有统计学意义;当样本量大时,其价格高;由于测序量终究有限,甚至还有可能不准确,并且结果显示不友好,需要人工分析。
因此,在需要精准以及快速检测的生物医疗领域,本领域技术人员致力于开发一种精确、可信度高并且快速简便的突变体基因型鉴定方法及其应用。
发明内容
有鉴于现有技术不能有效并精确地检测出突变体细胞或组织中每一条染色单体的基因型,本发明所要解决的技术问题是提供一种基于高通量测序的精确鉴定突变体基因型的方法及其应用。
本发明的一个方面,提供了一种基于高通量测序的精确鉴定突变体基因型的方法,在一个优选地实施方式中,精确鉴定基因型的方法是基于高通量测序的。
该方法包括以下步骤:
1)对扩增获得的基因片段进行高通量测序,获得核苷酸序列集合;
2)对该核苷酸序列集合进行处理,排除干扰序列,获得有效核苷酸序列集合;对所述有效核苷酸序列集合进行重复序列分析;
3)对该有效核苷酸序列集合进行统计分析,获得不同基因型的核苷酸序列、不同基因型的核苷酸序列在有效核苷酸序列集合中的占比。
进一步地,步骤3)中,统计分析还包括,按照不同基因型的核苷酸序列在上述有效核苷酸序列集合中的占比从多到少,对上述不同基因型的核苷酸序列进行排序。
进一步地,步骤3)中,统计分析还包括统计上述不同基因型的核苷酸序列的类型总数。
进一步地,步骤2)中,处理还包括初步排除干扰序列,包括分选出所述核苷酸序列集合中的带有扩增引物的序列,筛选含有有效信息的序列。
优选地,筛选含有有效信息的序列包括以下步骤:确定含有有效信息的最小所需碱基数;根据该最小所需碱基数分析分选出的带有扩增引物的序列,从而初步排除干扰序列。
优选地,按以下步骤确定最小所需碱基数:对分选出的带有扩增引物的序列,从每条序列的扩增引物中的高通量测序接头之后的第一位开始顺序分析,直到所有特异性序列中的X位均为有效信息,该X位为最小所需碱基数。
进一步地,步骤2)中,重复序列分析为:逐一对有效核苷酸序列集合中的序列进行分析,对于与已计数的序列不一致的序列,从1开始计数;对于与已计数的序列之一相同的序列,在对应序列中进行计数自增。
进一步地,步骤2)中,在重复序列分析的同时,对有效核苷酸序列的数量进行计数自增。
可选地,步骤1)中,上述高通量测序为二代测序。
进一步地,步骤1)中,对基因片段进行扩增时,采用的扩增引物包括高通量测接头部分和扩增序列部分。
进一步地,步骤1)中,根据扩增序列部分将含有扩增引物的序列分选出来。
优选地,扩增引物还包括索引部分,用于在不同的样本中进行同一个基因位点的鉴定时区分不同的样本。
本发明的另一方面提供了上述精确鉴定基因型的方法在筛选目的突变体中的应用。
进一步地,该目的突变体为通过人工的方法或天然的方法获得的突变体。
进一步地,人工的方法为物理方式、化学方式或基因编辑技术。
进一步地,该突变体为突变体细胞。
本发明提供的基于高通量测序的精确鉴定基因型的方法,能够有效并精确地检测出细胞或组织中每一条染色单体的基因型,使用并能自动去除由于测序所带入的非特异序列,并且归纳出每一种突变序列所占有的百分比。本发明除了可以鉴定通过基因编辑而产生的突变体外,还可以鉴定人工或天然的点突变以及任何想要鉴定的DNA序列。与现有鉴定方法相比,鉴定结果准确、操作较为简单,耗时较短,一个样本可以测得数十万条序列,具有统计学意义,样本量大时比TA克隆便宜,结果显示十分友好,直接得出分析结果,具有非常实用的商业价值。
以下将结合附图对本发明的构思、具体步骤及产生的技术效果作进一步说明,以充分地了解本发明的目的、特征和效果。
附图说明
图1是本发明的一个实施例的PCR引物示意图。
图2是本发明的一个实施例的预处理流程示意图。
图3是本发明的一个实施例的正式处理流程示意图。
具体实施方式
以下实施例中未注明具体条件的实验方法,通常按照常规条件,例如Sambrook等分子克隆:实验室手册(New York:Cold Spring Harbor Laboratory Press,1989)中所述的条件,或按照制造厂商所建议的条件进行。
本发明的一方面提供了一种精确鉴定基因型的方法,该方法基于高通量测序,因此,可以快速准确的获得结果。
在一个具体实施方式中,该方法包括:
1)对扩增获得的基因片段进行高通量测序,获得核苷酸序列集合;
其中,基因片段从突变体的基因组中扩增获得;通过高通量测序的方式获得核苷酸序列集合。高通量测序的方法可以是现有技术中任意一种,比如二代测序方法,具体可以是Roche公司的454技术、Illumina公司的Solexa技术、Hiseq技术或ABI公司的Solid技术;
2)对该核苷酸序列集合进行处理,排除干扰序列,获得有效核苷酸序列集合;对有效核苷酸序列集合进行重复序列分析;
即对测序获得的核苷酸序列集合进行分析,去除掉含有无效信息(如测序结果不好或者非特异性扩增)的干扰序列。对剩下的有效核苷酸序列集合,逐一进行序列比对分析,对于与已计数的序列不一致的序列,从1开始计数;对于与已计数的序列之一相同的序列,在对应序列中进行计数自增。由此,可以获得序列一致的序列及其数量,有多个不同的序列时,就产生多条序列以及该多条序列分别的数量。同时,对所有有效核苷酸序列集合中的序列进行计数,获得有效序列的总数。
3)对该有效核苷酸序列集合进行统计分析,获得不同基因型的核苷酸序列、不同基因型的核苷酸序列在有效核苷酸序列集合中的占比;按照占比从多到少的顺序输出序列、占比值、该序列总数;同时输出不同基因型的核苷酸序列的类型数目;
即通过步骤2)中的计数统计结果,计算不同基因型的核苷酸序列在有效核苷酸序列集合中的占比,然后进行排序和输出。
在另一个具体实施方式中,该方法包括:
1)对扩增获得的基因片段进行高通量测序,获得核苷酸序列集合;具体如上所述;
2)对该核苷酸序列集合初步排除干扰序列,包括:
通过对扩增引物进行分析,筛选含有有效信息的序列,即筛选出带有扩增引物的序列。对高通量测序获得的核苷酸序列集合进行分选,分选出包括扩增引物,优选地包括索引部分和扩增序列部分的序列;若扩增引物不包括索引部分,则分选出包括扩增引物部分的序列;
筛选含有有效信息的序列,即确定含有有效信息的最小所需碱基数;根据最小所需碱基数分析分选出的带有扩增引物的序列,从而初步排除干扰序列。
在一个优选的实施例中,按以下步骤确定所述最小所需碱基数:对分选出的带有扩增引物的序列,从每条序列的扩增引物中的高通量测序接头之后的第一位开始顺序分析,直到所有特异性序列中的X位均为有效信息,该X位为最小所需碱基数。
3)再次排除干扰序列获得有效核苷酸序列集合,并进行重复序列分析;重复序列分析的方法及获得的结果如上所述;
4)对该有效核苷酸序列集合进行统计分析,获得不同基因型的核苷酸序列、不同基因型的核苷酸序列在有效核苷酸序列集合中的占比;按照占比从多到少的顺序输出序列、占比值、该序列总数;同时输出不同基因型的核苷酸序列的类型数目。
上述两种具体实施方式,结合高通量测序和数据显示结果的友好性,方便了实际操作,应用前景大。
本发明的另一个方面提供了一种快速筛选获得目的突变的方法。在一个具体实施方式中,首先,通过人工的方法或天然的方法获得突变体,比如通过物理方法(紫外线照射、X射线照射等)、化学方法(使用诱变剂)或基因编辑技术获得突变体组;然后,抽提基因组DNA,并进行扩增,使用上述精确鉴定基因型的方法对获得的突变体进行分析;最后,根据分析结果选出含有目标突变的突变体。这样获得的细胞突变体,能清楚的知道每一条染色单体的基因型,因此,结果更精确;同时,由于与高通量测序相结合,极大地缩短了对突变体组中的突变体的鉴定时间。
实施例
本实施例选用一个采用CRISPR-Cas9技术进行基因编辑的HepG2细胞(购自ATCC;货号:HB-8065)的单克隆细胞进行实验,该单克隆细胞的基因编辑位点为UGT1A基因(NCBI Gene ID:7361)中的一个DNA片段(chr2:234526291-234678310(GRCh37/hg19)),我们选取了一对在DNA编辑位点以外的,方向相反同时朝内的特异性PCR引物作为扩增引物的扩增序列部分。
1、引物设计
首先,设计一对PCR引物,该PCR引物包括:1)第二代测序所用的接头部分;2)用于分选每一个样本所用的索引部分;3)扩增待检测序列的扩增序列部分。该PCR引物的示意图如图1所示。
1)第二代测序所用的接头部分序列如下:
正向:
AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCT(SEQ ID No.1)
反向:
CAAGCAGAAGACGGCATACGAGATGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT(SEQ ID No.2)
2)索引部分
索引序列为可选择包括的部分,当需要在不同的样本中进行同一个基因位点的鉴定时,为了区分不同的样本,需要采用索引序列。索引序列可以为2bp或更长的小片段序列,位于接头序列以及扩增序列之间,在分选数据时,即便扩增序列相同,也可以根据不同的索引序列来进行区分。
在本实施例中,扩增引物具有索引部分。但是,本领域技术人员可知,根据上述描述,索引部分并不是必须的,可以根据实际情况选择是否需要设计索引部分。
3)扩增待检测序列的扩增序列部分
该部分需要自行设计,其位置在待检测基因序列的外围两侧,依据以下引物设计原则寻找特异性引物:
(1)用重复序列去除(repeat masker)软件去掉候选序列中的冗余序列;
(2)引物长度22bp左右;
(3)GC含量接近于50%;
(4)引物3’端最好选择鸟嘌呤或胞嘧啶,减少错配引发率;
(5)引物内或引物之间不能有连续4个碱基的互补;
(6)应避免鸟嘌呤三个及三个以上重复。
然后进行引物特异性的模拟(in silico)验证:(1)通过使用NCBI网站中Blast-primer工具在所有物种中查找验证引物的特异性;(2)在UCSC网站中使用in-Silico PCR工具验证PCR产物的特异性。
本实施例设计的引物序列如下:
正向引物(SEQ ID No.3):
AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCTGTtgggatgcagtgattatttcc
反向引物(SEQ ID No.4):
CAAGCAGAAGACGGCATACGAGATGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTccttctgaatcattgcatcg
其中,正向引物中的下划线部分为索引部分,两条序列中的粗体部分为接头部分,斜体部分为扩增序列部分。
2、基因组DNA的获取及目的片段的扩增
样品来源于上述经过CRISPR-Cas9技术所进行基因编辑的HepG2单克隆细胞,大约一个6孔板中一个孔的细胞量(约4×106个细胞)。基因组DNA的提取使用Promega的基因组DNA提取试剂盒。
PCR扩增反应体系为20微升,包含10uM正反向引物各0.6微升,DNA模板2微升,2×PCR Mix 10微升,MiliQ水6.8微升。PCR循环参数是预变性94度,3分钟;变性94度,15秒,退火60度,30秒;延伸72度,1分钟,循环数40;终末延伸72度,7分钟。
3、结果验证
得到PCR产物后,将样本进行第二代测序,对测序结果进行处理分析。
本实施例中的处理分析方法包括数据的预处理和正式处理两部分。其中,预处理的流程示意图如图2所示,正式处理的流程示意图如图3所示。
首先对测序获得原始序列集合进行预处理。预处理包括:
(P100)分选:根据索引部分和扩增引物部分对原始序列集合进行预处理,选出包括索引部分和扩增引物部分的序列;
本领域技术人员可知,在另一个实施例中,如果需要对不同的样本中进行同一个基因位点的分析,可以根据设计的不同的索引部分对序列进行分类。
(P200)确定含有有效信息的序列位数X:在P100步骤中获得序列中,从第1位开始扫描每条序列的中核苷酸,直到每条序列中的核苷酸均为有效信息的位数X,从而确定含有有效信息的序列位数X;
(P300)根据位数X扫描测序结果,排除干扰序列。
预处理结束后,获得有效核苷酸序列集合。
然后,对获得的有效核苷酸序列集合进行正式处理。正式处理包括:
(S100)再次排除干扰序列:
(S200)重复序列分析:逐一对有效核苷酸序列集合中的序列进行分析与计数,包括
1)对于与已计数的序列不一致的序列,从1开始计数;即对于与之前不一样的序列,重新组成子集合,并从1开始累加获得该子集合中的序列数量;
2)对于与已计数的序列之一相同的序列,在对应序列中进行计数自增;即对于之前出现过的序列,归入相应的子集合中,并在相应的子集合中累加计数;
3)对所有序列进行累加计数,获得有效核苷酸序列结合中的序列总数;
(S300)数据统计分析:完成有效核苷酸序列集合中的所有序列的重复序列分析之后,对获得的数据进行统计分析,包括
1)对所有计数的序列根据计数次数进行排序,按从多到少排序;
2)计算不同基因型序列的占比;(S400)结果输出:输出序列总数、每种基因型的序列(根据从多到少排列)、每种基因型序列的数量和占比。
利用上述方法进行处理后,输出的结果如下所示:
TCCGCTAGAACTGCTATATAATGACGATGAATTTTGGGGGGACTTTTTTTGAGATCTGAGTTCTCTGAGGGGGCAAGCAGAAGGGCTAGAGAGGAGGAATGAGCTTGGACAGGTGGGCTGGGGTCTATCC 35.73822272%304361
TCCGCTAGAACTGCTATATAATGACGATGAATTTTGAGGGGGCAAGCAGAAGGGCTAGAGAGGAGGAATGAGCTTAGACAGGTGGGCTGGGGTCTATCCCAGAGTTTTGAGAGCAAGGCAGAGGACTCTG 21.61077451%184046
TCCGCTAGAACTGCTATATAATGACGATGAATTTTGGGGGGACTTTTTTTGAGATCTGAGTTCTCTTCACCTCCTCCTTATTCTCTTTTTGACACTGGATTCTTTGCTTTGATAAATTGTGGGGGAATGA 11.56603729%98501
DNA序列的类型总和(Sum for the type of dna sequence):3
由上述结果可知,样本中一共有三种DNA序列类型,占比最多的一种基因型占到约35.7%。作为一个每一条染色单体分别被编辑的三倍体细胞,该样本使用普通的sanger测序结果为三峰,不可判断其基因型,使用本发明可以精确地得知其基因编辑情况。
在筛选目的突变体的时候,对于所得的所有单克隆细胞池中的细胞进行上述基因型鉴定,即可根据需求筛选出所需的基因型克隆,获得目的突变体。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。
序列表
<110> 上海交通大学
<120> 一种基于高通量测序的精确鉴定基因型的方法及其应用
<160> 4
<170> SIPOSequenceListing 1.0
<210> 1
<211> 58
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 1
aatgatacgg cgaccaccga gatctacact ctttccctac acgacgctct tccgatct 58
<210> 2
<211> 58
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 2
caagcagaag acggcatacg agatgtgact ggagttcaga cgtgtgctct tccgatct 58
<210> 3
<211> 81
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 3
aatgatacgg cgaccaccga gatctacact ctttccctac acgacgctct tccgatctgt 60
tgggatgcag tgattatttc c 81
<210> 4
<211> 78
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 4
caagcagaag acggcatacg agatgtgact ggagttcaga cgtgtgctct tccgatctcc 60
ttctgaatca ttgcatcg 78