一种检测基因融合的方法及装置技术领域
本发明涉及生物信息学领域,具体而言,涉及一种检测基因融合的方法及装置。
背景技术
基因突变是指基因组DNA分子发生的突然的、可遗传的变异现象(gene
mutation)。从分子水平上看,基因突变是指基因在结构上发生碱基对组成或排列顺序的改
变。基因虽然十分稳定,能在细胞分裂时精确地复制自己,但这种稳定性是相对的。在一定
的条件下基因也可以从原来的存在形式突然改变成另一种新的存在形式,就是在一个位点
上,突然出现了一个新基因,代替了原有基因,这个基因叫做突变基因。于是后代的表现中
也就突然地出现祖先从未有的新性状。
基因突变是生物进化的重要因素之一,所以研究基因突变除了本身的理论意义以
外还有广泛的生物学意义。基因突变为遗传学研究提供突变型,为育种工作提供素材,所以
它还有科学研究和生产上的实际意义。
有的基因突变是由于染色体发生结构变异形成。在自然条件或人为因素的影响
下,染色体发生的结构变异主要有:缺失、重复、倒位和易位,其中,基因融合也是染色体发
生结构变异的一种。所谓融合基因,是指将两个或多个基因的编码区首尾相连,置于同一套
调控序列(包括启动子、增强子、核糖体结合序列、终止子等)控制之下,构成的嵌合基因。
目前,在二代测序中,常用的基因融合检测方法是基于全基因组的DNA水平上的高
通量测序,同时使用融合基因两端信号,加上统计学检验,判断融合的发生。但是全基因组
测序不可能有高的测序深度,而目标区域捕获的方法一般只设计并捕获常见融合基因的一
端,而另一端不设计探针导致没有信号,这两个问题都会导致融合检测的灵敏度非常低。
发明内容
本发明旨在提供一种检测基因融合的方法及装置,以从DNA水平通过高通量测序
技术寻找融合序列,解决基于目标区域捕获的二代测序对于融合检测灵敏度低的技术问
题。
为了实现上述目的,根据本发明的一个方面,提供了一种检测基因融合的方法。该
方法包括以下步骤:S1,提取待检测样本的DNA,然后打断、连接接头;S2,使用根据目标基因
订制的安捷伦探针利用目标区域捕获的方法捕获目标基因的待检融合中的驱动基因进而
得到目标DNA片段;S3,通过高通量测序的方法对目标DNA片段进行测序,得到融合形式的序
列;S4,过滤掉低质量的序列后,检测融合形式的序列;S4具体包括:S41,利用比对软件将S3
得到的融合形式的序列与相应的融合形式的参考序列相比对,未比对上的序列形成软截断
序列,并根据比对的位置进行排序,然后建立比对结果的索引文件;S42,将融合形式的序列
的比对结果提取出来,去掉PCR产生的重复序列,找到含有软截断序列的序列,把同一点的
多条序列支持的软截断序列进行组装,得到一致性序列,根据一致性序列过滤掉低质量的
序列,将剩下的符合要求的序列继续比对;其中,要求包括1)含有非相同软截断序列至少4
条,且可以匹配一致性序列;2)含有的不可以匹配一致性序列的软截断序列的个数少于可
以匹配一致性序列的软截断序列的个数;和3)一致性序列大于30nt;S43,检测已知融合形
式:分析S42的比对结果,如果比对到参考序列上的区域在COSMIC数据库中有与第一个断点
发生融合的记录,那么无论比对序列是否有同源序列,都放在结果中,并标记;以及检测新
的融合形式:分析S42的比对结果,如果比对上的区域在COSMIC数据库中没有与第一个断点
发生融合的记录,那么看比对序列是否有同源序列,去除同源性低的比对序列,将剩下结果
输出。
进一步地,S41中的比对软件采用的是BWA-mem比对软件,建立比对结果索引文件
采用的软件是samtools软件。
进一步地,S42中的使用picard软件去掉PCR产生的重复序列。
进一步地,S42中的多条序列为4条序列。
进一步地,S43中,同源性低的比对序列是指使用BWA-mem默认参数比对结果中比
对质量小于10的序列。
根据本发明的另一个方面,提供一种检测基因融合的装置。该装置包括:DNA处理
模块,用于提取待检测样本的DNA,然后打断、连接接头;基因捕获模块,用于使用根据目标
基因订制的安捷伦探针利用目标区域捕获的方法捕获目标基因的待检融合中的驱动基因
进而得到目标DNA片段;测序模块,用于通过高通量测序的方法对目标DNA片段进行测序,得
到融合形式的序列;检测模块,用于过滤掉低质量的序列后,检测融合形式的序列;检测模
块具体包括:序列比对子模块,用于利用比对软件将检测模块得到的融合形式的序列与相
应的融合形式的参考序列相比对,未比对上的序列形成软截断序列,并根据比对的位置进
行排序,然后建立比对结果的索引文件;序列筛选子模块,用于将融合形式的序列的比对结
果提取出来,去掉PCR产生的重复序列,找到含有软截断序列的序列,把同一点的多条序列
支持的软截断序列进行组装,得到一致性序列,根据一致性序列过滤掉低质量的序列,将剩
下的符合要求的序列继续比对;其中,要求包括1)含有非相同软截断序列至少4条,且可以
匹配一致性序列;2)含有的不可以匹配一致性序列的软截断序列的个数少于可以匹配一致
性序列的软截断序列的个数;和3)一致性序列大于30nt(碱基长度);检测已知融合形式子
模块:用于分析序列筛选子模块的比对结果,如果比对到参考序列上的区域在COSMIC数据
库中有与第一个断点发生融合的记录,那么无论比对序列是否有同源序列,都放在结果中,
并标记;以及检测新的融合形式子模块:用于分析序列筛选子模块的比对结果,如果比对上
的区域在COSMIC数据库中没有与第一个断点发生融合的记录,那么看比对序列是否有同源
序列,去除同源性低的比对序列,将剩下结果输出。
进一步地,序列筛选子模块中的比对软件采用的是BWA-mem比对软件,建立比对结
果索引文件采用的软件是samtools软件。
进一步地,序列筛选子模块中的使用picard软件去掉PCR产生的重复序列。
进一步地,序列筛选子模块中的多条序列为4条序列。
进一步地,检测新的融合形式子模块中,同源性低的比对序列是指使用BWA-mem默
认参数比对结果中比对质量小于10的序列。
应用本发明的技术方案,结合目标区域捕获技术、高通量测序技术及融合序列信
息分析,提供了一套高灵敏度的从DNA中检测融合的流程。其中,通过目标区域捕获技术的
捕获常发生融合的基因,仅对常发生融合的基因进行测序,极大的降低了测序成本;另外,
利用目标区域捕获下融合驱使基因的单端融合信号加上数据库可以对目标区域捕获的基
因数据的融合检出有非常高的灵敏度。
附图说明
构成本申请的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示
意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1示出了根据本发明一实施例的检测基因融合的方法的流程示意图;以及
图2示出了根据本发明一实施例的组装软截断序列的步骤与判断可信度的示意
图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相
互组合。下面将参考附图并结合实施例来详细说明本发明。
目前,在二代测序中,常用的基因融合检测方法是基于全基因组的DNA水平上的高
通量测序,同时使用融合基因两端信号,加上统计学检验,判断融合的发生。但是全基因组
测序不可能有高的测序深度,而目标区域捕获的方法一般只设计并捕获常见融合基因的一
端,而另一端不设计探针导致没有信号,这两个问题都会导致融合检测的灵敏度非常低。针
对现有技术中的上述不足,本发明提供了以下技术方案。
根据本发明一种典型的实施方式,提供一种检测基因融合的方法。该方法包括以
下步骤:S1,提取待检测样本的DNA,然后打断、连接接头;S2,使用根据目标基因订制的安捷
伦探针利用目标区域捕获的方法捕获目标基因的待检融合中的驱动基因进而得到目标DNA
片段;S3,通过高通量测序的方法对目标DNA片段进行测序,得到融合形式的序列;S4,过滤
掉低质量的序列后,检测融合形式的序列;S4具体包括:S41,利用比对软件将S3得到的融合
形式的序列与相应的融合形式的参考序列相比对,未比对上的序列形成软截断序列,并根
据比对的位置进行排序,然后建立比对结果的索引文件;S42,将融合形式的序列的比对结
果提取出来,去掉PCR产生的重复序列,找到含有软截断序列的序列,把同一点的多条序列
支持的软截断序列进行组装,得到一致性序列,根据一致性序列过滤掉低质量的序列,将剩
下的符合要求的序列继续比对;其中,要求包括1)含有非相同软截断序列至少4条,且可以
匹配一致性序列;2)含有的不可以匹配一致性序列的软截断序列的个数少于可以匹配一致
性序列的软截断序列的个数;和3)一致性序列大于30碱基长度;S43,检测已知融合形式:分
析S42的比对结果,如果比对到参考序列上的区域在COSMIC数据库中有与第一个断点发生
融合的记录,那么无论比对序列是否有同源序列,都放在结果中,并标记;以及检测新的融
合形式:分析S42的比对结果,如果比对上的区域在COSMIC数据库中没有与第一个断点发生
融合的记录,那么看比对序列是否有同源序列,去除同源性低的比对序列,将剩下结果输
出。其中,S4中指出的低质量的序列即不符合上述3条要求的序列。
应用本发明的技术方案,结合目标区域捕获技术、高通量测序技术及融合序列信
息分析,提供了一套高灵敏度的从DNA中检测融合的流程。其中,通过目标区域捕获技术的
捕获常发生融合的基因,仅对常发生融合的基因进行测序,极大的降低了测序成本;另外,
利用目标区域捕获下融合驱动基因的单端融合信号加上数据库可以对目标区域捕获的基
因数据的融合检出有非常高的灵敏度。
本发明中的比对,可采用的软件如bwa-aln,bowtie2,clcgenomicsworkbench,
根据本发明一种典型的实施方式,S41中的比对软件采用的是BWA-mem比对软件,建立比对
结果索引文件采用的软件是samtools软件。
根据本发明一种典型的实施方式,S42中的使用picard软件去掉PCR产生的重复序
列,多条序列为4条序列,S43中,所述同源性低的比对序列是指使用BWA-mem默认参数比对
结果中比对质量小于10的序列。
根据本发明一种典型的实施方式,提供一种检测基因融合的装置。该装置包括:
DNA处理模块,用于提取待检测样本的DNA,然后打断、连接接头;基因捕获模块,用于使用根
据目标基因订制的安捷伦探针利用目标区域捕获的方法捕获目标基因的待检融合中的驱
动基因进而得到目标DNA片段;测序模块,用于通过高通量测序的方法对目标DNA片段进行
测序,得到融合形式的序列;检测模块,用于过滤掉低质量的序列后,检测融合形式的序列;
检测模块具体包括:序列比对子模块,用于利用比对软件将检测模块得到的融合形式的序
列与相应的融合形式的参考序列相比对,未比对上的序列形成软截断序列,并根据比对的
位置进行排序,然后建立比对结果的索引文件;序列筛选子模块,用于将融合形式的序列的
比对结果提取出来,去掉PCR产生的重复序列,找到含有软截断序列的序列,把同一点的多
条序列支持的软截断序列进行组装,得到一致性序列,根据一致性序列过滤掉低质量的序
列,将剩下的符合要求的序列继续比对;其中,要求包括1)含有非相同软截断序列至少4条,
且可以匹配一致性序列;2)含有的不可以匹配一致性序列的软截断序列的个数少于可以匹
配一致性序列的软截断序列的个数;和3)一致性序列大于30nt;检测已知融合形式子模块:
用于分析序列筛选子模块的比对结果,如果比对到参考序列上的区域在COSMIC数据库中有
与第一个断点发生融合的记录,那么无论比对序列是否有同源序列,都放在结果中,并标
记;以及检测新的融合形式子模块:用于分析序列筛选子模块的比对结果,如果比对上的区
域在COSMIC数据库中没有与第一个断点发生融合的记录,那么看比对序列是否有同源序
列,去除同源性低的比对序列,将剩下结果输出。
优选的,序列筛选子模块中的比对软件采用的是BWA-mem比对软件,建立比对结果
索引文件采用的软件是samtools软件。
优选的,序列筛选子模块中的使用picard软件去掉PCR产生的重复序列。
优选的,序列筛选子模块中的多条序列为4条序列。
优选的,检测新的融合形式子模块中,同源性低的比对序列是指使用BWA-mem默认
参数比对结果中比对质量小于10的序列。下面将结合实施例进一步说明本发明的有益效
果。
参考图1,下述实施例主要步骤如下:
S1,提取待检测样本的DNA,然后打断、连接接头;
S2,使用根据目标基因订制的安捷伦探针利用目标区域捕获的方法捕获目标基因
的待检融合中的驱动基因进而得到目标DNA片段;
S3,通过高通量测序的方法对目标DNA片段进行测序,得到融合形式的序列;
S4,过滤掉低质量的序列后,检测融合形式的序列;
S4具体包括:
S41,利用BWA-mem比对软件将将所述S3得到的所述融合形式的序列与相应的融合
形式的参考序列相比对,未比对上的序列形成软截断,然后根据比对的位置进行排序,并用
samtools软件建立索引文件(比对文件);
S42,将所述融合形式的序列的比对结果提取出来,去掉PCR产生的重复序列,找到
含有所述软截断序列的序列,把同一点的多条序列支持的所述软截断序列进行组装,得到
一致性序列,根据所述一致性序列过滤掉低质量的序列,将剩下的符合要求的序列继续比
对;其中,所述要求包括1)含有非相同软截断序列至少4条,且可以匹配所述一致性序列;2)
含有的不可以匹配所述一致性序列的软截断序列的个数少于可以匹配所述一致性序列的
软截断序列的个数;和3)所述一致性序列大于30nt;
S43,检测已知融合形式:分析所有S42中的比对结果,如果比对到参考序列上的区
域在COSMIC数据库中有与第一个断点发生融合的记录,那么无论比对质量(比对序列是否
有同源序列)如何,都放在结果中,并标记;以及
检测新的融合形式:分析所有S42中的比对结果,如果比对上的区域在数据库中没
有与第一个断点发生融合的记录,那么看比对质量(比对序列是否有同源序列),去除低比
对质量的,即使用BWA-mem默认参数比对结果中比对质量小于10的去掉,将剩下结果输出。
该软件可检测两种类型的融合突变:一种是在COSMIC数据库中给出的,已知常见
融合,这种融合可以找到两个融合断点可能出现区域。另外一种在数据库中没有的未知新
融合形式,这种融合其断点没有固定区域,但是可以通过是否唯一比对上参考基因组来判
断融合的可信度。
图2示出了根据本发明一实施例的组装软截断序列的步骤与判断可信度的示意
图。图2上中,基因A是融合中的驱动基因,基因B是伴侣基因(partnergene)。比对上A基因
的5条读段都在这个位点开始有软截断序列,前4条软截断序列都可以与第3条的一部分完
全匹配,第3条作为一致性序列,即要求1中非相同软截断序列至少4条,且可以匹配一致性
序列。第5条软截断序列不能匹配一致性序列,即要求2中不可以匹配一致性序列的软截断
序列的个数少于可以匹配的软截断序列个数。另外根据要求3一致性序列也就是第3条软截
断序列的长度必须大于30nt。图2下中,是第二次bwa-mem比对的结果,基因B和基因C是2个
待选伴侣基因,第一条一致性序列是只能唯一比对上基因B上,那么输出结果。第二条一致
性序列可以比对上基因B和基因C,如果其中有与驱动基因融合在COSMIC数据库里的记录,
那么就标记并输出。
实施例1
待检测的样本是Lc-2/adRET融合细胞系。本下述实施例中,建库使用kapa试剂,
捕获试剂为安捷伦sure-select,实施例中若有没有详细描述的步骤,则均可采用本领域常
规的手段实现。
1)提取样本DNA,利用荧光定量计(Qubit)进行定量,其浓度为3.8ng/ul,体积为
130ul;利用超声破碎仪(Covaris)对样品进行片段化,使DNA片段大小在200~400bp之间,
然后利用琼脂糖凝胶电泳检测片段大小是否符合要求。
2)先将片段化的样品进行磁珠纯化,然后进行末端修复和3’端腺苷化,体系配置
见表1,基本步骤如下:先在20℃温浴30min,然后在65℃温浴30min结束反应。
表1
末端修复和3’端腺苷化缓冲液
7μl
末端修复和3’端腺苷化酶混合液
3μl
DNA
50ul(500ng)
3)将上述修复后的DNA进行接头连接,接头连接体见表2。接头连接为在20℃温浴
15min。
表2
接头序列是SEQIDNO:1GATCGGAAGAGCACACGTCTGAACTCCAGTCACTTAGGCATCTCGTAT
GCCGTCTTCTGCTTG,和SEQIDNO:2AGATCGGAAGAGCGTCGTGTAGGGAAAGAGTGTAGATCTCGGTGGTCG
CCGTATCATT。
4)将上述接头连接后的产物进行磁珠纯化,然后进行PCR扩增,得到足量的带接头
的DNA片段,基本步骤如下:先在98℃预变性45s,其次在98℃变性15s,然后在60℃退火30s,
72℃延伸30s;重复变性退火延伸过程7次;最后在72℃延伸1min,结束反应。扩增体系见表
3。
表3
试剂
体积
快速热启动聚合酶
25μL
扩增引物
1uL
连上接头的DNA片段
24μL
5)对PCR扩增产物进行磁珠纯化后,利用Qubit定量得到浓度后,取出500ng扩增产
物,使用浓缩仪将扩增产物体积浓缩到4.4ul,然后进行封闭和探针杂交,杂交反应体系如
下表4所示。
表4
试剂
体积
封闭试剂混合液
5.6μl
P5、P7封闭试剂
2ul
快速封闭试剂
5ul
6 -->
RNA酶封闭试剂
2ul
针对目标区域的生物素探针
2ul
杂交缓冲液
6ul
无核酸酶的水
3ul
PCR扩增产物
4.4ul
捕获探针使用安捷伦订制探针捕获目标基因,探针覆盖RET基因所有外显子和内
含子7、9、10、11区域。
杂交反应条件如下表5所示。
表5
6)使用链霉亲合素磁珠对探针结合的样品进行捕获,步骤如下:将50ul磁珠加入
1.5ml离心管,置于磁力架上,弃上清,用200ul连接缓冲液清洗三遍后,使用200ul连接缓冲
液重悬磁珠,将与探针杂交的样品加入磁珠,混匀仪上颠倒混匀30min,置于磁力架上,弃上
清,用清洗液1清洗1遍,然后用预热到65℃的清洗液2清洗3遍,期间保证磁珠和缓冲液2的
温度在65℃。最后置于磁力架上,弃上清,加入38ul无核酸酶的水,重悬磁珠。
7)将磁珠捕获到的DNA片段进行PCR扩增,扩增体系见下表6,得到足量的加上接头
的DNA片段,基本步骤如下:先在98℃预变性2min,其次在98℃变性30s,然后在60℃退火
30s,72℃延伸1min;重复变性退火延伸过程14次;最后在72℃延伸5min,结束反应。
表6
试剂
体积
高保真DNA聚合酶
1ul
扩增引物
1ul
高保真DNA聚合酶反应混和液
10ul
单核苷酸混合液
0.5ul
磁珠上的目标区域DNA
37.5ul
8)将得到的PCR扩增产物进行磁珠纯化,然后利用qPCR定量,利用
angilent2100bioanalyzer2100进行片段大小检测。
9)测序,在NextSeq500基因测序仪上完成测序,测序平台将得到的光信号转化为
碱基序列下机数据为fq文件存储所有测序片段结果。
10)将下机数据fq文件比对上参考基因组,去除低质量序列,平均测序深度为
1175.77。
检测融合形式的序列,具体步骤详见下:首先将所有有软截断的序列提取出来,然
后如图2操作。图2上中,基因A是融合中的驱动基因,基因B是伴侣基因(partnergene)。比
对上A基因的5条reads都在这个位点开始有软截断序列,前4条软截断序列都可以与第3条
的一部分完全匹配,第3条作为一致性序列,即要求1中非相同软截断序列至少4条,且可以
匹配一致性序列。第5条软截断序列不能匹配一致性序列,即要求2中不可以匹配一致性序
列的软截断序列的个数少于可以匹配的软截断序列个数。另外根据要求3一致性序列也就
是第3条软截断序列的长度必须大于30nt。图2下中,是第二次bwa-mem比对的结果,基因B和
基因C是2个待选伴侣基因,第一条一致性序列是只能唯一比对上基因B上,那么输出结果。
第二条一致性序列可以比对上基因B和基因C,如果其中有与驱动基因融合在COSMIC数据库
里的记录,那么就标记并输出。
Lc-2/adRET融合细胞系检查结果见表7。
表7
样本编号
RET端总覆盖度
融合检查结果
Lc-2/ad
1222
RET:exom11_CCDC6:intron_e1e2=347
从以上的描述中,可以看出,本发明上述的实施例实现了如下技术效果:
首先本实施例例中使用目标区域捕获的方式,相比于全基因组测序在节省测序数
据量,从正常30X全基因组测序的9G到实施例中的4G即测序成本降低的同时增加测序深度
以达到可以检测更低含量突变目的。另外如果使用在全基因组中检测融合的软件如CREST,
结果是只有RET上有少数较长软截断序列比对上CCDC6,而由于未捕获的原因,CCDC6上没有
软截断序列,导致最后不能正常检出这个融合。而使用上述融合检测步骤和参数可以准确
检出这个融合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技
术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修
改、等同替换、改进等,均应包含在本发明的保护范围之内。