肿瘤突变负荷检测方法、装置和存储介质.pdf
《肿瘤突变负荷检测方法、装置和存储介质.pdf》由会员分享,可在线阅读,更多相关《肿瘤突变负荷检测方法、装置和存储介质.pdf(18页完成版)》请在专利查询网上搜索。
1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 201910254928.5 (22)申请日 2019.03.29 (71)申请人 深圳裕策生物科技有限公司 地址 518081 广东省深圳市盐田区深盐路 2002号大百汇高新技术工业园A栋913 (72)发明人 倪帅李淼陈龙昀张艳鹏 但旭陈超 (74)专利代理机构 深圳鼎合诚知识产权代理有 限公司 44281 代理人 孙银行彭家恩 (51)Int.Cl. G16B 20/20(2019.01) G16B 20/50(2019.01) G16B 30/00(2019.01) (5。
2、4)发明名称 肿瘤突变负荷检测方法、 装置和存储介质 (57)摘要 一种肿瘤突变负荷检测方法、 装置和存储介 质, 该方法包括: 获取单个测试样本的突变频率 数据, 包括该样本目标区域的位点突变频率, 将 位点突变频率与设定的阈值进行比较得到大于 阈值的单核苷酸变异, 并去除单核苷酸变异中的 无义突变得到有效单核苷酸变异个数; 获取单个 测试样本的Indel突变频率数据, 包括该样本目 标区域的Indel突变频率, 将Indel突变频率与设 定的阈值进行比较得到大于阈值的Indel突变个 数; 根据肿瘤突变负荷的估值公式计算肿瘤突变 负荷的数值, 估值公式包括有效单核苷酸变异个 数的权重项和I。
3、ndel突变个数的权重项。 本发明 的方法, 在不依赖公共数据库和正常配对对照样 本的前提下, 准确地对肺癌样本的TMB指标进行 检测。 权利要求书3页 说明书9页 附图5页 CN 109949861 A 2019.06.28 CN 109949861 A 1.一种肿瘤突变负荷检测方法, 其特征在于, 所述方法包括如下步骤: 获取单个测试样本的突变频率数据, 所述突变频率数据包括该样本目标区域的位点突 变频率, 将所述位点突变频率与设定的位点突变频率阈值进行比较, 得到位点突变频率大 于所述位点突变频率阈值的单核苷酸变异, 并去除所述单核苷酸变异中的无义突变得到有 效单核苷酸变异个数; 获取单。
4、个测试样本的Indel突变频率数据, 所述Indel突变频率数据包括该样本目标区 域的Indel突变频率, 将所述Indel突变频率与设定的Indel突变频率阈值进行比较, 得到 Indel突变频率大于所述Indel突变频率阈值的Indel突变个数; 根据肿瘤突变负荷的估值公式计算肿瘤突变负荷的数值, 其中所述估值公式包括所述 有效单核苷酸变异个数的权重项和所述Indel突变个数的权重项。 2.根据权利要求1所述的方法, 其特征在于, 所述肿瘤突变负荷的估值公式如下: S/100+sgn(I) 其中, S指所述有效单核苷酸变异个数, I指Indel突变个数, sgn()为符号函数, 在I大于 。
5、或等于个数阈值的情况下, sgn(I)输出值为1, 否则输出值为0; 优选地, 所述个数阈值为2。 3.根据权利要求1所述的方法, 其特征在于, 所述测试样本的位点突变频率是根据所述 测试样本的测序深度进行校正得到的校正位点突变频率; 优选地, 所述校正位点突变频率通过如下公式得到: adj jT(min(1, Dj/Dlimit), , ); 其中, adj为在当前位点的校正位点突变频率, j为在当前位点实际观测的位点突变频 率, 是以 和 为形状参数的Beta分布的累计概率分布函数, Dj为所述测试样本在当前位点 的实际测序深度, Dlimit为设定的最低校正测序深度。 4.根据权利要求1。
6、所述的方法, 其特征在于, 所述位点突变频率阈值通过如下方法确 定: 获取一组训练样本的ACGT格式文件, 该ACGT格式文件包含目标区域中每个位点的位置 信息、 测序深度信息和突变到任意其它三种非参考碱基的突变频率; 统计所有训练样本中每种三碱基突变的平均突变频率, 并将其作为每种三碱基突变的 先验突变频率; 从所有训练样本中提取每一位点的突变频率最大值, 所述突变频率最大值满足的条件 是, 在同一个位点SNP的比例高于阈值p的次数在所有训练样本中至少出现设定次数n, 若没 有满足所述条件, 该突变位点的突变频率被置换为该位点在所有训练样本中的突变频率平 均值; 将所得到的所述突变频率最大值。
7、或突变频率平均值乘以设定的系数值后得到的数值 如果大于1, 则将突变频率设为1, 如果所述数值小于1, 则突变频率取所述数值, 然后将所述 突变频率与先验突变频率进行加权, 得到该突变位点的加权突变频率, 作为位点后验突变 频率; 求出所有训练样本在所述目标区域中各个位点的测序深度平均值; 将所述位点后验突变频率和所述测序深度平均值提供给TNER方法, 在给定的显著性水 平下得出所述位点突变频率阈值; 优选地, 所述阈值p是0.05, 所述设定次数n是10, 所述系数值是5, 所述给定的显著性水 权利要求书 1/3 页 2 CN 109949861 A 2 平是0.001。 5.根据权利要求4。
8、所述的方法, 其特征在于, 所述先验突变频率通过如下方法确定: 获取每个训练样本中的背景突变和SNP突变, 其中杂合子和纯合子SNP的突变频率分别 在0.5和1处聚集并呈高斯分布, 而背景突变的突变频率在0.001-0.1处聚集并呈伽马分布; 通过对所述背景突变和SNP突变的突变频率形成的混合分布进行拟合, 找出混合分布 的概率密度分布中背景突变与杂合子SNP突变之间概率密度分布的最低点所对应的突变频 率, 将该突变频率作为背景突变频率的阈值, 将突变频率小于该阈值的突变作为真实背景 突变; 在所述真实背景突变中对每个训练样本的相同的三碱基突变进行归类后求三碱基平 均背景突变频率, 然后将所有。
9、训练样本中相同的三碱基平均背景突变频率的平均值作为三 碱基突变的先验突变频率。 6.根据权利要求1所述的方法, 其特征在于, 所述方法在得到位点突变频率大于所述位 点突变频率阈值的单核苷酸变异之后, 去除变异频率在5以下、 4555之间和95 100之间的单核苷酸变异, 再去除所述单核苷酸变异中的无义突变得到有效单核苷酸变 异个数。 7.根据权利要求1所述的方法, 其特征在于, 所述Indel突变频率阈值通过如下方法确 定: 获取一组训练样本的Indel格式文件, 该Indel格式文件包含选定的目标Indel组中每 个Indel的信息, 将每个Indel以染色体+位置+突变前碱基+突变类型+突。
10、变后碱基进行编 码, 在编码过程中只选取突变后碱基编码的第一位组成每个Indel的突变编码; 在所有训练样本中找出所有至少出现两次且突变频率都大于频率预设值的Indel编码 及其对应的突变频率, 每个Indel编码对应的突变频率为所有训练样本中该编码对应的突 变频率最大值, 将该突变频率最大值的设定倍数作为Indel检测中的所述Indel突变频率阈 值, 并将所述编码及其对应的所述Indel突变频率阈值以哈希表的形式保存; 优选地, 所述频率预设值为1, 所述设定倍数为2倍。 8.根据权利要求7所述的方法, 其特征在于, 所述方法在将所述Indel突变频率与设定 的Indel突变频率阈值进行比。
11、较时, 将没有出现在所述哈希表中的Indel排除。 9.根据权利要求1所述的方法, 其特征在于, 所述方法在将所述Indel突变频率与设定 的Indel突变频率阈值进行比较时, 去除突变频率在4060之间和90100之间的 Indel。 10.一种肿瘤突变负荷检测装置, 其特征在于, 所述装置包括如下单元: 单核苷酸变异统计单元, 用于获取单个测试样本的突变频率数据, 所述突变频率数据 包括该样本目标区域的位点突变频率, 将所述位点突变频率与设定的位点突变频率阈值进 行比较, 得到位点突变频率大于所述位点突变频率阈值的单核苷酸变异, 并去除所述单核 苷酸变异中的无义突变得到有效单核苷酸变异个数。
12、; Indel变异统计单元, 用于获取单个测试样本的Indel突变频率数据, 所述Indel突变频 率数据包括该样本目标区域的Indel突变频率, 将所述Indel突变频率与设定的Indel突变 频率阈值进行比较, 得到Indel突变频率大于所述Indel突变频率阈值的Indel突变个数; 肿瘤突变负荷计算单元, 用于根据肿瘤突变负荷的估值公式计算肿瘤突变负荷的数 权利要求书 2/3 页 3 CN 109949861 A 3 值, 其中所述估值公式包括所述有效单核苷酸变异个数的权重项和所述Indel突变个数的 权重项。 11.一种计算机可读存储介质, 其特征在于, 包括程序, 所述程序能够被处。
13、理器执行以 实现如权利要求1-9中任一项所述的方法。 权利要求书 3/3 页 4 CN 109949861 A 4 肿瘤突变负荷检测方法、 装置和存储介质 技术领域 0001 本发明涉及肿瘤检测技术领域, 具体涉及一种肿瘤突变负荷检测方法、 装置和存 储介质。 背景技术 0002 细胞程序性死亡蛋白1(Programmed Cell Death protein 1,PD-1)是一种通常表 达于细胞表面的蛋白, 通过降低免疫细胞对细胞的炎症反应而调控免疫系统, 防止自身免 疫的发生。 PD-1的配体PD-L1可以特异性地中和PD-1, 从而重新启动免疫系统对细胞的杀伤 作用。 这种现象又被叫做免。
14、疫检查点抑制。 通过免疫检查点抑制机制(如CTLA-4和PD-L1)开 发的药物在近几年的癌症治疗中被发现有着令人鼓舞的治疗效果。 0003 细胞的癌变通常是由体细胞中的基因突变长期积累的结果, 但不是所有的体细胞 突变都会导致细胞癌变。 目前主流观点认为, 只有在驱动基因上的特异突变才赋予细胞癌 变的特性, 这种突变叫做驱动突变(driver mutation)。 而驱动突变又会引发其他的基因突 变, 这导致癌细胞中的基因突变数量往往高于正常的体细胞。 肿瘤突变负荷(TMB)是反映肿 瘤细胞中总的基因突变程度的一个指标, 通常以每百万碱基(Mb)的肿瘤基因组区域中包含 的肿瘤体细胞突变总数来。
15、表示。 0004 多个大规模临床研究发现, 免疫检查点抑制剂的疗效很大程度上取决于患者癌细 胞中所携带的基因突变的数量。 在接受免疫检查点抑制剂治疗的患者中, TMB高与TMB低的 患者对免疫疗法的疗效差异十分明显。 因此, TMB的精确测量可以预测免疫检查点抑制剂的 疗效, 使癌症患者有机会获得更加精准的治疗。 0005 最初的TMB采用全外显子组测序方法, 对照患者的正常组织和癌组织, 找出癌细胞 特有的体细胞突变。 可是对癌组织和正常组织同时测序成本较高, 科学家开始探索只对癌 症单个样本测序来测量TMB的可行性。 2017年底, FDA批准的FoundationOne CDx基因检测试。
16、 剂盒就采用了单样本测量TMB的方法, 即只对癌症样本测序, 然后通过统计方法和人群数据 库信息在基因突变中确定胚系突变并过滤。 这在一定程度上降低了TMB检测的成本要求。 但 是这类方法有几个缺陷。 首先, 不同癌种间TMB的差异较大, 用同样的数据库过滤方法并不 能保证对所有癌种的胚系基因突变进行精确的去除; 其次, 这种方法高度依赖公共数据库 的质量和多样性, 对不在数据库中的人种的突变背景无法做出精确的描述。 发明内容 0006 本申请提供一种肿瘤突变负荷检测方法、 装置和存储介质, 在不依赖公共数据库 和配对正常样本的前提下, 准确地对肺癌样本的TMB指标进行检测。 0007 根据第。
17、一方面, 一种实施例中提供一种肿瘤突变负荷检测方法, 包括如下步骤: 0008 获取单个测试样本的突变频率数据, 该突变频率数据包括该样本目标区域的位点 突变频率, 将上述位点突变频率与设定的位点突变频率阈值进行比较, 得到位点突变频率 大于上述位点突变频率阈值的单核苷酸变异, 并去除上述单核苷酸变异中的无义突变得到 说明书 1/9 页 5 CN 109949861 A 5 有效单核苷酸变异个数; 0009 获取单个测试样本的Indel突变频率数据, 该Indel突变频率数据包括该样本目标 区域的Indel突变频率, 将上述Indel突变频率与设定的Indel突变频率阈值进行比较, 得到 In。
18、del突变频率大于上述Indel突变频率阈值的Indel突变个数; 0010 根据肿瘤突变负荷的估值公式计算肿瘤突变负荷的数值, 其中上述估值公式包括 上述有效单核苷酸变异个数的权重项和上述Indel突变个数的权重项。 0011 在优选实施例中, 上述肿瘤突变负荷的估值公式如下: 0012 S/100+sgn(I) 0013 其中, S指上述有效单核苷酸变异个数, I指Indel突变个数, sgn()为符号函数, 在I 大于或等于个数阈值的情况下, sgn(I)输出值为1, 否则输出值为0。 0014 在优选实施例中, 上述个数阈值为2。 0015 在优选实施例中, 上述测试样本的位点突变频率。
19、是根据上述测试样本的测序深度 进行校正得到的校正位点突变频率。 0016 在优选实施例中, 上述校正位点突变频率通过如下公式得到: 0017 adj j (min(1, Dj/Dlimit), , ); 0018 其中, adj为在当前位点的校正位点突变频率, j为在当前位点实际观测的位点突 变频率, 是以 和 为形状参数的Beta分布的累计概率分布函数, Dj为上述测试样本在当前 位点的实际测序深度, Dlimit为设定的最低校正测序深度。 0019 在优选实施例中, 上述位点突变频率阈值通过如下方法确定, 该方法即SNV变异训 练或SNV变异统计方法: 0020 获取一组训练样本的ACGT。
20、格式文件, 该ACGT格式文件包含选定的目标区域中每个 位点的位置信息、 测序深度信息和突变到任意其它三种非参考碱基的突变频率; 0021 统计所有训练样本中每种三碱基突变(mutational signature)的平均突变频率, 并将其作为每种三碱基突变的先验突变频率; 0022 从所有训练样本中提取每一位点的突变频率最大值, 上述突变频率最大值满足的 条件是, 在同一个位点SNP的比例高于阈值p的次数在所有训练样本中至少出现设定次数n, 若没有满足上述条件, 该突变位点的突变频率被置换为该位点所有训练样本的突变频率平 均值; 将所得到的突变频率最大值或突变频率平均值乘以设定的系数值后得到。
21、的数值如果 大于1, 则将突变频率设为1, 如果该数值小于1, 则突变频率取该数值, 然后将突变频率与先 验突变频率进行加权, 得到该突变位点的加权突变频率, 作为位点后验突变频率; 0023 求出所有训练样本在上述目标区域中各个位点的测序深度平均值; 0024 将上述位点后验突变频率和上述测序深度平均值提供给TNER方法, 在给定的显著 性水平下得出上述位点突变频率阈值。 0025 在优选实施例中, 上述阈值p是0.05, 上述设定次数n是10, 上述系数值是5, 上述给 定的显著性水平是0.001。 0026 在优选实施例中, 上述先验突变频率通过如下方法确定: 0027 获取每个训练样本。
22、中的背景突变和SNP突变, 其中杂合子和纯合子SNP的突变频率 分别在0.5和1处聚集并呈高斯分布, 而背景突变的突变频率在0.001-0.1处聚集并呈伽马 分布; 说明书 2/9 页 6 CN 109949861 A 6 0028 通过对上述背景突变和SNP突变的突变频率形成的混合分布进行拟合, 找出混合 分布的概率密度分布中背景突变与杂合子SNP突变之间概率密度分布的最低点所对应的突 变频率, 将该突变频率作为背景突变频率的阈值, 将突变频率小于该阈值的突变作为真实 背景突变; 0029 在上述真实背景突变中对每个训练样本的相同的三碱基突变进行归类后求三碱 基平均背景突变频率, 然后将所有。
23、训练样本中相同的三碱基平均背景突变频率的平均值作 为三碱基突变的先验突变频率。 0030 上述三碱基突变(mutational signature)是指6种基础单碱基突变形式(AT、 A G、 AC、 CA、 CT、 CG)与其上下文各一个碱基的组合, 共有96种。 0031 在优选实施例中, 上述方法在得到位点突变频率大于上述位点突变频率阈值的单 核苷酸变异之后, 去除变异频率在5以下、 4555之间和95100之间的单核苷 酸变异, 再去除上述单核苷酸变异中的无义突变得到有效单核苷酸变异个数。 0032 在优选实施例中, 上述Indel突变频率阈值通过如下方法确定, 该方法即Indel变 。
24、异训练或Indel变异统计方法: 0033 获取一组训练样本的Indel格式文件, 该Indel格式文件包含选定的目标Indel组 中每个Indel的信息, 将每个Indel以染色体+位置+突变前碱基+突变类型+突变后碱基进行 编码, 在编码过程中只选取突变后碱基编码的第一位组成每个Indel的突变编码; 0034 在所有训练样本中找出所有至少出现两次且突变频率都大于频率预设值的Indel 编码及其对应的突变频率, 每个Indel编码对应的突变频率为所有训练样本中该编码对应 的突变频率最大值, 将该突变频率最大值的设定倍数作为Indel检测中的上述Indel突变频 率阈值, 并将上述编码及其对。
25、应的上述Indel突变频率阈值以哈希表的形式保存。 0035 在优选实施例中, 上述频率预设值为1, 上述设定倍数为2倍。 0036 在优选实施例中, 上述方法在将上述Indel突变频率与设定的Indel突变频率阈值 进行比较时, 将没有出现在上述哈希表中的Indel排除。 0037 在优选实施例中, 上述方法在将上述Indel突变频率与设定的Indel突变频率阈值 进行比较时, 去除突变频率在4060之间和90100之间的Indel。 0038 根据第二方面, 一种实施例中提供一种肿瘤突变负荷检测装置, 包括如下单元: 0039 单核苷酸变异统计单元, 用于获取单个测试样本的突变频率数据, 。
26、上述突变频率 数据包括该样本目标区域的位点突变频率, 将上述位点突变频率与设定的位点突变频率阈 值进行比较, 得到位点突变频率大于上述位点突变频率阈值的单核苷酸变异, 并去除上述 单核苷酸变异中的无义突变得到有效单核苷酸变异个数; 0040 Indel变异统计单元, 用于获取单个测试样本的Indel突变频率数据, 上述Indel突 变频率数据包括该样本目标区域的Indel突变频率, 将上述Indel突变频率与设定的Indel 突变频率阈值进行比较, 得到Indel突变频率大于上述Indel突变频率阈值的Indel突变个 数; 0041 肿瘤突变负荷计算单元, 用于根据肿瘤突变负荷的估值公式计算。
27、肿瘤突变负荷的 数值, 其中上述估值公式包括上述有效单核苷酸变异个数的权重项和上述Indel突变个数 的权重项。 0042 根据第三方面, 一种实施例中提供一种计算机可读存储介质, 包括程序, 该程序能 说明书 3/9 页 7 CN 109949861 A 7 够被处理器执行以实现如第一方面的方法。 0043 本发明的肿瘤突变负荷检测方法, 针对单个样本进行检测, 结合了单核苷酸变异 检测和插入缺失检测两个功能。 本发明的方法通过学习同类正常样本(训练样本)的测序结 果中单核苷酸变异和插入缺失情况, 对多种癌症样本(特别是肺癌样本)中的相应突变, 根 据测序深度和突变频率进行检测, 从而达到计。
28、算肿瘤突变负荷的目的。 本发明的方法不需 要参考公共数据库中的突变信息, 也不需要提取成对的正常样本并进行测序。 与现有的双 样本肿瘤突变负荷检测技术相比, 本发明的方法降低了实验操作的人力消耗和对患者的取 样难度, 也降低了在计算新样本肿瘤突变负荷时的计算资源消耗。 与现有的单样本肿瘤突 变负荷检测流程相比, 本发明的方法减少了对公共数据库的依赖, 并且可以在检测突变的 同时根据同类样本的变异频率信息过滤掉样本中的变异假阳性。 附图说明 0044 图1为本发明实施例中一种肿瘤突变负荷检测方法流程图。 0045 图2为本发明实施例中Indel变异统计结果与真实全外显子组测序TMB数值间的关 系。
29、。 0046 图3为本发明实施例中一种肿瘤突变负荷检测装置结构框图。 0047 图4为本发明实施例中在肺癌样本中TMB数值的计算结果与全外显子组测序TMB数 值的线性关系, x轴为外显子组测序TMB, y轴为本方法计算的TMB数值, 原点大小表示样本测 序深度, 原点越大, 测序深度越高。 0048 图5为本发明实施例中双样本方法在相同肺癌样本中TMB数值的计算结果与全外 显子组测序TMB数值的线性关系, x轴为外显子组测序TMB, y轴为双样本方法在相同肺癌样 本中计算的TMB数值, 原点大小表示样本测序深度, 原点越大, 测序深度越高。 0049 图6为本发明实施例中在23例不同癌症样本中。
30、TMB数值的计算结果与全外显子组 测序TMB数值的线性关系, x轴为外显子组测序TMB, y轴为本方法计算的TMB数值, 原点大小 表示样本测序深度, 原点越大, 测序深度越高。 具体实施方式 0050 下面通过具体实施方式结合附图对本发明作进一步详细说明。 在以下的实施方式 中, 很多细节描述是为了使得本申请能被更好的理解。 然而, 本领域技术人员可以毫不费力 的认识到, 其中部分特征在不同情况下是可以省略的, 或者可以由其他材料、 方法所替代。 0051 另外, 说明书中所描述的特点、 操作或者特征可以以任意适当的方式结合形成各 种实施方式。 同时, 方法描述中的各步骤或者动作也可以按照本。
31、领域技术人员所能显而易 见的方式进行顺序调换或调整。 因此, 说明书和附图中的各种顺序只是为了清楚描述某一 个实施例, 并不意味着是必须的顺序, 除非另有说明其中某个顺序是必须遵循的。 0052 本发明中采用的术语具体含义如下: 0053 参考基因组: 物种参考的标准基因组序列。 0054 读长(Reads): 测序所得基因组序列片段。 0055 BAM: 一种用于存储比对信息的标准二进制文件格式。 0056 acgt: 一种记录每个位点单核苷酸变异信息的文件。 说明书 4/9 页 8 CN 109949861 A 8 0057 Indel: 一种记录每个位点插入和缺失类型变异信息的文件。 0。
32、058 如图1所示, 本发明的一种实施例中提供一种肿瘤突变负荷检测方法, 包括如下步 骤: 0059 S101: 获取单个测试样本的突变频率数据, 该突变频率数据包括该样本目标区域 的位点突变频率, 将上述位点突变频率与设定的位点突变频率阈值进行比较, 得到位点突 变频率大于上述位点突变频率阈值的单核苷酸变异, 并去除上述单核苷酸变异中的无义突 变得到有效单核苷酸变异个数; 0060 S102: 获取单个测试样本的Indel突变频率数据, 该Indel突变频率数据包括该样 本目标区域的Indel突变频率, 将上述Indel突变频率与设定的Indel突变频率阈值进行比 较, 得到Indel突变频。
33、率大于上述Indel突变频率阈值的Indel突变个数; 0061 S103: 根据肿瘤突变负荷的估值公式计算肿瘤突变负荷的数值, 其中上述估值公 式包括上述有效单核苷酸变异个数的权重项和上述Indel突变个数的权重项。 0062 本发明的单样本肿瘤突变负荷(TMB)检测方法, 结合了单核苷酸变异(SNV)检测和 插入缺失(Indel)检测两个功能。 通过学习同类正常组织(训练样本)的测序结果中单核苷 酸变异和插入缺失情况, 对肺癌样本(测试样本)中的相应突变, 根据测序深度和突变频率 进行检测, 从而达到计算TMB的目的。 0063 以下分别介绍单核苷酸变异(SNV)和插入缺失(Indel)统。
34、计。 0064 I.SNV变异统计 0065 将癌组织样本(测试样本)特别是肺癌组织样本, 与正常对照样本(训练样本)的测 序读长(reads)经过比对产生的BAM格式文件用Samtools软件转化为pileup格式文件。 在转 化过程中, 只允许测序错误和比对错误率小于0.1的reads, 对应的Phread Score和 Mapping Score均为30。 再将生成的pileup格式文件用sequenza-utils以默认参数转化为 单核苷酸突变频率数据文件ACGT格式, 或者对pileup格式文件用Varscan中的pileup2acgt 工具转化为单核苷酸突变频率数据文件ACGT。 。
35、ACGT格式类型的文件包含了目标区域中每个 位点的位置信息、 深度信息和变异/突变到任意其他三种非参考碱基的概率。 0066 然后, (1)统计所有正常对照样本(训练样本)中每种三碱基突变(mutational signature)的平均突变频率, 并将它作为TNER方法(参考Shibing Deng,Maruja Lira, Donghui Huang,Kai Wang,Crystal Valdez,Jennifer Kinong,Paul A.Rejto,Jadwiga Bienkowska,James Hardwick,Tao Xie.TNER:A Novel Bayesian Back。
36、ground Error Suppression Method for Mutation Detection in Circulating Tumor DNA,BMC Bioinformatics,(2018)19:387)检验新突变的先验突变频率。 (2)寻求所有正常对照样本 (训练样本)中每一位点突变频率中的最大值, 该最大值需要满足的条件是: 在同一个位点 SNP的比例高于某个阈值p(例如, 0.05)的次数在所有正常对照样本(训练样本)中至少出现 n(例如, 10)次。 如果没有满足上述条件, 该突变位点的突变频率被置换为该位点在所有训 练样本中的突变频率平均值。 然后将所得到的突变频。
37、率, 即突变频率最大值或突变频率平 均值乘以设定的系数值(例如, 5)后得到的数值如果大于1, 则将突变频率设为1, 如果该数 值小于1, 则突变频率取该数值, 然后将突变频率与先验突变频率进行加权, 得到该突变位 点的加权突变频率, 作为位点后验突变频率。 (3)求出所有正常对照样本(训练样本)在目标 区域中各个位点的测序深度平均值。 (4)通过TNER方法在给定的显著性水平下(例如, 说明书 5/9 页 9 CN 109949861 A 9 0.001)结合位点后验突变频率和该位点平均测序深度, 得出该位点突变频率阈值, 作为检 验新输入样本(测试样本)的突变频率的阈值。 0067 在本发。
38、明一个优选的实施例中, 先验突变频率通过如下方法确定: 获取每个训练 样本中的背景突变和SNP突变, 其中杂合子和纯合子SNP的突变频率分别在0.5和1处聚集并 呈高斯分布, 而背景突变的突变频率在0.001-0.1处聚集并呈伽马分布; 通过对背景突变和 SNP突变的突变频率形成的混合分布进行拟合, 找出混合分布的概率密度分布中背景突变 与杂合子SNP突变之间概率密度分布的最低点所对应的突变频率, 将该突变频率作为背景 突变频率的阈值, 将突变频率小于该阈值的突变作为真实背景突变; 在真实背景突变中对 每个训练样本的相同的三碱基突变进行归类后求三碱基平均背景突变频率, 然后将所有训 练样本中相。
39、同的三碱基平均背景突变频率的平均值作为三碱基突变的先验突变频率。 0068 然后, 根据输入样本(测试样本)的深度信息, 对测试样本的位点突变频率进行校 正, 通过如下公式得到校正位点突变频率: 0069 adj j (min(1, Dj/Dlimit), , ); 0070 其中, adj为在当前位点的校正位点突变频率, j为在当前位点实际观测的位点突 变频率, 是以 和 为形状参数的Beta分布的累计概率分布函数, Dj为上述测试样本在当前 位点的实际测序深度, Dlimit为设定的最低校正测序深度。 0071 通过比较癌组织样本(测试样本)相应位置的测序突变频率(优选校正位点突变频 率)。
40、和突变频率的阈值, 输出测试样本中通过筛选的单核苷酸变异, 即测序突变频率大于突 变频率的阈值的单核苷酸变异。 为提高准确度, 在通过筛选的单核苷酸变异中, 去除突变频 率在5以下、 45-55之间和95-100之间的单核苷酸变异, 然后用snpeff软件注释 后得到这些单核苷酸变异中无义突变的个数。 用总突变个数减去无义突变的个数, 得到单 核苷酸变异个数, 作为单核苷酸变异统计部分的输出值参与之后的TMB检验。 0072 II.Indel变异统计 0073 将正常对照样本(训练样本)测序中的每个Indel以染色体+位置+突变前碱基+突 变类型+突变后碱基作为编码。 在编码过程中, 只选取突。
41、变后碱基编码的第一位组成每个 Indel的突变编码。 在所有正常对照样本(训练样本)中找出所有至少出现两次并突变频率 都大于频率预设值(例如, 1)的Indel编码和对应的突变频率, 每个Indel编码对应的突变 频率为所有正常组织样本中该编码对应突变频率的最大值。 将该最大值的设定倍数(例如, 2倍)作为新Indel检测中突变频率的阈值。 然后, 将编码和它对应的阈值以哈希表的形式储 存。 0074 在检测癌组织样本(测试样本)中新的Indel时, 对于每一个癌组织样本检测出的 Indel, 如果该Indel出现在哈希表中并且突变频率大于阈值, 该Indel就被定义为通过筛选 的Indel。。
42、 在通过筛选的Indel中, 去除突变频率在40-60之间和90-100之间的 Indel。 如果癌组织样本中通过筛选的Indel数目大于或等于2个, 那么定义这个样本为高 Indel样本, 反之则为低Indel样本。 图2反映了Indel变异统计结果与真实全外显子组测序 TMB数值间的关系, 高Indel样本组对应的平均TMB显著高于低Indel样本组对应的平均TMB。 0075 最终TMB的估计值结合了单核苷酸变异个数和Indel统计个数对样本TMB的判断, TMB的估计值用下式表示: 0076 S/100+sgn(I) 说明书 6/9 页 10 CN 109949861 A 10 007。
43、7 其中, S指上述有效单核苷酸变异个数, I指Indel突变个数, sgn()为符号函数, 在I 大于或等于个数阈值(例如, 2)的情况下, sgn(I)输出值为1, 否则输出值为0。 0078 本发明的方法, 通过学习同类正常样本的变异信息, 实现了基于测序变异频率对 肺癌样本的TMB指标的准确检测。 本发明的方法不需要参考公共数据库中的突变信息, 也不 需要提取成对的正常样本并进行测序。 与现有的双样本肿瘤突变负荷检测技术相比, 本发 明的方法降低了实验操作的人力消耗和对患者的取样难度, 也降低了在计算新样本肿瘤突 变负荷时的计算资源消耗。 与现有的单样本肿瘤突变负荷检测流程相比, 本发。
44、明的方法减 少了对公共数据库的依赖, 并且可以在检测突变的同时根据同类样本的变异频率信息过滤 掉样本中的变异假阳性。 0079 本领域技术人员可以理解, 上述实施方式中各种方法的全部或部分功能可以通过 硬件的方式实现, 也可以通过计算机程序的方式实现。 当上述实施方式中全部或部分功能 通过计算机程序的方式实现时, 该程序可以存储于一计算机可读存储介质中, 存储介质可 以包括: 只读存储器、 随机存储器、 磁盘、 光盘、 硬盘等, 通过计算机执行该程序以实现上述 功能。 例如, 将程序存储在设备的存储器中, 当通过处理器执行存储器中程序, 即可实现上 述全部或部分功能。 另外, 当上述实施方式中。
45、全部或部分功能通过计算机程序的方式实现 时, 该程序也可以存储在服务器、 另一计算机、 磁盘、 光盘、 闪存盘或移动硬盘等存储介质 中, 通过下载或复制保存到本地设备的存储器中, 或对本地设备的系统进行版本更新, 当通 过处理器执行存储器中的程序时, 即可实现上述实施方式中全部或部分功能。 0080 因此, 对应于本发明的方法, 本发明一种实施例中提供一种肿瘤突变负荷检测装 置, 如图3所示, 包括如下单元: 单核苷酸变异统计单元301, 用于获取单个测试样本的突变 频率数据, 上述突变频率数据包括该样本目标区域的位点突变频率, 将上述位点突变频率 与设定的位点突变频率阈值进行比较, 得到位点。
46、突变频率大于上述位点突变频率阈值的单 核苷酸变异, 并去除上述单核苷酸变异中的无义突变得到有效单核苷酸变异个数; Indel变 异统计单元302, 用于获取单个测试样本的Indel突变频率数据, 上述Indel突变频率数据包 括该样本目标区域的Indel突变频率, 将上述Indel突变频率与设定的Indel突变频率阈值 进行比较, 得到Indel突变频率大于上述Indel突变频率阈值的Indel突变个数; 肿瘤突变负 荷计算单元303, 用于根据肿瘤突变负荷的估值公式计算肿瘤突变负荷的数值, 其中上述估 值公式包括上述有效单核苷酸变异个数的权重项和上述Indel突变个数的权重项。 0081 此。
47、外, 本发明的一种实施例中提供一种计算机可读存储介质, 包括程序, 该程序能 够被处理器执行以实现如第一方面的方法。 0082 以下通过实施例详细说明本发明的技术方案, 应当理解, 实施例仅是示例性的, 不 能理解为对本发明保护范围的限制。 0083 实施例1: 0084 以下实施例中, 训练数据: 360例健康人群对照样本经过深圳裕策生物科技有限公 司YuceOne Plus芯片测序生成的单核苷酸突变频率数据和110例健康人群对照样本经过深 圳裕策生物科技有限公司YuceOne Plus芯片测序生成的Indel突变频率数据。 测试数据: 11 例肺癌患者组织样本经过深圳裕策生物科技有限公司Y。
48、uceOne Plus芯片测序获得的突变 结果, 包含单核苷酸突变频率数据和Indel突变频率数据。 0085 将360例健康对照样本经过深圳裕策生物科技有限公司YuceOne Plus芯片测序, 说明书 7/9 页 11 CN 109949861 A 11 将测序所得读长(reads)与人参考基因组进行比对, 得到BAM格式的比对结果。 然后对BAM格 式文件用Samtools软件转化为pileup格式文件。 在转化过程中, 只允许测序错误和比对错 误率小于0.1的reads, 对应的Phread得分(Phread Score)和映射得分(Mapping Score) 均为30。 再将生成的。
49、pileup格式文件用sequenza-utils以默认参数转化为单核苷酸突变频 率数据文件ACGT格式。 将该ACGT文件作为SNV变异统计的输入数据, 根据SNV变异统计的描 述进行训练, 获得每个位点突变频率阈值, 用来对测试数据的目标区域进行单核苷酸变异 的检测。 0086 将110例健康对照样本经过深圳裕策生物科技有限公司YuceOne Plus芯片测序, 将测序所得reads与人参考基因组进行比对, 得到BAM格式的比对结果。 将比对产生的BAM格 式文件用Samtools软件转化为pileup格式文件。 在转化过程中, 只允许测序错误和比对错 误率小于0.1的reads, 对应的。
50、Phread得分(Phread Score)和映射得分(Mapping Score) 均为30。 然后, 将pileup文件用Varscan pileup2indel以默认参数转化为Indel格式。 Indel 格式类型的文件包含了目标区域中所有插入和缺失(Indel)的位置信息、 深度信息和与具 体插入缺失片段相对应的突变频率。 将Indel文件根据Indel变异统计的描述进行处理, 得 到每个Indel突变频率阈值, 用于对测试数据的目标区域进行Indel检测。 0087 将11例肺癌组织测试样本经过深圳裕策生物科技有限公司YuceOne Plus芯片测 序, 将测序所得读长(reads)。
- 内容关键字: 肿瘤 突变 负荷 检测 方法 装置 存储 介质
泵下旋转泄油器.pdf
药物生产用的低温干燥装置.pdf
麦克风底座.pdf
蒽醌法生产过氧化氢用白土床.pdf
基于美术品制作的美术品保护箱.pdf
片材挤出机的牵引辊装置.pdf
新型除尘滤袋.pdf
全钢化真空玻璃.pdf
阀盖、截止阀及止回阀.pdf
双注塑口注塑机.pdf
大孔容射孔弹.pdf
浮动球阀.pdf
丁基胶大桶灌装机的罐装结构.pdf
微生物检测装置.pdf
耳道清洗器.pdf
水泵气密性试验用检测装置.pdf
国土空间规划用定位标杆.pdf
便于清洗的取样器.pdf
棱镜式激光清洗装置.pdf
自吸式加料混合装置.pdf
建筑场景点云分割不确定性评估方法、系统及电子设备.pdf
新型的基站通信线缆.pdf
磁敏元件立体封装结构.pdf
带自清洁和净化水域功能的水尺.pdf
激光雕刻设备及使用方法.pdf
平开门的弧形门体折弯装置.pdf
模块化遮阳板生产模具及遮阳板.pdf
建筑消防安全评估方法、设备和介质.pdf
连接器母端子.pdf
基于物联数据处理的多通路管系热输送平衡控制监管系统.pdf
飞机输油半管类零件的成形方法.pdf
图像传感器及其制作方法.pdf
用于网络打印的双喷墨打印托架.pdf
用于机动车辆的后视镜.pdf
自适应信道均衡器.pdf
旋装过滤器的翼形导流板.pdf
陶瓷连续微波干燥设备和方法.pdf
无线装置和通信控制方法.pdf
多用内燃往复发动机.pdf
通信终端和信息通信系统.pdf
在加热模式下操纵空调器的方法.pdf
单分散球形金属粒子及其生产方法.pdf
制备甲苯衍生物的一步法.pdf
移动通信终端用户会员保护方法.pdf
数值控制装置.pdf
带有隐式信道探头的多种XDSL调制解调器的启动.pdf
光盘驱动器的主轴伺服控制方法.pdf
时差仪.pdf
数据记录介质、方法及装置、数据再现方法及装置、数据传送方法及接收方法.pdf
光盘记录再现装置的倾斜控制方法及其装置.pdf
防止插入错误媒体的结构和使用该结构的媒体处理装置.pdf