《样本标注的确定方法和装置.pdf》由会员分享,可在线阅读,更多相关《样本标注的确定方法和装置.pdf(10页完整版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 104317894 A (43)申请公布日 2015.01.28 CN 104317894 A (21)申请号 201410573516.5 (22)申请日 2014.10.23 G06F 17/30(2006.01) (71)申请人 北京百度网讯科技有限公司 地址 100085 北京市海淀区上地十街 10 号 百度大厦 2 层 (72)发明人 胡光 胡殿明 刘洪 魏伟 (74)专利代理机构 北京清亦华知识产权代理事 务所 ( 普通合伙 ) 11201 代理人 宋合成 (54) 发明名称 样本标注的确定方法和装置 (57) 摘要 本发明提出一种样本标注的确定方法和装 。
2、置, 该样本标注的确定方法包括 : 对线上反馈数 据进行抽取, 获得初始模型训练数据 ; 从所述初 始模型训练数据中提取场景特征, 并将所述场景 特征添加到所述初始模型训练数据中, 获得样本 数据 ; 针对每组样本数据计算样本质量度, 根据 每组样本数据对应的样本质量度对每组样本数据 进行标注 ; 对标注后的样本数据进行学习, 生成 模型, 并利用所述模型预测新的样本数据的标注。 本发明在多示例学习问题中, 在进行样本标注时, 可以减少人工的参与, 节省了大量人工, 进而可以 提高标注效率。 (51)Int.Cl. 权利要求书 2 页 说明书 5 页 附图 2 页 (19)中华人民共和国国家知。
3、识产权局 (12)发明专利申请 权利要求书2页 说明书5页 附图2页 (10)申请公布号 CN 104317894 A CN 104317894 A 1/2 页 2 1. 一种样本标注的确定方法, 其特征在于, 包括 : 对线上反馈数据进行抽取, 获得初始模型训练数据 ; 从所述初始模型训练数据中提取场景特征, 并将所述场景特征添加到所述初始模型训 练数据中, 获得样本数据 ; 针对每组样本数据计算样本质量度, 根据每组样本数据对应的样本质量度对每组样本 数据进行标注 ; 对标注后的样本数据进行学习, 生成模型, 并利用所述模型预测新的样本数据的标注。 2. 根据权利要求 1 所述的方法, 其。
4、特征在于, 所述针对每组样本数据计算样本质量度 包括 : 针对每组样本数据, 在期望时长内, 根据所述期望时长内的示例数量、 所述期望时长内 模型首次预测正例的时间点、 首次预测正例后的预测总次数和所述预测总次数内正例的预 测数量计算所述样本质量度。 3. 根据权利要求 2 所述的方法, 其特征在于, 对于第 i 组样本数据, 如果所述期望时 长内的示例数量为 Si, 所述期望时长内模型首次预测正例的时间点为 Pi, 首次预测正例后 的预测总次数为 Ni, 所述预测总次数内正例的预测数量为 PNi, 则所述样本质量度为 : (PNi/ Ni)(Si-Ni)/Si。 4. 根据权利要求 1-3 。
5、任意一项所述的方法, 其特征在于, 所述针对每组样本数据计算 样本质量度包括 : 根据所述线上反馈数据对所述每组样本数据进行筛选, 对选择的样本数据计算样本质 量度。 5. 一种样本标注的确定装置, 其特征在于, 包括 : 抽取模块, 用于对线上反馈数据进行抽取, 获得初始模型训练数据 ; 提取模块, 用于从所述抽取模块获得的初始模型训练数据中提取场景特征 ; 添加模块, 用于将所述提取模块提取的场景特征添加到所述初始模型训练数据中, 获 得样本数据 ; 计算模块, 用于针对所述添加模块获得的每组样本数据计算样本质量度 ; 标注模块, 用于根据所述计算模块计算的每组样本数据对应的样本质量度对每。
6、组样本 数据进行标注 ; 生成模块, 用于对所述标注模块标注后的样本数据进行学习, 生成模型 ; 确定模块, 用于利用所述生成模块生成的模型预测新的样本数据的标注。 6. 根据权利要求 5 所述的装置, 其特征在于, 所述计算模块, 具体用于针对每组样本数据, 在期望时长内, 根据所述期望时长内的示 例数量、 所述期望时长内模型首次预测正例的时间点、 首次预测正例后的预测总次数和所 述预测总次数内正例的预测数量计算所述样本质量度。 7. 根据权利要求 6 所述的装置, 其特征在于, 对于第 i 组样本数据, 如果所述期望时长 内的示例数量为 Si, 所述期望时长内模型首次预测正例的时间点为 P。
7、i, 首次预测正例后的 预测总次数为 Ni, 所述预测总次数内正例的预测数量为 PNi, 则所述计算模块按照下式计算 所述样本质量度 : (PNi/Ni)(Si-Ni)/Si。 权 利 要 求 书 CN 104317894 A 2 2/2 页 3 8. 根据权利要求 5-7 任意一项所述的装置, 其特征在于, 所述计算模块, 具体用于根据所述线上反馈数据对所述每组样本数据进行筛选, 对选 择的样本数据计算样本质量度。 权 利 要 求 书 CN 104317894 A 3 1/5 页 4 样本标注的确定方法和装置 技术领域 0001 本发明涉及互联网技术领域, 尤其涉及一种样本标注的确定方法和装。
8、置。 背景技术 0002 在多示例学习中, 样本是由多个示例组成的包, 多示例学习是在包的粒度对样本 进行标注, 而每个样本中包含若干个示例, 这些示例并无标注。若某个样本被标注为正例, 则该样本中至少有一个正例 ; 反之, 若某个样本被标注为负例, 则该样本中的所有示例为负 例。多示例学习的目的就是通过对这些标注的样本的学习, 尽可能准确地对新的样本做出 判断。 0003 在多示例学习问题中, 现有技术主要通过人工对样本进行筛选和标注, 这种标注 方式的人工成本高, 标注效率低。 发明内容 0004 本发明的目的旨在至少在一定程度上解决相关技术中的技术问题之一。 0005 为此, 本发明的第。
9、一个目的在于提出一种样本标注的确定方法。 通过该方法, 针对 每组样本数据计算样本质量度, 根据每组样本数据对应的样本质量度对每组样本数据进行 标注, 节省了大量人工, 进而可以提高标注效率。 0006 本发明的第二个目的在于提出一种样本标注的确定装置。 0007 为了实现上述实施例, 本发明第一方面实施例的样本标注的确定方法, 包括 : 对线 上反馈数据进行抽取, 获得初始模型训练数据 ; 从所述初始模型训练数据中提取场景特征, 并将所述场景特征添加到所述初始模型训练数据中, 获得样本数据 ; 针对每组样本数据计 算样本质量度, 根据每组样本数据对应的样本质量度对每组样本数据进行标注 ; 对。
10、标注后 的样本数据进行学习, 生成模型, 并利用所述模型预测新的样本数据的标注。 0008 本发明实施例的样本标注的确定方法, 通过对线上反馈数据进行抽取, 获得初始 模型训练数据, 从上述初始模型训练数据中提取场景特征, 并将上述场景特征添加到上述 初始模型训练数据中, 获得样本数据 ; 然后针对每组样本数据计算样本质量度, 并根据每组 样本数据对应的样本质量度对每组样本数据进行标注, 从而在多示例学习问题中, 在进行 样本标注时, 可以减少人工的参与, 节省了大量人工, 进而可以提高标注效率。 0009 为了实现上述实施例, 本发明第二方面实施例的样本标注的确定装置, 包括 : 抽取 模块。
11、, 用于对线上反馈数据进行抽取, 获得初始模型训练数据 ; 提取模块, 用于从所述抽取 模块获得的初始模型训练数据中提取场景特征 ; 添加模块, 用于将所述提取模块提取的场 景特征添加到所述初始模型训练数据中, 获得样本数据 ; 计算模块, 用于针对所述添加模块 获得的每组样本数据计算样本质量度 ; 标注模块, 用于根据所述计算模块计算的每组样本 数据对应的样本质量度对每组样本数据进行标注 ; 生成模块, 用于对所述标注模块标注后 的样本数据进行学习, 生成模型 ; 确定模块, 用于利用所述生成模块生成的模型预测新的样 本数据的标注。 说 明 书 CN 104317894 A 4 2/5 页 。
12、5 0010 本发明实施例的样本标注的确定装置, 抽取模块通过对线上反馈数据进行抽取, 获得初始模型训练数据, 提取模块从上述初始模型训练数据中提取场景特征, 添加模块将 上述场景特征添加到上述初始模型训练数据中, 获得样本数据 ; 然后计算模块针对每组样 本数据计算样本质量度, 并由标注模块根据每组样本数据对应的样本质量度对每组样本数 据进行标注, 从而在多示例学习问题中, 在进行样本标注时, 可以减少人工的参与, 节省了 大量人工, 进而可以提高标注效率。 0011 本发明附加的方面和优点将在下面的描述中部分给出, 部分将从下面的描述中变 得明显, 或通过本发明的实践了解到。 附图说明 0。
13、012 本发明上述的和 / 或附加的方面和优点从下面结合附图对实施例的描述中将变 得明显和容易理解, 其中 : 0013 图 1 为本发明样本标注的确定方法一个实施例的流程图 ; 0014 图 2 为本发明添加场景特征前后的模型性能一个实施例的对比示意图 ; 0015 图 3 为本发明样本标注的确定装置一个实施例的结构示意图。 具体实施方式 0016 下面详细描述本发明的实施例, 所述实施例的示例在附图中示出, 其中自始至终 相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考 附图描述的实施例是示例性的, 仅用于解释本发明, 而不能理解为对本发明的限制。相反, 本发明。
14、的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、 修改和等同 物。 0017 图1为本发明样本标注的确定方法一个实施例的流程图, 如图1所示, 该样本标注 的确定方法可以包括 : 0018 步骤 101, 对线上反馈数据进行抽取, 获得初始模型训练数据。 0019 步骤 102, 从上述初始模型训练数据中提取场景特征, 并将上述场景特征添加到上 述初始模型训练数据中, 获得样本数据。 0020 本实施例对多示例学习问题进行场景化定义, 从初始模型训练数据中提取场景特 征, 再添加进上述初始模型训练数据中, 作为每次迭代时的样本数据。例如 : 对于硬盘预警 问题来说, 场景特征就是。
15、硬盘所在的机房和硬盘型号, 通过提取和添加场景特征, 模型性能 有了较大提升 : 准确率提升 40, 误报率降低 11, 如图 2 所示, 图 2 为本发明添加场景特 征前后的模型性能一个实施例的对比示意图。 图2中, 曲线1代表加入了场景特征的模型性 能的受试者工作特征曲线 (Receiver Operating Characteristic Curve ; 以下简称 : ROC) 评估曲线, 曲线 2 代表没有添加场景特征的模型性能的 ROC 评估曲线。 0021 步骤 103, 针对每组样本数据计算样本质量度, 根据每组样本数据对应的样本质量 度对每组样本数据进行标注。 0022 具体地。
16、, 针对每组样本数据计算样本质量度可以为 : 针对每组样本数据, 在期望时 长内, 根据上述期望时长内的示例数量、 上述期望时长内模型首次预测正例的时间点、 首次 预测正例后的预测总次数和上述预测总次数内正例的预测数量计算上述样本质量度。 说 明 书 CN 104317894 A 5 3/5 页 6 0023 对于第i组样本数据, 如果上述期望时长内的示例数量为Si, 上述期望时长内模型 首次预测正例的时间点为 Pi, 首次预测正例后的预测总次数为 Ni, 上述预测总次数内正例 的预测数量为 PNi, 则上述样本质量度可以为 : (PNi/Ni)(Si-Ni)/Si。 0024 可选地, 在实。
17、际应用中, 对于每一组样本数据计算样本质量度, 计算出每组样本数 据对应的样本质量度之后, 对于样本质量度不大于 20的样本数据可以直接舍弃, 不作为 模型迭代的训练数据使用, 仅对样本质量度大于 20的样本数据进行标注。然后在标注样 本数据时, 可以将样本数据中Ni条示例标注为正例, 并将(T样本质量度/10)条示例也标 注为正例, 除此之外的此样本数据中的其余示例均标注为负例。这样, 配合迭代系统, 就可 以随着模型的不断迭代, 逼近问题的最优分界面。 其中, Ni即为首次预测正例后的预测总次 数, T 为上述期望时长。以上仅为根据样本质量度对每组样本数据进行标注的一种示例, 本 发明并不。
18、仅限于此, 本发明对根据样本质量度对每组样本数据进行标注的方式不作限定。 0025 从上述计算样本质量度的公式中可以看出, 样本质量度反映了不同样本数据对于 模型性能提升的帮助作用。原本模型就能 100预测出来的样本数据, 公式会给出 0的样 本质量度, 原本模型就预测不出来的样本数据, 公式也会给出 0的样本质量度, 这样是符 合实际情况的。 在实际应用中, 基于样本质量度获得实际样本标注策略, 使得模型性能在迭 代过程中有了进一步提升。 0026 本实施例中, 针对每组样本数据计算样本质量度可以为 : 根据上述线上反馈数据 对每组样本数据进行筛选, 对选择的样本数据计算样本质量度。 也就是。
19、说, 在计算样本质量 度时, 可以先根据线上反馈数据对样本数据进行筛选, 选择疑似正例的样本数据, 对疑似正 例的样本数据再按照上面介绍的计算样本质量度的方法计算样本质量度。 0027 步骤 104, 对标注后的样本数据进行学习, 生成模型, 并利用上述模型预测新的样 本数据的标注。 0028 举例来说, 可以利用机器学习算法对标注后的样本数据进行学习, 生成模型, 本发 明实施例对学习样本数据所采用的算法不作限定。 0029 上述实施例中, 通过对线上反馈数据进行抽取, 获得初始模型训练数据, 从上述初 始模型训练数据中提取场景特征, 并将上述场景特征添加到上述初始模型训练数据中, 获 得样。
20、本数据 ; 然后针对每组样本数据计算样本质量度, 并根据每组样本数据对应的样本质 量度对每组样本数据进行标注, 从而在多示例学习问题中, 在进行样本标注时, 可以减少人 工的参与, 节省了大量人工, 进而可以提高标注效率, 并且能够使得多示例学习问题中模型 的迭代更新效率更高, 模型性能通过加入场景特征及样本质量度指标在不断迭代过程当中 持续提升, 持续适应线上实际情况。 0030 图 3 为本发明样本标注的确定装置一个实施例的结构示意图, 本实施例中的样本 标注的确定装置可以实现本发明图1所示实施例的流程, 如图3所示, 该样本标注的确定装 置可以包括 : 抽取模块 31、 提取模块 32、。
21、 添加模块 33、 计算模块 34、 标注模块 35、 生成模块 36 和确定模块 37 ; 0031 其中, 抽取模块 31, 用于对线上反馈数据进行抽取, 获得初始模型训练数据。 0032 提取模块 32, 用于从抽取模块 31 获得的初始模型训练数据中提取场景特征。 0033 添加模块 33, 用于将提取模块 32 提取的场景特征添加到上述初始模型训练数据 中, 获得样本数据。 说 明 书 CN 104317894 A 6 4/5 页 7 0034 具体地, 本实施例对多示例学习问题进行场景化定义, 提取模块 32 从初始模型训 练数据中提取场景特征, 再由添加模块 33 将场景特征添加。
22、进上述初始模型训练数据中, 作 为每次迭代时的样本数据。 例如 : 对于硬盘预警问题来说, 场景特征就是硬盘所在的机房和 硬盘型号, 通过提取和添加场景特征, 模型性能有了较大提升 : 准确率提升 40, 误报率降 低 11, 如图 2 所示。图 2 中, 曲线 1 代表加入了场景特征的模型性能的 ROC 评估曲线, 曲 线 2 代表没有添加场景特征的模型性能的 ROC 评估曲线。 0035 计算模块34, 用于针对添加模块33获得的每组样本数据计算样本质量度。 本实施 例中, 计算模块 34, 具体用于针对每组样本数据, 在期望时长内, 根据上述期望时长内的示 例数量、 上述期望时长内模型首。
23、次预测正例的时间点、 首次预测正例后的预测总次数和上 述预测总次数内正例的预测数量计算上述样本质量度。 0036 对于第i组样本数据, 如果上述期望时长内的示例数量为Si, 上述期望时长内模型 首次预测正例的时间点为 Pi, 首次预测正例后的预测总次数为 Ni, 上述预测总次数内正例 的预测数量为 PNi, 则计算模块 34 按照下式计算上述样本质量度 : (PNi/Ni)(Si-Ni)/Si。 0037 另外, 本实施例中, 计算模块 34 也可以根据上述线上反馈数据对每组样本数据进 行筛选, 对选择的样本数据计算样本质量度。也就是说, 在计算模块 34 计算样本质量度时, 可以先根据线上反。
24、馈数据对样本数据进行筛选, 选择疑似正例的样本数据, 对疑似正例的 样本数据再按照上面介绍的计算样本质量度的方法计算样本质量度。 0038 标注模块 35, 用于根据计算模块 34 计算的每组样本数据对应的样本质量度对每 组样本数据进行标注。 0039 可选地, 在实际应用中, 计算模块 34 对于每一组样本数据计算样本质量度, 计算 模块 34 计算出每组样本数据对应的样本质量度之后, 对于样本质量度不大于 20的样本 数据可以直接舍弃, 不作为模型迭代的训练数据使用, 标注模块 35 仅对样本质量度大于 20的样本数据进行标注。然后标注模块 35 在标注样本数据时, 可以将样本数据中 Ni。
25、条 示例标注为正例, 并将(T样本质量度/10)条示例也标注为正例, 除此之外的此样本数据 中的其余示例均标注为负例。这样, 配合迭代系统, 就可以随着模型的不断迭代, 逼近问题 的最优分界面。其中, Ni即为首次预测正例后的预测总次数, T 为上述期望时长。以上仅为 标注模块 35 根据样本质量度对每组样本数据进行标注的一种示例, 本发明并不仅限于此, 本发明对根据样本质量度对每组样本数据进行标注的方式不作限定。 0040 生成模块 36, 用于对标注模块 35 标注后的样本数据进行学习, 生成模型 ; 举例来 说, 可以利用机器学习算法对标注模块 35 标注后的样本数据进行学习, 生成模型。
26、, 本发明 实施例对生成模块 36 学习样本数据所采用的算法不作限定。 0041 确定模块 37, 用于利用生成模块 36 生成的模型预测新的样本数据的标注。 0042 上述实施例中, 抽取模块 31 通过对线上反馈数据进行抽取, 获得初始模型训练数 据, 提取模块32从上述初始模型训练数据中提取场景特征, 并由添加模块33将上述场景特 征添加到上述初始模型训练数据中, 获得样本数据 ; 然后计算模块 34 针对每组样本数据计 算样本质量度, 标注模块 35 根据每组样本数据对应的样本质量度对每组样本数据进行标 注, 从而在多示例学习问题中, 在进行样本标注时, 可以减少人工的参与, 节省了大。
27、量人工, 进而可以提高标注效率, 并且能够使得多示例学习问题中模型的迭代更新效率更高, 模型 性能通过加入场景特征及样本质量度指标在不断迭代过程当中持续提升, 持续适应线上实 说 明 书 CN 104317894 A 7 5/5 页 8 际情况。 0043 需要说明的是, 在本发明的描述中, 除非另有说明,“多个” 的含义是两个或两个以 上。 0044 流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为, 表示包括 一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、 片段或部 分, 并且本发明的优选实施方式的范围包括另外的实现, 其中可以不按所示出或讨论的顺 序,。
28、 包括根据所涉及的功能按基本同时的方式或按相反的顺序, 来执行功能, 这应被本发明 的实施例所属技术领域的技术人员所理解。 0045 应当理解, 本发明的各部分可以用硬件、 软件、 固件或它们的组合来实现。在上 述实施方式中, 多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的 软件或固件来实现。例如, 如果用硬件来实现, 和在另一实施方式中一样, 可用本领域公 知的下列技术中的任一项或他们的组合来实现 : 具有用于对数据信号实现逻辑功能的逻 辑门电路的离散逻辑电路, 具有合适的组合逻辑门电路的专用集成电路, 可编程门阵列 (Programmable Gate Array ; 以下。
29、简称 : PGA), 现场可编程门阵列 (Field Programmable Gate Array ; 以下简称 : FPGA) 等。 0046 本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步 骤是可以通过程序来指令相关的硬件完成, 所述的程序可以存储于一种计算机可读存储介 质中, 该程序在执行时, 包括方法实施例的步骤之一或其组合。 0047 此外, 本发明各个实施例中的各功能模块可以集成在一个处理模块中, 也可以是 各个模块单独物理存在, 也可以两个或两个以上模块集成在一个模块中。上述集成的模块 既可以采用硬件的形式实现, 也可以采用软件功能模块的形式实现。所述集成。
30、的模块如果 以软件功能模块的形式实现并作为独立的产品销售或使用时, 也可以存储在一个计算机可 读取存储介质中。 0048 上述提到的存储介质可以是只读存储器, 磁盘或光盘等。 0049 在本说明书的描述中, 参考术语 “一个实施例” 、“一些实施例” 、“示例” 、“具体示 例” 、 或 “一些示例” 等的描述意指结合该实施例或示例描述的具体特征、 结构、 材料或者特 点包含于本发明的至少一个实施例或示例中。在本说明书中, 对上述术语的示意性表述不 一定指的是相同的实施例或示例。而且, 描述的具体特征、 结构、 材料或者特点可以在任何 的一个或多个实施例或示例中以合适的方式结合。 0050 尽管上面已经示出和描述了本发明的实施例, 可以理解的是, 上述实施例是示例 性的, 不能理解为对本发明的限制, 本领域的普通技术人员在本发明的范围内可以对上述 实施例进行变化、 修改、 替换和变型。 说 明 书 CN 104317894 A 8 1/2 页 9 图 1 图 2 说 明 书 附 图 CN 104317894 A 9 2/2 页 10 图 3 说 明 书 附 图 CN 104317894 A 10 。