数据集处理方法、装置、电子设备和存储介质.pdf

上传人:bo****18 文档编号:10342809 上传时间:2021-06-18 格式:PDF 页数:23 大小:919.43KB
收藏 版权申诉 举报 下载
数据集处理方法、装置、电子设备和存储介质.pdf_第1页
第1页 / 共23页
数据集处理方法、装置、电子设备和存储介质.pdf_第2页
第2页 / 共23页
数据集处理方法、装置、电子设备和存储介质.pdf_第3页
第3页 / 共23页
文档描述:

《数据集处理方法、装置、电子设备和存储介质.pdf》由会员分享,可在线阅读,更多相关《数据集处理方法、装置、电子设备和存储介质.pdf(23页完成版)》请在专利查询网上搜索。

1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202010430339.0 (22)申请日 2020.05.20 (71)申请人 北京百度网讯科技有限公司 地址 100085 北京市海淀区上地十街10号 百度大厦2层 (72)发明人 胡哲彭程罗雪峰 (74)专利代理机构 北京清亦华知识产权代理事 务所(普通合伙) 11201 代理人 石茵汀 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/289(2020.01) G06F 16/332(2019.01) G06F 16/35(2019.01)。

2、 G06K 9/62(2006.01) (54)发明名称 数据集处理方法、 装置、 电子设备和存储介 质 (57)摘要 本申请公开了数据集处理方法、 装置、 电子 设备和存储介质, 涉及大数据领域。 具体实现方 案为: 获取目标用户提供的多个文本区块, 从多 个文本区块中获取与目标文本满足预设相似匹 配条件的第一文本集合; 从第一文本集合中获取 与目标文本不属于相同文本区块的第二文本集 合; 根据第二文本集合中每条文本归属的候选文 本区块内容生成目标文本的负样本集合; 根据目 标文本归属的目标文本区块内容生成目标文本 的正样本集合; 根据负样本集合和正样本集合生 成目标用户的数据集, 根据数据。

3、集训练匹配模型 识别文本相似度。 由此, 通过相似匹配条件匹配 出文本集合后再获取正样本集合和负样本集合 生成数据集, 提高数据集的有效性, 从而提高匹 配模型的鲁棒性。 权利要求书4页 说明书13页 附图5页 CN 111709247 A 2020.09.25 CN 111709247 A 1.一种数据集处理方法, 其特征在于, 包括: 获取目标用户提供的多个文本区块, 其中, 每个文本区块包括具有相似语义的多条文 本, 从所述多个文本区块中获取与目标文本满足预设相似匹配条件的第一文本集合; 从所述第一文本集合中获取与所述目标文本不属于相同文本区块的第二文本集合; 根据所述第二文本集合中每条。

4、文本归属的候选文本区块内容生成所述目标文本的负 样本集合; 根据所述目标文本归属的目标文本区块内容生成所述目标文本的正样本集合; 根据所述负样本集合和所述正样本集合生成所述目标用户的数据集, 根据所述数据集 训练匹配模型识别文本相似度。 2.如权利要求1所述的方法, 其特征在于, 所述从所述多个文本区块中获取与目标文本 满足预设相似匹配条件的第一文本集合, 包括: 对所述目标文本进行切词处理生成第一分词集合, 以及对所述多个文本区块中每条文 本进行切词处理生成多个第二分词集合; 将所述第一分词集合与每个所述第二分词集合进行比较, 获取所述第一分词集合与每 个所述第二分词集合之间的分词重复度; 。

5、将所述第一分词集合与每个所述第二分词集合之间的分词重复度与预设阈值进行比 较, 根据大于所述阈值的分词重复度对应的第二分词集合生成所述第一文本集合。 3.如权利要求1所述的方法, 其特征在于, 所述从所述多个文本区块中获取与目标文本 满足预设相似匹配条件的第一文本集合, 包括: 获取所述目标文本对应的子向量、 文本向量和位置向量, 并将所述目标文本对应的子 向量、 文本向量和位置向量输入预设训练语言表示模型得到目标句向量; 获取所述多个文本区块中每条文本对应的子向量、 文本向量和位置向量, 并将所述每 条文本对应的子向量、 文本向量和位置向量输入所述预设训练语言表示模型得到每条文本 对应的句向。

6、量; 计算所述目标句向量与所述每条文本对应的句向量之间的余弦相似度; 将所述余弦相似度与预设余弦阈值进行比较, 根据大于所述预设余弦阈值对应的文本 生成所述第一文本集合。 4.如权利要求1所述的方法, 其特征在于, 在从所述第一文本集合中获取与所述目标文 本不属于相同文本区块的第二文本集合之前, 还包括: 获取所述第一文本集合中的文本数量, 并判断所述文本数量是否大于预设数量阈值; 若所述文本数量大于所述预设数量阈值, 则根据所述数量阈值对所述第一文本集合中 的文本进行删除处理, 使所述文本数量等于所述数量阈值。 5.如权利要求1所述的方法, 其特征在于, 所述从所述第一文本集合中获取与所述目。

7、标 文本不属于相同文本区块的第二文本集合, 包括: 获取所述目标文本对应的区块标识; 获取所述第一文本集合中每条文本归属的区块标识; 将所述每条文本归属的区块标识与所述目标文本对应的区块标识进行对比, 根据区块 标识不一致的文本生成所述第二文本集合。 6.如权利要求1所述的方法, 其特征在于, 所述根据所述第二文本集合中每条文本归属 权利要求书 1/4 页 2 CN 111709247 A 2 的候选文本区块内容生成所述目标文本的负样本集合, 包括: 获取所述第二文本集合中每条文本归属的候选文本区块内容; 对每个候选文本区块中的多条文本进行文本组合生成第一负样本集合; 对不同候选文本区块中的多。

8、条文本进行文本组合生成第二负样本集合; 根据所述第一负样本集合和所述第二负样本集合生成所述目标文本的负样本集合。 7.如权利要求1所述的方法, 其特征在于, 所述根据所述目标文本归属的目标文本区块 内容生成所述目标文本的正样本集合, 包括: 获取所述目标文本归属的目标文本区块内容; 对所述目标文本区块中的多条文本进行文本组合生成所述目标文本的正样本集合。 8.如权利要求1所述的方法, 其特征在于, 所述目标用户包括多个子用户, 所述获取目 标用户提供的多个文本区块, 包括: 获取每个子用户提供的多个文本区块; 所述根据所述负样本集合和所述正样本集合生成所述目标用户的数据集, 包括: 根据所述负。

9、样本集合和所述正样本集合生成所述每个子用户对应的子数据集; 对所述每个子用户对应的子数据集进行组合生成候选数据集; 根据预设去重策略对所述候选数据集进行去重处理, 生成所述目标用户的数据集。 9.如权利要求1所述的方法, 其特征在于, 所述根据所述数据集训练匹配模型识别文本 相似度, 包括: 获取第一查询语句和第二查询语句; 对所述第一查询语句进行编码生成第一查询向量; 对所述第二查询语句进行编码生成第二查询向量; 对所述第一查询向量和所述第二查询向量输入所述匹配模型输出匹配类别, 根据所述 匹配类别确定所述第一查询语句和所述第二查询语句的文本相似度。 10.如权利要求1所述的方法, 其特征在。

10、于, 所述根据所述数据集训练匹配模型识别文 本相似度, 包括: 获取第一查询语句和第二查询语句; 将所述第一查询语句和所述第二查询语句输入所述匹配模型进行句子对齐; 根据对齐结果确定所述第一查询语句和所述第二查询语句的文本相似度。 11.一种数据集处理装置, 其特征在于, 包括: 第一获取模块, 用于获取目标用户提供的多个文本区块, 其中, 每个文本区块包括具有 相似语义的多条文本; 第二获取模块, 用于从所述多个文本区块中获取与目标文本满足预设相似匹配条件的 第一文本集合; 第三获取模块, 用于从所述第一文本集合中获取与所述目标文本不属于相同文本区块 的第二文本集合; 第一生成模块, 用于根。

11、据所述第二文本集合中每条文本归属的候选文本区块内容生成 所述目标文本的负样本集合; 第二生成模块, 用于根据所述目标文本归属的目标文本区块内容生成所述目标文本的 正样本集合; 权利要求书 2/4 页 3 CN 111709247 A 3 第三生成模块, 用于根据所述负样本集合和所述正样本集合生成所述目标用户的数据 集; 识别模块, 用于根据所述数据集训练匹配模型识别文本相似度。 12.如权利要求11所述的装置, 其特征在于, 所述第二获取模块, 具体用于: 对所述目标文本进行切词处理生成第一分词集合, 以及对所述多个文本区块中每条文 本进行切词处理生成多个第二分词集合; 将所述第一分词集合与每。

12、个所述第二分词集合进行比较, 获取所述第一分词集合与每 个所述第二分词集合之间的分词重复度; 将所述第一分词集合与每个所述第二分词集合之间的分词重复度与预设阈值进行比 较, 根据大于所述阈值的分词重复度对应的第二分词集合生成所述第一文本集合。 13.如权利要求11所述的装置, 其特征在于, 所述第二获取模块, 具体用于: 获取所述目标文本对应的子向量、 文本向量和位置向量, 并将所述目标文本对应的子 向量、 文本向量和位置向量输入预设训练语言表示模型得到目标句向量; 获取所述多个文本区块中每条文本对应的子向量、 文本向量和位置向量, 并将所述每 条文本对应的子向量、 文本向量和位置向量输入所述。

13、预设训练语言表示模型得到每条文本 对应的句向量; 计算所述目标句向量与所述每条文本对应的句向量之间的余弦相似度; 将所述余弦相似度与预设余弦阈值进行比较, 根据大于所述预设余弦阈值对应的文本 生成所述第一文本集合。 14.如权利要求11所述的装置, 其特征在于, 还包括: 第四获取模块, 用于获取所述第一文本集合中的文本数量, 并判断所述文本数量是否 大于预设数量阈值; 删除模块, 用于若所述文本数量大于所述预设数量阈值, 则根据所述数量阈值对所述 第一文本集合中的文本进行删除处理, 使所述文本数量等于所述数量阈值。 15.如权利要求11所述的装置, 其特征在于, 所述第三获取模块, 具体用于。

14、: 获取所述目标文本对应的区块标识; 获取所述第一文本集合中每条文本归属的区块标识; 将所述每条文本归属的区块标识与所述目标文本对应的区块标识进行对比, 根据区块 标识不一致的文本生成所述第二文本集合。 16.如权利要求11所述的装置, 其特征在于, 所述第一生成模块, 具体用于: 获取所述第二文本集合中每条文本归属的候选文本区块内容; 对每个候选文本区块中的多条文本进行文本组合生成第一负样本集合; 对不同候选文本区块中的多条文本进行文本组合生成第二负样本集合; 根据所述第一负样本集合和所述第二负样本集合生成所述目标文本的负样本集合。 17.如权利要求11所述的装置, 其特征在于, 所述第二生。

15、成模块, 具体用于: 获取所述目标文本归属的目标文本区块内容; 对所述目标文本区块中的多条文本进行文本组合生成所述目标文本的正样本集合。 18.如权利要求11所述的装置, 其特征在于, 所述目标用户包括多个子用户, 所述第一 获取模块, 具体用于: 权利要求书 3/4 页 4 CN 111709247 A 4 获取每个子用户提供的多个文本区块; 所述第三生成模块, 具体用于: 根据所述负样本集合和所述正样本集合生成所述每个子用户对应的子数据集; 对所述每个子用户对应的子数据集进行组合生成候选数据集; 根据预设去重策略对所述候选数据集进行去重处理, 生成所述目标用户的数据集。 19.如权利要求1。

16、1所述的装置, 其特征在于, 所述识别模块, 具体用于: 获取第一查询语句和第二查询语句; 对所述第一查询语句进行编码生成第一查询向量; 对所述第二查询语句进行编码生成第二查询向量; 对所述第一查询向量和所述第二查询向量输入所述匹配模型输出匹配类别, 根据所述 匹配类别确定所述第一查询语句和所述第二查询语句的文本相似度。 20.如权利要求11所述的装置, 其特征在于, 所述识别模块, 具体用于: 获取第一查询语句和第二查询语句; 将所述第一查询语句和所述第二查询语句输入所述匹配模型进行句子对齐; 根据对齐结果确定所述第一查询语句和所述第二查询语句的文本相似度。 21.一种电子设备, 其特征在于。

17、, 包括: 至少一个处理器; 以及 与所述至少一个处理器通信连接的存储器; 其中, 所述存储器存储有可被所述至少一个处理器执行的指令, 所述指令被所述至少一个处 理器执行, 以使所述至少一个处理器能够执行权利要求1-10中任一项所述的数据集处理方 法。 22.一种存储有计算机指令的非瞬时计算机可读存储介质, 其特征在于, 所述计算机指 令用于使所述计算机执行权利要求1-10中任一项所述的数据集处理方法。 权利要求书 4/4 页 5 CN 111709247 A 5 数据集处理方法、 装置、 电子设备和存储介质 技术领域 0001 本申请涉及数据处理领域的自然语言处理领域, 尤其涉及一种数据集处。

18、理方法、 装置、 电子设备和存储介质。 背景技术 0002 通常, 当用户输入一个查询语句, 使用检索系统在数据库中检索出若干个相似的 问题之后通过更加准确、 灵活的模型对这些候选项进行重新排序, 并且得到最终的答案。 0003 在上述重新排序的过程中, 通过相似度匹配模型计算两个文本之间的语义相似 度, 例如用户输入一个查询语句为 “我想要办理一张信用卡” , 相似度匹配模型需要准确地 在候选项中匹配到 “怎么样可以开信用卡” , 因此需要大规模且高质量的训练数据来生成相 似度匹配模型。 0004 相关技术中, 通过随机选取不同语义的文本作为训练数据集中的负样本, 生成的 负样本的方式比较简。

19、单且不准确的情况。 发明内容 0005 提供了一种数据集处理方法、 装置、 电子设备和存储介质。 0006 根据第一方面, 提供了一种数据集处理方法, 包括: 0007 获取目标用户提供的多个文本区块, 其中, 每个文本区块包括具有相似语义的多 条文本, 从所述多个文本区块中获取与目标文本满足预设相似匹配条件的第一文本集合; 0008 从所述第一文本集合中获取与所述目标文本不属于相同文本区块的第二文本集 合; 0009 根据所述第二文本集合中每条文本归属的候选文本区块内容生成所述目标文本 的负样本集合; 0010 根据所述目标文本归属的目标文本区块内容生成所述目标文本的正样本集合; 0011 。

20、根据所述负样本集合和所述正样本集合生成所述目标用户的数据集, 根据所述数 据集训练匹配模型识别文本相似度。 0012 根据第二方面, 提供了一种数据集处理装置, 包括: 0013 第一获取模块, 用于获取目标用户提供的多个文本区块, 其中, 每个文本区块包括 具有相似语义的多条文本; 0014 第二获取模块, 用于从所述多个文本区块中获取与目标文本满足预设相似匹配条 件的第一文本集合; 0015 第三获取模块, 用于从所述第一文本集合中获取与所述目标文本不属于相同文本 区块的第二文本集合; 0016 第一生成模块, 用于根据所述第二文本集合中每条文本归属的候选文本区块内容 生成所述目标文本的负。

21、样本集合; 0017 第二生成模块, 用于根据所述目标文本归属的目标文本区块内容生成所述目标文 说明书 1/13 页 6 CN 111709247 A 6 本的正样本集合; 0018 第三生成模块, 用于根据所述负样本集合和所述正样本集合生成所述目标用户的 数据集; 0019 识别模块, 用于根据所述数据集训练匹配模型识别文本相似度。 0020 本申请第三方面实施例提出了一种电子设备, 包括: 0021 至少一个处理器; 以及 0022 与所述至少一个处理器通信连接的存储器; 其中, 0023 所述存储器存储有可被所述至少一个处理器执行的指令, 所述指令被所述至少一 个处理器执行, 以使所述至。

22、少一个处理器能够执行第一方面实施例所述的数据集处理方 法。 0024 本申请第四方面实施例提出了一种存储有计算机指令的非瞬时计算机可读存储 介质, 所述计算机指令用于使所述计算机执行第一方面实施例所述的数据集处理方法。 0025 上述申请中的一个实施例具有如下优点或有益效果: 0026 获取目标用户提供的多个文本区块, 其中, 每个文本区块包括具有相似语义的多 条文本, 从多个文本区块中获取与目标文本满足预设相似匹配条件的第一文本集合; 从第 一文本集合中获取与目标文本不属于相同文本区块的第二文本集合; 根据第二文本集合中 每条文本归属的候选文本区块内容生成目标文本的负样本集合; 根据目标文本。

23、归属的目标 文本区块内容生成目标文本的正样本集合; 根据负样本集合和正样本集合生成目标用户的 数据集, 根据数据集训练匹配模型识别文本相似度。 由此, 避免了随机采样中的假样本和数 据比较简单的技术问题, 通过相似匹配条件匹配出文本集合后再获取正样本集合和负样本 集合生成数据集, 提高数据集的有效性, 从而提高匹配模型的鲁棒性。 0027 应当理解, 本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特 征, 也不用于限制本公开的范围。 本公开的其它特征将通过以下的说明书而变得容易理解。 附图说明 0028 附图用于更好地理解本方案, 不构成对本申请的限定。 其中: 0029 图1是根据。

24、本申请第一实施例提供的数据集处理方法的流程示意图; 0030 图2是本申请实施例提供的文本区块的示例图; 0031 图3是根据本申请第二实施例提供的数据集处理方法的流程示意图; 0032 图4是根据本申请第三实施例提供的数据集处理方法的流程示意图; 0033 图5是根据本申请第四实施例提供的数据集处理方法的流程示意图; 0034 图6是根据本申请第五实施例提供的数据集处理方法的流程示意图; ; 0035 图7是根据本申请第六实施例提供的数据集处理装置的结构示意图; 0036 图8是根据本申请第七实施例提供的数据集处理装置的结构示意图; 0037 图9是用来实现本申请实施例的数据集处理的方法的电。

25、子设备的框图。 具体实施方式 0038 以下结合附图对本申请的示范性实施例做出说明, 其中包括本申请实施例的各种 细节以助于理解, 应当将它们认为仅仅是示范性的。 因此, 本领域普通技术人员应当认识 说明书 2/13 页 7 CN 111709247 A 7 到, 可以对这里描述的实施例做出各种改变和修改, 而不会背离本申请的范围和精神。 同 样, 为了清楚和简明, 以下的描述中省略了对公知功能和结构的描述。 0039 下面参考附图描述本申请实施例的数据集处理方法、 装置、 电子设备和存储介质。 0040 图1是根据本申请第一实施例提供的数据集处理方法的流程示意图。 0041 具体地, 在现有。

26、方式中, 通过随机选取不同语义的文本作为训练数据集中的负样 本, 生成的负样本的方式比较简单且不准确的情况。 0042 本申请提出一种数据集处理方法, 获取目标用户提供的多个文本区块, 其中, 每个 文本区块包括具有相似语义的多条文本, 从多个文本区块中获取与目标文本满足预设相似 匹配条件的第一文本集合; 从第一文本集合中获取与目标文本不属于相同文本区块的第二 文本集合; 根据第二文本集合中每条文本归属的候选文本区块内容生成目标文本的负样本 集合; 根据目标文本归属的目标文本区块内容生成目标文本的正样本集合; 根据负样本集 合和正样本集合生成目标用户的数据集, 根据数据集训练匹配模型识别文本相。

27、似度。 0043 由此, 避免了随机采样中的假样本和数据比较简单的技术问题, 通过相似匹配条 件匹配出文本集合后再获取正样本集合和负样本集合生成数据集, 提高数据集的有效性, 从而提高匹配模型的鲁棒性。 0044 如图1所示, 该数据集处理方法可以包括以下步骤: 0045 步骤101, 获取目标用户提供的多个文本区块, 其中, 每个文本区块包括具有相似 语义的多条文本, 从多个文本区块中获取与目标文本满足预设相似匹配条件的第一文本集 合。 0046 本申请通过获取目标用户的数据集来训练匹配模型识别文本相似度, 从而提高匹 配模型的准确性和稳定性。 其中, 目标用户可以是一个或者多个子用户, 在。

28、本申请中, 可以 基于不同领域应用场景确定时一个或则多个子用户作为目标用户。 0047 举例而言, 比如银行领域, 不同的银行机构之间查询文本存在差异性, 目标用户为 多个子用户即多个银行机构, 比如教育领域, 各个教育机构之间的查询文本差异性不大, 为 了提高训练效率, 目标用户为一个子用户即一个银行机构, 具体可以根据实际应用需要进 行选择设置。 0048 具体地, 获取目标用户提供的多个文本区块, 每个文本区块包括具有相似语义的 多条文本, 也就是说, 文本数据往往是一系列的具有相似语义文本的文本区块, 在每个文本 区块内的文本都具有相同的语义, 比如图2所示,“我想办理一张信用卡” 和。

29、 “怎么样可以开 张信用卡” 两个文本在同一文本区块1;“查询一下我的信用卡账单” 和 “信用卡账单还有多 少” 在同一文本区块2。 0049 可以理解的是, 每个文本区块内的文本都有相似语义, 如果随机从与它不同的文 本区块中采样其它文本作为负样本, 然后默认两个文本有不同的语义相似度, 这种随机负 采样的方式容易采样出一些不准确的负样本。 0050 举例而言, 比如 “我要开张卡” 与 “我要办理信用卡” 为语义相似的两个文本;“我要 开张卡” 与 “我要办理一张储蓄卡” 为语义不相似的两个文本, 但是 “我要开张卡” 与 “我要办 理一张储蓄卡” 属于不同的文本区块, 但是它们很有可能在。

30、一定程度上具有相似语义, 这样 的负样本会对训练的匹配模型的精确度有很大的影响, 以及随机采样生成的负样本比较简 单, 使得匹配模型无法学习到足够准确的知识, 也影响匹配模型的细粒度和精确度。 说明书 3/13 页 8 CN 111709247 A 8 0051 因此, 需要进一步从多个文本区块中获取与目标文本满足预设相似匹配条件的第 一文本集合。 其中, 预设相似匹配条件可以是一个或者多个。 0052 举例而言, 比如, 为了选取具有相似的表达形式, 但是却具有不同的语义信息的样 本作为负样本, 将两条文本有较高的词语重叠作为预设相似匹配条件, 再比如, 两条文本有 较高的语义相似度作为预设。

31、相似匹配条件等, 可以根据实际应用需要进行选择设置, 举例 说明如下: 0053 第一种示例, 对目标文本进行切词处理生成第一分词集合, 以及对多个文本区块 中每条文本进行切词处理生成多个第二分词集合, 将第一分词集合与每个第二分词集合进 行比较, 获取第一分词集合与每个第二分词集合之间的分词重复度, 将第一分词集合与每 个第二分词集合之间的分词重复度与预设阈值进行比较, 根据大于阈值的分词重复度对应 的第二分词集合生成第一文本集合。 0054 第二种示例, 获取目标文本对应的子向量、 文本向量和位置向量, 并将目标文本对 应的子向量、 文本向量和位置向量输入预设训练语言表示模型得到目标句向量。

32、, 获取多个 文本区块中每条文本对应的子向量、 文本向量和位置向量, 并将每条文本对应的子向量、 文 本向量和位置向量输入预设训练语言表示模型得到每条文本对应的句向量; 计算目标句向 量与每条文本对应的句向量之间的余弦相似度; 将余弦相似度与预设余弦阈值进行比较, 根据大于预设余弦阈值对应的文本生成第一文本集合。 0055 需要说明的是, 目标文本可以是多个文本区块中每一条文本都作为目标文本进行 数据集构造(即遍历每条文本), 可以是多个文本区块中部分文本都作为目标文本进行数据 集构造, 具体根据实际应用场景进行选择设置, 从而在保证训练出的模型精确度的同时提 高训练效率。 0056 步骤10。

33、2, 从第一文本集合中获取与目标文本不属于相同文本区块的第二文本集 合。 0057 步骤103, 根据第二文本集合中每条文本归属的候选文本区块内容生成目标文本 的负样本集合。 0058 具体地, 满足预设相似匹配条件的第一文本集合中各个文本属于多个文本区块, 需要从第一文本集合中获取与目标文本不属于相同文本区块的第二文本集合, 可以根据应 用场景进行选择设置, 举例说明如下: 0059 作为一种示例, 获取目标文本对应的区块标识, 获取第一文本集合中每条文本归 属的区块标识, 将每条文本归属的区块标识与目标文本对应的区块标识进行对比, 根据区 块标识不一致的文本生成第二文本集合。 0060 最。

34、后, 根据第二文本集合中每条文本归属的候选文本区块内容生成目标文本的负 样本集合, 作为一种可能实现方式, 获取第二文本集合中每条文本归属的候选文本区块内 容, 对每个候选文本区块中的多条文本进行文本组合生成第一负样本集合, 对不同候选文 本区块中的多条文本进行文本组合生成第二负样本集合, 根据第一负样本集合和第二负样 本集合生成目标文本的负样本集合。 0061 步骤104, 根据目标文本归属的目标文本区块内容生成目标文本的正样本集合。 0062 具体地, 目标文本具有文本区块标识, 从而根据文本区块标识可以确定目标文本 区块, 进一步可以获取目标文本区块内容, 也就是说目标文本区块中的多条文。

35、本, 通过对目 说明书 4/13 页 9 CN 111709247 A 9 标文本区块中的多条文本进行文本组合生成目标文本的正样本集合。 0063 当然, 还可以在获取目标文本区块中的多条文本后, 将与第二文本集合中匹配的 多条文本生成目标文本的正样本集合。 0064 步骤105, 根据负样本集合和正样本集合生成目标用户的数据集, 根据数据集训练 匹配模型识别文本相似度。 0065 具体地, 在目标用户包括一个子用户的应用场景, 可以根据负样本集合和正样本 集合生成目标用户的数据集; 在目标用户包括多个子用户的应用场景, 需要获取每个子用 户提供的多个文本区块, 根据负样本集合和正样本集合生成。

36、每个子用户对应的子数据集, 对每个子用户对应的子数据集进行组合生成候选数据集, 根据预设去重策略对候选数据集 进行去重处理, 生成目标用户的数据集, 从而提高数据集的领域通用性和适用性, 能够在特 定领域的任务对话上取得很好的效果。 0066 最后, 根据数据集训练匹配模型识别文本相似度的方式有很多种, 可以根据需要 进行选择设置, 举例说明如下: 0067 第一种示例, 获取第一查询语句和第二查询语句, 对第一查询语句进行编码生成 第一查询向量, 对第二查询语句进行编码生成第二查询向量, 对第一查询向量和第二查询 向量输入匹配模型输出匹配类别, 根据匹配类别确定第一查询语句和第二查询语句的文。

37、本 相似度。 0068 举例而言, 比如第一查询向量输入匹配模型输出匹配类别1和第二查询向量输入 匹配模型输出匹配类别2, 匹配类别1和匹配类别2不同, 则确定第一查询语句和第二查询语 句文本不相似; 再比如第一查询向量输入匹配模型输出匹配类别1和第二查询向量输入匹 配模型输出匹配类别1, 匹配类别1和匹配类别1相同, 则确定第一查询语句和第二查询语句 文本相似。 0069 第二种示例, 获取第一查询语句和第二查询语句, 将第一查询语句和第二查询语 句输入匹配模型进行句子对齐, 根据对齐结果确定第一查询语句和第二查询语句的文本相 似度。 0070 举例而言, 比如第一查询语句和第二查询语句输入。

38、匹配模型进行对齐得到对齐比 例为百分之九十五, 大于预设阈值百分之九十, 则确定第一查询语句和第二查询语句的相 似, 否则为不相似。 0071 本申请实施例的数据集处理方法, 通过获取目标用户提供的多个文本区块, 其中, 每个文本区块包括具有相似语义的多条文本, 从多个文本区块中获取与目标文本满足预设 相似匹配条件的第一文本集合; 从第一文本集合中获取与目标文本不属于相同文本区块的 第二文本集合; 根据第二文本集合中每条文本归属的候选文本区块内容生成目标文本的负 样本集合; 根据目标文本归属的目标文本区块内容生成目标文本的正样本集合; 根据负样 本集合和正样本集合生成目标用户的数据集, 根据数。

39、据集训练匹配模型识别文本相似度。 由此, 避免了随机采样中的假样本和数据比较简单的技术问题, 通过相似匹配条件匹配出 文本集合后再获取正样本集合和负样本集合生成数据集, 提高数据集的有效性, 从而提高 匹配模型的鲁棒性。 0072 基于上述实施例的描述, 可以理解基于不同的预设相似匹配条件获取到的第一文 本集合不同, 从而最后构建的数据集也不同, 为了本领域人员更加清楚如何获取与目标文 说明书 5/13 页 10 CN 111709247 A 10 本满足预设相似匹配条件的第一文本集合, 下面结合图3和图4以基于词频统计和基于句向 量进行计算匹配为例进行详细说明。 0073 具体地, 如图3所。

40、示, 在步骤101之后, 还包括: 0074 步骤201, 对目标文本进行切词处理生成第一分词集合, 以及对多个文本区块中每 条文本进行切词处理生成多个第二分词集合。 0075 步骤202, 将第一分词集合与每个第二分词集合进行比较, 获取第一分词集合与每 个第二分词集合之间的分词重复度。 0076 步骤203, 将第一分词集合与每个第二分词集合之间的分词重复度与预设阈值进 行比较, 根据大于阈值的分词重复度对应的第二分词集合生成第一文本集合。 0077 具体地, 通过预设切词算法对目标文本进行切词处理生成第一分词集合, 也就是 第一分词集合中包括目标文本对应的一个或者多个分词, 以及对多个文。

41、本区块中每条文本 进行切词处理生成多个第二分词集合。 0078 进一步地, 将第一分词集合与每个第二分词集合进行比较, 获取第一分词集合与 每个第二分词集合之间的分词重复度, 也就是说, 目标文本与多个文本区块中每条文本之 间的词语重叠的具体情况通过分词重复度便可以快速了解, 进一步将分词重复度大于预设 阈值的分词重复度对应的第二分词集合生成第一文本集合。 0079 也就是说, 目标文本与多个文本区块中每条文本之间的词语重叠的个数大于一定 阈值才确定该文本作为第一文本集合中的文本, 从而实现选取具有相似的表达形式, 但是 具有不同的语义信息的文本, 比如 “我想要办理一张信用卡” 和 “我想要。

42、办理一张储蓄卡” 表 达式比较相近, 其实上语义信息不同的文本, 这些的文本后续作为训练样本可以使得模型 能够很好地区分语义信息和句子表达形式之间的不同。 0080 具体地, 如图4所示, 在步骤101之后, 还包括: 0081 步骤301, 获取目标文本对应的子向量、 文本向量和位置向量, 并将目标文本对应 的子向量、 文本向量和位置向量输入预设训练语言表示模型得到目标句向量。 0082 步骤302, 获取多个文本区块中每条文本对应的子向量、 文本向量和位置向量, 并 将每条文本对应的子向量、 文本向量和位置向量输入预设训练语言表示模型得到每条文本 对应的句向量。 0083 步骤303, 计。

43、算目标句向量与每条文本对应的句向量之间的余弦相似度。 0084 步骤304, 将余弦相似度与预设余弦阈值进行比较, 根据大于预设余弦阈值对应的 文本生成第一文本集合。 0085 具体地, 为了进一步提高模型的稳定性, 基于图3实施例获取的文本作为第一文本 集合外还可以结合语义相似度获取文本加入到第一文本集合中, 实现选取一些具有一定的 语义相似性, 但是往往内容并不真正相同的文本, 比如 “我想要开通一张信用卡” 和 “我刚开 的信用卡有多少额度” , 这些的文本后续作为训练样本可以使模型学习到细粒度更高并且 更精准地区分语义相似地程度。 0086 具体地, 获取目标文本对应的子向量、 文本向。

44、量和位置向量, 并将目标文本对应的 子向量、 文本向量和位置向量输入预设训练语言表示模型得到目标句向量, 计算目标句向 量与每条文本对应的句向量之间的余弦相似度大于预设余弦阈值对应的文本生成第一文 本集合。 其中, 可以选择使用循环神经网络或者是卷积神经网络预选针对文本样本训练生 说明书 6/13 页 11 CN 111709247 A 11 成。 0087 由此, 使用预设训练语言表示模型, 可以更好地表征整个文本的上下文的关系, 而 不是单独把每个词语作为独立的一部分, 举个例子, 比如” 苹果” , 在和水果相关的语义环境 和在手机相关的语义环境中是完全不同的, 本申请考虑到文本中的词语。

45、顺序以及词语的依 存关系, 在训练的过程中就是正对整个文本的上下文, 提高语义相似度计算的精确度, 从而 提高匹配模型的识别结果。 0088 基于上述实施例的描述, 还可以了解的是, 获取与目标文本满足预设相似匹配条 件的第一文本集合中文本的数量不一定是本申请构建数据集的预设数量阈值, 因此, 需要 进一步筛选来提高训练效率。 0089 具体地, 如图5所示, 在步骤101之后, 还包括: 0090 步骤401, 获取第一文本集合中的文本数量, 并判断文本数量是否大于预设数量阈 值。 0091 步骤402, 若文本数量大于预设数量阈值, 则根据数量阈值对第一文本集合中的文 本进行删除处理, 使。

46、文本数量等于数量阈值。 0092 在实际应用中, 可以根据不同的应用场景设置不同的数量阈值, 即选择多少数量 的文本作为训练样本, 因此, 获取第一文本集合中的文本数量, 并判断文本数量是否大于预 设数量阈值, 文本数量大于预设数量阈值, 则根据数量阈值对第一文本集合中的文本进行 删除处理, 使文本数量等于数量阈值, 其中, 删除处理可以是随机删除, 进一步提高样本的 随机性。 0093 图6是根据本申请第五实施例提供的数据集处理方法的流程示意图。 0094 步骤501, 获取每个子用户提供的多个文本区块, 从多个文本区块中获取与目标文 本满足预设相似匹配条件的第一文本集合。 0095 具体地。

47、, 本实施针对的是目标用户包括多个子用户的应用场景, 为了数据集的领 域通用性, 需要针对每一个子用户对应的子数据集进行组合生成候选数据集, 根据预设去 重策略对候选数据集进行去重处理, 生成目标用户的数据集。 0096 具体地, 获取每个子用户提供的多个文本区块, 从多个文本区块中获取与目标文 本满足预设相似匹配条件的第一文本集合, 其中, 预设相似匹配条件可以是一个或者多个, 比如, 为了选取具有相似的表达形式, 但是却具有不同的语义信息的样本作为负样本, 将两 条文本有较高的词语重叠作为预设相似匹配条件, 再比如, 两条文本有较高的语义相似度 作为预设相似匹配条件等, 可以根据实际应用需。

48、要进行选择设置。 0097 步骤502, 获取目标文本对应的区块标识, 获取第一文本集合中每条文本归属的区 块标识, 将每条文本归属的区块标识与目标文本对应的区块标识进行对比, 根据区块标识 不一致的文本生成第二文本集合。 0098 可以理解的是, 目标文本具有区块标识, 以及获取第一文本集合中每条文本归属 的区块标识, 将每条文本归属的区块标识与目标文本对应的区块标识进行对比, 比如目标 文本的区块标识01与文本1归属的区块标识一致, 目标文本的区块标识01与文本2归属的区 块标识02不一致, 确定文本2存入第二文本集合。 0099 步骤503, 获取第二文本集合中每条文本归属的候选文本区块。

49、内容, 对每个候选文 本区块中的多条文本进行文本组合生成第一负样本集合。 说明书 7/13 页 12 CN 111709247 A 12 0100 步骤504, 对不同候选文本区块中的多条文本进行文本组合生成第二负样本集合, 根据第一负样本集合和第二负样本集合生成目标文本的负样本集合。 0101 具体地, 第二文本集合中的文本可能归属同一个或者不同的文本区块, 根据第二 文本集合中的文本的区块标识确定多个候选文本区块, 根据候选文本区块中的多条文本进 行文本组合生成第一负样本集合, 进一步将不同候选文本区块中的多条文本进行文本组合 生成第二负样本集合, 根据第一负样本集合和第二负样本集合生成目。

50、标文本的负样本集 合。 0102 从而, 通过在每个候选文本区块中的多条文本进行文本组合生成第一负样本集 合, 以及不同候选文本区块中的多条文本进行文本组合生成第二负样本集合最后生成目标 文本的负样本集合, 进一步提高文本的随机性, 从而提高训练样本的随机性, 提高匹配模型 的识别精确度。 0103 步骤505, 获取目标文本归属的目标文本区块内容, 对目标文本区块中的多条文本 进行文本组合生成目标文本的正样本集合。 0104 具体地, 目标文本具有文本区块标识, 从而根据文本区块标识可以确定目标文本 区块, 进一步可以获取目标文本区块内容, 也就是说目标文本区块中的多条文本, 通过对目 标文。

展开阅读全文
内容关键字: 数据 处理 方法 装置 电子设备 存储 介质
关于本文
本文标题:数据集处理方法、装置、电子设备和存储介质.pdf
链接地址:https://www.zhuanlichaxun.net/pdf/10342809.html
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1