游戏领域的知识图谱关系匹配方法、模型构建方法及装置.pdf
《游戏领域的知识图谱关系匹配方法、模型构建方法及装置.pdf》由会员分享,可在线阅读,更多相关《游戏领域的知识图谱关系匹配方法、模型构建方法及装置.pdf(21页完成版)》请在专利查询网上搜索。
1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202010191888.7 (22)申请日 2020.03.18 (71)申请人 广州多益网络股份有限公司 地址 510000 广东省广州市黄埔区伴河路 90号 申请人 广东利为网络科技有限公司 多益网络有限公司 (72)发明人 徐波 (74)专利代理机构 广州三环专利商标代理有限 公司 44202 代理人 麦小婵郝传鑫 (51)Int.Cl. G06F 16/36(2019.01) G06F 40/216(2020.01) (54)发明名称 游戏领域的知识图谱关系匹配方法、 。
2、模型构 建方法及装置 (57)摘要 本发明公开了一种游戏领域的知识图谱关 系匹配模型构建方法, 包括: 获取开放领域的关 系匹配数据集; 基于TFIDF文本相似度的方法, 从 所述开放领域的关系匹配数据集中获取适用于 所述游戏领域的关系匹配数据集; 采集开放领域 的自由文本, 并对所述开放领域的自由文本进行 预训练, 构建语言模型; 其中, 所述语言模型为知 识图谱关系匹配所需的模型结构; 根据所述游戏 领域的关系匹配数据集, 对所述语言模型进行增 量训练, 以构建所述游戏领域的知识图谱关系匹 配模型。 采用本发明实施例, 通过数据迁移的方 法构建游戏领域的知识图谱关系匹配模型, 解决 了游戏。
3、领域数据不足的问题, 提高了对游戏领域 的知识图谱关系匹配的精准性和高效性。 权利要求书3页 说明书12页 附图5页 CN 111538843 A 2020.08.14 CN 111538843 A 1.一种游戏领域的知识图谱关系匹配模型构建方法, 其特征在于, 包括: 获取开放领域的关系匹配数据集; 基于TFIDF文本相似度的方法, 从所述开放领域的关系匹配数据集中获取适用于所述 游戏领域的关系匹配数据集; 采集开放领域的自由文本, 并对所述开放领域的自由文本进行预训练, 构建语言模型; 其中, 所述语言模型为知识图谱关系匹配所需的模型结构; 根据所述游戏领域的关系匹配数据集, 对所述语言模。
4、型进行增量训练, 以构建所述游 戏领域的知识图谱关系匹配模型。 2.如权利要求1所述的游戏领域的知识图谱关系匹配模型构建方法, 其特征在于, 所述 获取开放领域的关系匹配数据集, 包括: 采集开放领域的知识图谱和问答数据集; 其中, 所述问答数据集中包括至少一个问答 对; 将所述问答数据集中的问答对和所述知识图谱中的三元组进行对齐操作, 为每一问答 对匹配对应的目标三元组; 将所述问答对的问题与对应目标三元组的关系构造 “问题-关系” 的关系匹配数据, 以 形成所述开放领域的关系匹配数据集。 3.如权利要求2所述的游戏领域的知识图谱关系匹配模型构建方法, 其特征在于, 所述 将所述问答数据集中。
5、的问答对和所述知识图谱中的三元组进行对齐操作, 为每一问答对匹 配对应的目标三元组, 包括: 对所述开放领域的知识图谱中三元组的客体建立反向索引; 针对每一问答对, 从所述开放领域的知识图谱中检索出客体为所述问答对的答案的备 选三元组; 计算每一所述备选三元组中的主体与关系在所述问答对的问题中的相似度, 并获取相 似度最高的备选三元组作为所述问答对的目标三元组。 4.如权利要求3所述的游戏领域的知识图谱关系匹配模型构建方法, 其特征在于, 采用 基于lcs字符匹配的相似度算法, 计算每一所述备选三元组中的主体与关系在所述问答对 的问题中的相似度。 5.如权利要求1所述的游戏领域的知识图谱关系匹。
6、配模型构建方法, 其特征在于, 所述 基于TFIDF文本相似度的方法, 从所述开放领域的关系匹配数据集中获取适用于所述游戏 领域的关系匹配数据集, 包括: 分别采集开放领域的自由文本集合和所述游戏领域的自由文本集合; 依次获取所述开放领域的关系匹配数据集中的关系匹配数据, 作为待定关系匹配数 据; 计算所述待定关系匹配数据中的问题在所述开放领域的自由文本集合中的TFIDF值, 作为开放领域分布量; 计算所述待定关系匹配数据中的问题在所述游戏领域的自由文本集合中的TFIDF值, 作为游戏领域分布量; 当所述待定关系匹配数据的开放领域分布量与游戏领域分布量的差值小于第一预设 阈值时, 将所述待定关。
7、系匹配数据作为目标关系匹配数据, 并加入所述游戏领域的关系匹 权利要求书 1/3 页 2 CN 111538843 A 2 配数据集。 6.如权利要求5所述的游戏领域的知识图谱关系匹配模型构建方法, 其特征在于, 所述 当所述待定关系匹配数据的开放领域分布量与游戏领域分布量的差值小于第一预设阈值 时, 将所述待定关系匹配数据作为目标关系匹配数据, 并加入所述游戏领域的关系匹配数 据集之后, 包括: 计算所述游戏领域的关系匹配数据集中每一目标关系匹配数据的关系与预设的游戏 领域知识图谱中的关系的相似度; 根据相似度大于第二预设阈值的游戏领域知识图谱的关系, 扩增与其对应的目标关系 匹配数据, 以。
8、扩增后的关系匹配数据集作为所述游戏领域的关系匹配数据集。 7.如权利要求1所述的游戏领域的知识图谱关系匹配模型构建方法, 其特征在于, 所述 采集开放领域的自由文本, 并对所述开放领域的自由文本进行预训练, 构建语言模型, 包 括: 采集开放领域的自由文本, 并采用transformer架构预训练得到第一语言模型; 在所述第一语言模型中增加双向LSTM层和attention层, 并最后连接sigmoid函数, 以 形成所述语言模型。 8.一种游戏领域的知识图谱关系匹配模型构建装置, 其特征在于, 包括: 第一数据集获取模块, 用于获取开放领域的关系匹配数据集; 第二数据集获取模块, 用于基于T。
9、FIDF文本相似度的方法, 从所述开放领域的关系匹配 数据集中获取适用于所述游戏领域的关系匹配数据集; 语言模型构建模块, 用于采集开放领域的自由文本, 并对所述开放领域的自由文本进 行预训练, 构建语言模型; 其中, 所述语言模型为知识图谱关系匹配所需的模型结构; 关系匹配模型构建模块, 用于根据所述游戏领域的关系匹配数据集, 对所述语言模型 进行增量训练, 以构建所述游戏领域的知识图谱关系匹配模型。 9.一种游戏领域的知识图谱关系匹配方法, 其特征在于, 通过如权利要求1-7任一项所 述的游戏领域的知识图谱关系匹配模型构建方法所构建的知识图谱关系匹配模型进行关 系匹配, 包括: 识别输入问。
10、题中的实体; 在游戏领域知识图谱中, 获取包括所述输入问题的实体的所有三元组中的关系, 作为 候选关系; 将所述输入问题和所述候选关系作为所述游戏领域的知识图谱关系匹配模型的输入 量, 根据所述游戏领域的知识图谱关系匹配模型的计算结果, 返回所述输入问题对应的目 标关系。 10.一种游戏领域的知识图谱关系匹配装置, 其特征在于, 用于实现如权利要求9所述 的游戏领域的知识图谱关系匹配方法, 包括: 问题实体识别模块, 用于识别输入问题中的实体; 候选关系获取模块, 用于在游戏领域知识图谱中, 获取包括所述输入问题的实体的所 有三元组中的关系, 作为候选关系; 目标关系输出模块, 用于将所述输入。
11、问题和所述候选关系作为所述游戏领域的知识图 谱关系匹配模型的输入量, 根据所述游戏领域的知识图谱关系匹配模型的计算结果, 返回 权利要求书 2/3 页 3 CN 111538843 A 3 所述输入问题对应的目标关系。 权利要求书 3/3 页 4 CN 111538843 A 4 游戏领域的知识图谱关系匹配方法、 模型构建方法及装置 技术领域 0001 本发明涉及语言处理技术领域, 尤其涉及一种游戏领域的知识图谱关系匹配方 法、 模型构建方法及装置。 背景技术 0002 知识图谱以三元组的形式存储知识, 一条知识被表示成 “主体, 关系, 客体” 的形 式, 其中主体和客体通常为命名实体, 而。
12、关系通常为属性。 知识图谱用于问答系统的原理 为: 解析输入问题中的主体和关系, 与知识图谱的知识进行匹配, 返回知识图谱中对应的客 体作为答案。 从输入问题中识别出知识图谱对应的关系的任务称为关系匹配。 0003 现有技术中, 通常采用基于语义解析或基于机器学习的方法实现关系匹配任务。 基于语义解析的方法通过解析问题的句子结构, 抽取出表示关系的词汇, 再通过预先构建 好的匹配库将词汇与知识图谱的关系匹配; 基于机器学习的方法通过训练语料将问句和知 识图谱关系都转成某种向量化表达形式, 计算相似度找出和问句表述最相似的知识图谱关 系。 0004 然而, 在实施本发明过程中, 发明人发现现有技。
13、术至少存在如下问题: 游戏领域构 造的世界与现实世界存在不同, 有的基于现实世界, 有的基于虚构的异世界, 因而针对游戏 领域的问答系统, 往往没有足够的数据积累, 无法为机器学习提供大量有效的训练语料。 而 采用语义解析的方法需要耗费大量的人力进行数据标注或总结规则, 人工干预过多, 并且 对问句形式要求严格, 需投入的人工和时间成本较大。 发明内容 0005 本发明实施例的目的是提供一种游戏领域的知识图谱关系匹配方法、 模型构建方 法及装置, 其通过数据迁移的方法构建游戏领域的知识图谱关系匹配模型, 解决了游戏领 域数据不足的问题, 提高了对游戏领域的知识图谱关系匹配的精准性和高效性。 0。
14、006 为实现上述目的, 本发明实施例提供了一种游戏领域的知识图谱关系匹配模型构 建方法, 包括: 0007 获取开放领域的关系匹配数据集; 0008 基于TFIDF文本相似度的方法, 从所述开放领域的关系匹配数据集中获取适用于 所述游戏领域的关系匹配数据集; 0009 采集开放领域的自由文本, 并对所述开放领域的自由文本进行预训练, 构建语言 模型; 其中, 所述语言模型为知识图谱关系匹配所需的模型结构; 0010 根据所述游戏领域的关系匹配数据集, 对所述语言模型进行增量训练, 以构建所 述游戏领域的知识图谱关系匹配模型。 0011 作为上述方案的改进, 所述获取开放领域的关系匹配数据集,。
15、 包括: 0012 采集开放领域的知识图谱和问答数据集; 其中, 所述问答数据集中包括至少一个 问答对; 说明书 1/12 页 5 CN 111538843 A 5 0013 将所述问答数据集中的问答对和所述知识图谱中的三元组进行对齐操作, 为每一 问答对匹配对应的目标三元组; 0014 将所述问答对的问题与对应目标三元组的关系构造 “问题-关系” 的关系匹配数 据, 以形成所述开放领域的关系匹配数据集。 0015 作为上述方案的改进, 所述将所述问答数据集中的问答对和所述知识图谱中的三 元组进行对齐操作, 为每一问答对匹配对应的目标三元组, 包括: 0016 对所述开放领域的知识图谱中三元组。
16、的客体建立反向索引; 0017 针对每一问答对, 从所述开放领域的知识图谱中检索出客体为所述问答对的答案 的备选三元组; 0018 计算每一所述备选三元组中的主体与关系在所述问答对的问题中的相似度, 并获 取相似度最高的备选三元组作为所述问答对的目标三元组。 0019 作为上述方案的改进, 采用基于lcs字符匹配的相似度算法, 计算每一所述备选三 元组中的主体与关系在所述问答对的问题中的相似度。 0020 作为上述方案的改进, 所述基于TFIDF文本相似度的方法, 从所述开放领域的关系 匹配数据集中获取适用于所述游戏领域的关系匹配数据集, 包括: 0021 分别采集开放领域的自由文本集合和所述。
17、游戏领域的自由文本集合; 0022 依次获取所述开放领域的关系匹配数据集中的关系匹配数据, 作为待定关系匹配 数据; 0023 计算所述待定关系匹配数据中的问题在所述开放领域的自由文本集合中的TFIDF 值, 作为开放领域分布量; 0024 计算所述待定关系匹配数据中的问题在所述游戏领域的自由文本集合中的TFIDF 值, 作为游戏领域分布量; 0025 当所述待定关系匹配数据的开放领域分布量与游戏领域分布量的差值小于第一 预设阈值时, 将所述待定关系匹配数据作为目标关系匹配数据, 并加入所述游戏领域的关 系匹配数据集。 0026 作为上述方案的改进, 所述当所述待定关系匹配数据的开放领域分布量。
18、与游戏领 域分布量的差值小于第一预设阈值时, 将所述待定关系匹配数据作为目标关系匹配数据, 并加入所述游戏领域的关系匹配数据集之后, 包括: 0027 计算所述游戏领域的关系匹配数据集中每一目标关系匹配数据的关系与预设的 游戏领域知识图谱中的关系的相似度; 0028 根据相似度大于第二预设阈值的游戏领域知识图谱的关系, 扩增与其对应的目标 关系匹配数据, 以扩增后的关系匹配数据集作为所述游戏领域的关系匹配数据集。 0029 作为上述方案的改进, 所述采集开放领域的自由文本, 并对所述开放领域的自由 文本进行预训练, 构建语言模型, 包括: 0030 采集开放领域的自由文本, 并采用transf。
19、ormer架构预训练得到第一语言模型; 0031 在所述第一语言模型中增加双向LSTM层和attention层, 并最后连接sigmoid函 数, 以形成所述语言模型。 0032 本发明实施例还提供了一种游戏领域的知识图谱关系匹配模型构建装置, 包括: 0033 第一数据集获取模块, 用于获取开放领域的关系匹配数据集; 说明书 2/12 页 6 CN 111538843 A 6 0034 第二数据集获取模块, 用于基于TFIDF文本相似度的方法, 从所述开放领域的关系 匹配数据集中获取适用于所述游戏领域的关系匹配数据集; 0035 语言模型构建模块, 用于采集开放领域的自由文本, 并对所述开放。
20、领域的自由文 本进行预训练, 构建语言模型; 其中, 所述语言模型为知识图谱关系匹配所需的模型结构; 0036 关系匹配模型构建模块, 用于根据所述游戏领域的关系匹配数据集, 对所述语言 模型进行增量训练, 以构建所述游戏领域的知识图谱关系匹配模型。 0037 本发明实施例还提供了一种游戏领域的知识图谱关系匹配方法, 通过如上任一项 所述的游戏领域的知识图谱关系匹配模型构建方法所构建的知识图谱关系匹配模型进行 关系匹配, 包括: 0038 识别输入问题中的实体; 0039 在游戏领域知识图谱中, 获取包括所述输入问题的实体的所有三元组中的关系, 作为候选关系; 0040 将所述输入问题和所述候。
21、选关系作为所述游戏领域的知识图谱关系匹配模型的 输入量, 根据所述游戏领域的知识图谱关系匹配模型的计算结果, 返回所述输入问题对应 的目标关系。 0041 本发明实施例还提供了一种游戏领域的知识图谱关系匹配装置, 用于实现如上所 述的游戏领域的知识图谱关系匹配方法, 包括: 0042 问题实体识别模块, 用于识别输入问题中的实体; 0043 候选关系获取模块, 用于在游戏领域知识图谱中, 获取包括所述输入问题的实体 的所有三元组中的关系, 作为候选关系; 0044 目标关系输出模块, 用于将所述输入问题和所述候选关系作为所述游戏领域的知 识图谱关系匹配模型的输入量, 根据所述游戏领域的知识图谱。
22、关系匹配模型的计算结果, 返回所述输入问题对应的目标关系。 0045 与现有技术相比, 本发明公开的一种游戏领域的知识图谱关系匹配模型构建方 法、 装置, 基于TFIDF文本相似度的方法, 从采集到的开放领域的关系匹配数据集中获取并 进一步扩增, 得到适用于所述游戏领域的关系匹配数据集。 利用开放领域数据资源丰富的 特点, 通过数据迁移和数据扩增的方法, 解决了游戏领域的关系匹配数据资源缺乏的问题。 接着, 采用开放领域的自由文本预训练出语言模型并进行微调, 再根据获取到的游戏领域 的关系匹配数据集, 对预训练的语言模型进行增量训练, 从而构建一个游戏领域的知识图 谱关系匹配模型, 用于完成游。
23、戏领域的关系匹配任务。 借助通用的语言模型进行微调和训 练, 解决自然语言中表述多样性导致关系匹配困难的问题。 且不需要大量的人工标注, 有效 地节省了人力和时间资源。 本发明公开的一种游戏领域的知识图谱关系匹配方法、 装置, 在 采用所构建的游戏领域的知识图谱关系匹配模型进行关系匹配任务时, 先对输入问题的实 体进行识别, 再根据实体找出该游戏领域知识图谱中和该实体相关的三元组关系, 作为候 选关系。 最后将输入问题和所有候选关系输入预先构建的知识图谱关系匹配模型, 返回所 述输入问题对应的目标关系, 能够有效地减少关系匹配任务的计算量, 提供了关系匹配效 率。 同时预先排除了干扰项, 提高。
24、了关系匹配的准确性。 说明书 3/12 页 7 CN 111538843 A 7 附图说明 0046 图1是本发明实施例一提供的一种游戏领域的知识图谱关系匹配模型构建方法的 步骤流程示意图; 0047 图2是本发明实施例一中游戏领域的知识图谱关系匹配模型构建方法的步骤S11 的流程示意图; 0048 图3是本发明实施例一中游戏领域的知识图谱关系匹配模型构建方法的步骤S12 的流程示意图; 0049 图4是本发明实施例一中的语言模型的结构示意图; 0050 图5是本发明实施例二提供的一种游戏领域的知识图谱关系匹配模型构建装置的 结构示意图; 0051 图6是本发明实施例三提供的一种游戏领域的知识。
25、图谱关系匹配方法的步骤流程 示意图; 0052 图7是本发明实施例四提供的一种游戏领域的知识图谱关系匹配装置的结构示意 图。 具体实施方式 0053 下面将结合本发明实施例中的附图, 对本发明实施例中的技术方案进行清楚、 完 整地描述, 显然, 所描述的实施例仅仅是本发明一部分实施例, 而不是全部的实施例。 基于 本发明中的实施例, 本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他 实施例, 都属于本发明保护的范围。 0054 参见图1, 是本发明实施例一提供的一种游戏领域的知识图谱关系匹配模型构建 方法的步骤流程示意图。 本发明实施例所述的游戏领域的知识图谱关系匹配模型构建方 法。
26、, 通过步骤S11至S14执行: 0055 S11、 获取开放领域的关系匹配数据集。 0056 知识图谱以三元组的形式存储知识, 也即 “主体, 关系, 客体” 的形式, 其中主体和 客体通常为命名实体, 而关系通常为属性。 知识图谱问答数据由问题和对应的答案组成, 问 题中包括头实体和关系, 答案中包括尾实体。 从问题中识别出对应知识图谱的关系的过程 称为关系匹配。 开放领域的关系匹配数据集(Q-R)即为开放领域中, 由问答数据的问题Q和 对应的知识图谱的关系R匹配而成的数据集合。 由于开放领域具有较完善的数据积累, 通过 获取开放领域的关系匹配数据集, 为后续构造游戏领域的知识图谱关系匹配。
27、模型提供数据 基础。 0057 优选地, 参见图2, 是本发明实施例一中游戏领域的知识图谱关系匹配模型构建方 法的步骤S11的流程示意图。 步骤S11通过步骤S111至S113执行: 0058 S111、 采集开放领域的知识图谱和问答数据集; 其中, 所述问答数据集中包括至少 一个问答对。 0059 收集开放领域的知识图谱和大量问答数据集。 所述知识图谱为 “主体, 关系, 客体” 的三元组格式, 作为举例, 所述开放领域的知识图谱包括: 0060 0061 说明书 4/12 页 8 CN 111538843 A 8 0062 所述问答数据集包括若干个问答对(QA对), 所述问答对由包括 “头。
28、实体” 和 “关系” 的问题Q, 及包括 “尾实体” 的答案A构成。 作为举例, 所述开放领域的问答数据集包括: 0063 Q: 切诺比核电站在哪? 0064 A: 乌克兰普里皮亚季 0065 S112、 将所述问答数据集中的问答对和所述知识图谱中的三元组进行对齐操作, 为每一问答对匹配对应的目标三元组。 0066 S113、 将所述问答对的问题与对应目标三元组的关系构造 “问题-关系” 的关系匹 配数据, 以形成所述开放领域的关系匹配数据集。 0067 将收集的开放领域的知识图谱和问答数据集进行对齐, 从而形成所述开放领域的 关系匹配数据集Q-R。 0068 具体地, 步骤S112通过步骤S。
29、1121至S1123执行: 0069 S1121、 对所述开放领域的知识图谱中三元组的客体建立反向索引; 0070 S1122、 针对每一问答对, 从所述开放领域的知识图谱中检索出客体为所述问答对 的答案的备选三元组; 0071 S1123、 计算每一所述备选三元组中的主体与关系在所述问答对的问题中的相似 度, 并获取相似度最高的备选三元组作为所述问答对的目标三元组。 0072 具体地, 对开放领域的知识图谱中的每一个三元组 “主体, 关系, 客体” 的客体建立 反向索引, 遍历所述问答数据集中的每一问答对(QA对), 从开放领域知识图谱中检索出客 体为所述问答对的答案的备选三元组。 接着, 。
30、计算每一备选三元组的 “主体” 和 “关系” , 在所 述问答对的 “问题” 中的相似度, 并获取相似度最高的备选三元组作为该问答对的目标三元 组, 从而完成开放领域知识图谱的三元组和问答数据集的问答对的对齐操作。 0073 作为举例, 针对开放领域的问答数据集中的某一条QA对: 0074 Q: 故宫在哪? 0075 A: 北京 0076 从开放领域的知识图谱中检索到客体为北京的三元组, 则作为该QA对的备选三元 组, 如: 和等 0077 通过分别计算上述多个备选三元组中的主体与关系如 “故宫和地点” 、“中国和首 都” 等与该QA对的问题Q的相似度, 得到的相似度最高, 从而将备选三元 组。
31、作为该QA对的目标三元组。 0078 对齐后的数据格式形如: 0079 Q: 故宫在哪? 0080 T: 0081 A: 北京 0082 将问题Q中的头实体使用特定字符串进行掩盖, 并构造关系匹配数据(Q-R), 其中, R表示关系,“(entity)” 为实体掩码。 0083 Q: (entity)在哪? 0084 R: 地点 0085 对收集到的问答数据集中的每一QA对匹配相应的知识图谱三元组, 从而构建若干 个关系匹配数据, 形成所述开放领域的关系匹配数据集。 说明书 5/12 页 9 CN 111538843 A 9 0086 需要说明的是, 当问答数据集中的某一QA对没有检索到对应的。
32、备选三元组时, 则 将该条QA对的数据丢弃, 从而保证最终形成的关系匹配数据集的准确性与简洁性。 0087 可以理解地, 上述所涉及到的场景和数据仅作为举例, 根据实际情况将采集的知 识图谱的三元组与问答数据集的QA对进行对齐, 均不影响本发明取得的有益效果。 0088 作为优选的实施方式, 采用基于lcs字符匹配的相似度算法, 计算每一所述备选三 元组中的主体与关系在所述问答对的问题中的相似度sim(Q,T)。 两个字符串的最长公共子 序列长度用lcs_length()表示, 字符串长度用len()表示。 相似度sim(Q,T)的计算方法如 下: 0089 0090 其中, Q为所述问答对中。
33、的问题, T为对应的备选三元组, 备选三元组中的主体、 关 系、 客体分别为h、 r、 t。 0091 作为举例, 对以下QA对中的问题Q和备选三元组T, 0092 Q: 切诺比核电站在哪? 0093 T: 0094 相似度Sim(Q, T)(6+0)/(8+2)0.6 0095 通过基于lcs字符匹配的相似度算法, 计算问答对中的问题与备选三元组的相似 度, 计算过程简单快捷, 操作方便。 0096 S12、 基于TFIDF文本相似度的方法, 从所述开放领域的关系匹配数据集中获取适 用于所述游戏领域的关系匹配数据集。 0097 需要说明的是, 本实施例中的游戏领域为某一具体游戏的领域数据, 。
34、在游戏领域 中, 游戏领域的数据资源较少, 且其设定的世界观与现实世界存在一定的差异性, 许多开放 领域的数据不能完全使用。 因此, 在获取到开放领域的关系匹配数据集后, 通过TFIDF文本 相似度的方法, 比较每一开放领域的关系匹配数据在开放领域的文本语料和在游戏领域的 文本语料中的分布差异, 当计算得到任一开放领域的关系匹配数据在开放领域和在游戏领 域的文本语料中的分布差异较小时, 表明该开放领域的关系匹配数据适用于所述游戏领 域, 将其作为游戏领域的关系匹配数据, 以此筛选出所述游戏领域的关系匹配数据集。 0098 作为优选的实施方式, 参见图3, 是本发明实施例一中游戏领域的知识图谱关。
35、系匹 配模型构建方法的步骤S12的流程示意图。 步骤S12通过步骤S121至S125执行: 0099 S121、 分别采集开放领域的自由文本集合和所述游戏领域的自由文本集合。 0100 分别在开放领域和所述游戏领域中采集一定量的自由文本, 记开放领域的自由文 本集合为A, 所述游戏领域的自由文本集合为B。 0101 S122、 依次获取所述开放领域的关系匹配数据集中的关系匹配数据, 作为待定关 系匹配数据。 0102 S123、 计算所述待定关系匹配数据中的问题在所述开放领域的自由文本集合中的 TFIDF值, 作为开放领域分布量。 0103 S124、 计算所述待定关系匹配数据中的问题在所述游。
36、戏领域的自由文本集合中的 TFIDF值, 作为游戏领域分布量。 0104 具体地, 将当前获取的开放领域的关系匹配数据作为待定关系匹配数据, 计算所 说明书 6/12 页 10 CN 111538843 A 10 述待定关系匹配数据中的问题Q在文本集合A和B中的TFIDF值, 即为开放领域分布量 tfidfQ,A和游戏领域分布量tfidfQ,B。 0105 S125、 当所述待定关系匹配数据的开放领域分布量与游戏领域分布量的差值小于 第一预设阈值时, 将所述待定关系匹配数据作为目标关系匹配数据, 并加入所述游戏领域 的关系匹配数据集。 0106 当问题Q在文本集合A和B中的TFIDF值之差|t。
37、fidfQ,A-tfidfQ,B|小于第一预设阈值 1时, 表明问题Q在文本集合A和B中的分布量相近, 该待定关系匹配数据在开放领域和所述 游戏领域中具有相似的适用性, 将所述待定关系匹配数据作为目标关系匹配数据, 并加入 所述游戏领域的关系匹配数据集中。 接着, 在开放领域关系匹配数据集中获取下一个关系 匹配数据, 作为待定关系匹配数据进行TFIDF文本相似度计算。 0107 可以理解的, 所述第一预设阈值 1为预先设置的数值, 可以根据实际应用情况具 体设置, 在此不做具体限定。 0108 优选地, 待定关系匹配数据中的问题Q在文本集合A和B中的TFIDF值的计算方法如 下: 0109 S。
38、101、 将所述待定关系匹配数据中的问题进行分词预处理; 0110 S102、 计算所述待定关系匹配数据的问题中每一词语i在自由文本集合k中的 TFIDF值tfidfi,k; 其中, 所述自由文本集合k包括: 开放领域的自由文本集合A和游戏领域的 自由文本集合B。 k表示A或B。 0111 S103、 对所述待定关系匹配数据的问题中每一词语i的tfidfi,k取平均值, 作为所 述待定关系匹配数据中的问题在所述自由文本集合中的TFIDF值。 也即, 0112 0113 其中, m表示问题Q进行分词处理后的词汇数量。 0114 具体地, 通过以下计算方式, 计算词汇i在当前的自由文本集合k中的T。
39、FIDF值 tfidfi,k: 0115 tfidfi,ktfiidfi; 0116 0117 0118 其中, tfi表示词频, idfi表示逆文档频; ni为词语i在自由文本集合k出现的次数, nk为自由文本集合k的总词数; |k|为自由文本集合k中的文档数量, (j:widi)为词汇i在自 由文本集合k的文档中出现的文档数量。 0119 逆文档频是词语的普遍重要性的度量, 其值越高说明该词语在文本集合中越典 型。 通过词语i的词频和逆文档频的乘积, 计算词汇i的TFIDF值, 从而进一步计算得到待定 关系匹配数据的问题Q的TFIDF值, 以衡量问题Q在两个自由文本集合中的分布量。 012。
40、0 采用本发明实施例的技术手段, 能够更准确地从开放领域的关系匹配数据集中筛 选出合适的游戏领域的关系匹配数据。 说明书 7/12 页 11 CN 111538843 A 11 0121 进一步地, 参见图3, 在所述开放领域的关系匹配数据集中筛选出所述游戏领域的 关系匹配数据集后, 为了增加在所述游戏领域中的覆盖度, 需要对所述游戏领域的关系匹 配数据集进行扩增处理, 以使所述游戏领域的关系匹配数据集更加具有游戏专用性。 具体 的, 步骤S12还包括步骤S126至S127: 0122 S126、 计算所述游戏领域的关系匹配数据集中每一目标关系匹配数据的关系与预 设的游戏领域知识图谱中的关系的。
41、相似度。 0123 S127、 根据相似度大于第二预设阈值的游戏领域知识图谱的关系, 扩增与其对应 的目标关系匹配数据, 以扩增后的关系匹配数据集作为所述游戏领域的关系匹配数据集。 0124 通过获取所述游戏领域的知识图谱, 计算所述游戏领域的关系匹配数据集中每一 目标关系匹配数据(Q-R)的关系R, 与所述游戏领域知识图谱中所有三元组中的 “关系” 之间 的相似度。 当某一关系匹配数据的关系R与某一游戏领域知识图谱的 “关系” 的相似度达到 第二预设阈值 2, 则根据该游戏领域知识图谱的 “关系” , 对该关系匹配数据的关系R进行扩 增。 0125 可以理解的, 所述第二预设阈值 2为预先设。
42、置的数值, 可以根据实际应用情况具 体设置, 在此不做具体限定。 相似度的算法可以是基于lcs字符匹配的相似度算法, 也可以 是最小编辑距离的相似度算法, 或其他语义相似度算法, 不影响本发明取得的有益效果。 0126 作为举例, 对以下目标关系匹配数据(Q-R): 0127 Q: (entity)在哪? 0128 R: 地点 0129 针对该关系 “R地点” , 若在所述游戏领域的知识图谱中计算得到两个相似度大 于 2的关系为 “捕捉地点” 和 “任务地点” , 则额外扩增出两条关系匹配数据为: 0130 Q1: (entity)在哪? 0131 R1: 捕捉地点 0132 Q2: (ent。
43、ity)在哪? 0133 R2: 任务地点 0134 采用本发明实施例的技术手段, 对所述游戏领域的关系匹配数据集进行扩增, 得 到扩增后的游戏领域的关系匹配数据集S, 使得数据集S中的关系匹配数据更加具有游戏专 业性, 适用性更高。 0135 S13、 采集开放领域的自由文本, 并对所述开放领域的自由文本进行预训练, 构建 语言模型; 其中, 所述语言模型为知识图谱关系匹配所需的模型结构。 0136 具体地, 参见图4, 是本发明实施例一中的语言模型的结构示意图。 所述语言模型 的构建方法如下: 0137 S131、 根据开放领域的自由文本, 采用transformer架构预训练得到第一语言。
44、模型 M1; 0138 S132、 在所述第一语言模型M1中增加双向LSTM层和attention层, 并最后连接 sigmoid函数, 以形成所述语言模型M2。 0139 第一语言模型M1假定的任务是预测句子中的掩码词语。 在采集开放领域的自有文 本后, 需要对文本语料进行分词等预处理。 针对自由文本中的每句话, 随机挑选2-3个词语 进行掩盖, 训练第一语言模型M1预测掩盖的词语。 由于该模型是字向量级别的预训练模型, 说明书 8/12 页 12 CN 111538843 A 12 添加了掩码的文本要按字符切分。 0140 原始自由文本:“语言模型预测下一个词语的出现概率。 ” 0141 。
45、预处理文本后:“语言模型maskmask下一个词语的maskmask概率。 ” 0142 则掩盖的词语为: “预” ,” 测” , “出” , “现” 0143 在本发明实施例中, 上述第一语言模型M1的训练过程仅为一种优选的实施方式。 预训练第一语言模型M1的目的是得到一个学习自然语言表述和特征的模型, 该语言模型的 训练不限于当前任务, 可以由其他自然语言处理任务得到, 均不影响本发明取得的有益效 果。 0144 采用本发明实施例的技术手段, 预训练的第一语言模型在一定程度上学习了自然 语言的表达规律, 比一般的机器学习方法具有更好的效果和鲁棒性。 0145 接着, 在预训练出第一语言模型。
46、M1后, 参见图4, 在M1模型的基础上, 增加一个双向 LSTM层和attention层, 最后通过一个sigmoid函数输出 “问题” 和 “关系” 的相似概率(或称 为相似度), 即为语言模型M2。 0146 关系匹配任务本质上是一个相似度计算任务: 给定 “问题” 和 “关系” , 计算其相似 度, 排序得出与该 “问题” 最相似的 “关系” 。 因此, 通过增加双向LSTM层, 用于学习输入的 “问 题” 所表述的上下文信息, 增加attention层, 用于提高 “问题” 中重要词汇的权重。 0147 S14、 根据所述游戏领域的关系匹配数据集, 对所述语言模型进行增量训练, 以构。
47、 建所述游戏领域的知识图谱关系匹配模型。 0148 最后, 将筛选和扩增后得到的游戏领域的关系匹配数据集S输入到所述语言模型 M2中进行训练, 从而构建得到所述游戏领域的知识图谱关系匹配模型M, 其中, 所述游戏领 域的知识图谱关系匹配模型用于计算输入的问题与关系的相似度, 并返回与所述问题最相 似的关系, 从而完成所述游戏领域的问答系统的知识图谱关系匹配任务。 0149 作为优选的实施方式, 对所述语言模型M2中进行训练的过程包括增量训练任务 (或称语言模型的下游任务)。 输入语言模型M2的游戏领域的关系匹配数据集S中的每一关 系匹配数据为正例。 另外, 还需要输入负例数据集合对语言模型M2。
48、进行训练, 以增加知识图 谱关系匹配模型M对数据集以及样本分布的拟合度, 提高准确率。 0150 所述负例数据集合的获取方法如下: 0151 S141、 获取关系集合; 其中, 所述关系集合为游戏领域知识图谱中的关系或开放领 域知识图谱中的关系的集合; 0152 S142、 计算所述游戏领域的关系匹配数据集S中每一关系与所述关系集合中每一 关系的相似度; 其中, 相似度算法采用最小编辑距离计算。 0153 S143、 选取所述关系集合中, 相似度大于第三预设阈值的N个关系构成所述负例数 据集合。 0154 需要说明的是, 为了增加语言模型的辨别能力, 负例的构造需要与正例有一定的 相似度, 但。
49、为了避免新构造的负例在逻辑上也是正确的, 导致引入误差, 所述第三预设阈值 不能取太大, 因此, 可以根据实际情况设置一个合适大小的阈值, 在此不做具体限定。 0155 作为举例, 对于数据集S中的以下游戏领域的关系匹配数据: 0156 Q1: (entity)在哪? 0157 R1: 捕捉地点 说明书 9/12 页 13 CN 111538843 A 13 0158 对该关系匹配数据构建N6个负例, 构造负例后的负例数据集合如下: 0159 1(entity)在哪? 捕捉地点 0160 0(entity)在哪? 捕捉方式 0161 0(entity)在哪? 捕获要点 0162 0(entit。
50、y)在哪? 捕获时间 0163 . 0164 其中, 1表示正例, 0表示负例 0165 通过将游戏领域的关系匹配数据集S中的每一关系匹配数据作为正例输入模型M2 进行学习训练, 再根据正例构造相应的负例输入模型M2进行学习训练, 从而增加语言模型 的辨别能力, 最终构造一个准确性高, 数据资源充足的知识图谱关系模型匹配模型M, 以完 成关系匹配任务。 0166 通过所述游戏领域的知识图谱关系模型匹配模型M完成关系匹配任务的步骤为: 将输入问题与游戏领域知识图谱中的所有关系作为所述知识图谱关系模型匹配模型M的输 入量; 根据所述知识图谱关系模型匹配模型M的计算结果, 得到所述输入问题对应的目标。
- 内容关键字: 游戏 领域 知识 图谱 关系 匹配 方法 模型 构建 装置
阻燃B1级高耐热节能环保型聚丙烯绝缘电力电缆.pdf
电池加解锁RGV.pdf
可自动调节加工设备位置的制袋机.pdf
高压变压器、高压发生器和医学影像设备.pdf
铝管密封接头一体成型装置.pdf
汽车分动器控制电路.pdf
护理垫包装生产线的推料装置.pdf
桥梁建设用预制混凝土运输装置.pdf
水泵电机零件试压装置.pdf
折叠式便携首饰盒.pdf
河道防汛水位预警装置.pdf
高压、大流量先导式电磁阀防冲开结构.pdf
半圆形光纤传感器.pdf
环氧树脂分离提纯装置.pdf
计时器.pdf
钢制骨架剪切机.pdf
基于斜滑块的转盘式封口机真空室升降定位高度调节机构.pdf
电加热系统用加热器结构.pdf
拼接式石墨型模具.pdf
波码通信井下智能配水器.pdf
钢波纹管涵内临时支撑装置.pdf
传动式钢材加工成型机.pdf
微纳米复合高稳定性超双疏金属防腐缓蚀材料的制备方法.pdf
血管介入手术机器人.pdf
基于语义元数据的二次模糊搜索方法.pdf
基于污泥焚烧灰渣的复合材料及其制备方法.pdf
矿浆品位仪的压榨装置及滤饼压榨方法.pdf
余热回收蒸汽发生系统.pdf
云计算虚拟网络系统、及其使用方法、装置、设备及介质.pdf
基于潜在扩散模型的双目图像生成方法及系统.pdf
新型船用金属复合板的爆炸焊接制备方法.pdf
脱硫废液蒸发系统以及方法.pdf
一种条形码定位方法.pdf
配置建筑物的多个传感器设备.pdf
一种精密减速机偏心轴及精密减速机.pdf
一种身份智能识别方法.pdf
一种有效利用光能的公路隧道绿色照明方法.pdf
一种用户终端的解锁方法及装置、用户终端.pdf
一种汽车远光灯及其设计方法.pdf
一种基于GABOR滤波器背景纹理抑制的车标检测方法.pdf
光学膜及窄边框显示装置.pdf
架空输电线路覆冰状态判断方法.pdf
基于高斯混合模型的刚体目标在线特征分类与跟踪方法.pdf
一种基于GPU的边缘检测图像二值化方法.pdf
一种减震底座.pdf
热能回收装置及其起动方法.pdf
键盘灯.pdf
医用信息推送方法.pdf
双波纹三角通孔列阵磊层LED散热器.pdf
发光元件、发光装置、显示装置、电子设备以及照明装置.pdf
小区车辆管理系统.pdf