构建知识图谱语义映射方法及系统.pdf
《构建知识图谱语义映射方法及系统.pdf》由会员分享,可在线阅读,更多相关《构建知识图谱语义映射方法及系统.pdf(19页完成版)》请在专利查询网上搜索。
1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202010753082.2 (22)申请日 2020.07.30 (71)申请人 上海数策软件股份有限公司 地址 200080 上海市虹口区曲阳路930号4 幢3555室 (72)发明人 杜津吴楠陈如杰周育樑 徐真张椿琳 (74)专利代理机构 上海段和段律师事务所 31334 代理人 李佳俊郭国中 (51)Int.Cl. G06F 40/211(2020.01) G06F 40/284(2020.01) G06F 40/295(2020.01) G06F 40/30(2020.。
2、01) (54)发明名称 构建知识图谱语义映射方法及系统 (57)摘要 本发明提供了一种构建知识图谱语义映射 方法及系统, 包括: 训练集管理步骤: 管理文本训 练集和测试集, 并进行布尔模型的迭代; 文本分 析步骤: 对输入的文本进行分词处理, 将文本转 换成带有句法结构的组合; 布尔逻辑表达式步 骤: 根据获得的转换后的带有句法结构的组合, 对文本到知识图谱实体关系之间的映射进行计 算。 本发明通过基于句法结构分析之上的布尔逻 辑, 获取了更多的文本语义相关的句法结构和搭 配关系, 通过这种关系构建的布尔逻辑可以更加 精准的描述词之间的搭配和修饰结构, 从而可以 使用人工来透明的干预句法结。
3、构的词之间的搭 配关系。 权利要求书3页 说明书11页 附图4页 CN 111914534 A 2020.11.10 CN 111914534 A 1.一种构建知识图谱语义映射方法, 其特征在于, 包括: 训练集管理步骤: 管理文本训练集和测试集, 并进行布尔模型的迭代; 文本分析步骤: 对输入的文本进行分词处理, 将文本转换成带有句法结构的组合; 布尔逻辑表达式步骤: 根据获得的转换后的带有句法结构的组合, 对文本到知识图谱 实体关系之间的映射进行计算; 布尔逻辑表达式索引步骤: 对生产环境的布尔逻辑匹配过程进行优化; 知识图谱步骤: 存储语义关系, 对文本描述的语义关系进行搜索和推理。 2。
4、.根据权利要求1所述的构建知识图谱语义映射方法, 其特征在于, 所述训练集管理步 骤包括: 步骤S101: 对文本测试集进行初步的清洗和过滤, 形成初始化的训练集和测试集, 训练 集通过词频统计, 筛选出重要的关键词对知识图谱映射进行搭配, 构建出初始化布尔逻辑 规则集合; 步骤S102: 人工识别训练集, 调整优化布尔逻辑规则, 调用测试集利用构建的初始化布 尔逻辑规则集合转换成知识图谱结构; 步骤S103: 验证测试集映射的准确率和召回率, 若不满足目标要求, 继续引入新的训练 集人工优化布尔逻辑集合, 调用步骤S102; 若满足目标要求则, 调用步骤S104; 步骤S104: 对生产环境。
5、的海量文档进行输入和知识图谱解构提取, 存入知识图谱数据 库中。 3.根据权利要求1所述的构建知识图谱语义映射方法, 其特征在于, 所述文本分析步 骤: 分词步骤: 采用分词算法, 对文本序列进行分词处理, 分解成最基本的词向量单元。 ; 分句步骤: 基于文本的分段和分句符号, 对文本进行句子的分解, 拆解出对应的属于同 一个子句的词序列的组合; 句法结构分析步骤, 对上一步骤中同一分句里面的词序列, 对属于主语、 谓语、 宾语的 词打上对应的标签, 标记同一句子中对应的词之间的句法结构关系。 4.根据权利要求1所述的构建知识图谱语义映射方法, 其特征在于, 所述布尔逻辑表达 式步骤: 布尔逻。
6、辑表达式根据获得的带有句法结构的组合, 对文本进行布尔逻辑的匹配计算; 所述匹配计算的逻辑由关键词的主谓宾关系, 句子关系, 词频关系以及距离搭配组成, 利用这些逻辑组合关系重构出知识图谱中的某个语义结构对应的文本描述结构; 对于知识图谱中实体的属性描述, 或者关系, 采用对应的布尔逻辑表达式将文本映射 到实体以及实体之间的关系。 5.根据权利要求1所述的构建知识图谱语义映射方法, 其特征在于, 所述布尔逻辑表达 式索引步骤包括: 步骤S401: 输入测试文档进行分词和句法结构分解; 步骤S402: 文档重构成句法结构树模式, 准备进行匹配计算; 步骤S403: 对上述结构树的叶子节点到规则索。
7、引引擎检索, 过滤出所有的可能布尔逻 辑表达式; 步骤S404: 对过滤出的布尔逻辑式集合进行扩展, 根据REFER操作符的引用关系, 扩展 权利要求书 1/3 页 2 CN 111914534 A 2 出所有的引用逻辑表达式, 获得新的逻辑表达式集合, 为下一步多条规则并行计算解除依 赖关系; 步骤S405: 对上述的新的逻辑表达式集合并行计算; 步骤S406: 所有的匹配结果进行合并, 输出优化结果。 6.根据权利要求1所述的构建知识图谱语义映射方法, 其特征在于, 所述知识图谱步 骤: 对专业领域的知识图谱实体和关系进行描述和管理; 所述知识图谱中描述的是实体和实体之间的关系, 包括: 。
8、实体定义是由各种维度的属性来构建, 一个实体可以由多个维度的属性构成; 关系的定义存储的是实体和实体之间的关系, 每一条关系的记录描述的都是两个实体 之间的联系; 关系和实体之间的区别在于关系是属于多个实体之间的, 基于关系的属性能够进行关 系的计算。 7.一种构建知识图谱语义映射系统, 其特征在于, 包括: 训练集管理模块: 管理文本训练集和测试集, 并进行布尔模型的迭代; 文本分析模块: 对输入的文本进行分词处理, 将文本转换成带有句法结构的组合; 布尔逻辑表达式模块: 根据获得的转换后的带有句法结构的组合, 对文本到知识图谱 实体关系之间的映射进行计算; 布尔逻辑表达式索引模块: 对生产。
9、环境的布尔逻辑匹配过程进行优化; 知识图谱模块: 存储语义关系, 对文本描述的语义关系进行搜索和推理。 8.根据权利要求7所述的构建知识图谱语义映射系统, 其特征在于, 所述训练集管理模 块包括: 模块S101: 对文本测试集进行初步的清洗和过滤, 形成初始化的训练集和测试集, 训练 集通过词频统计, 筛选出重要的关键词对知识图谱映射进行搭配, 构建出初始化布尔逻辑 规则集合; 模块S102: 人工识别训练集, 调整优化布尔逻辑规则, 调用测试集利用构建的初始化布 尔逻辑规则集合转换成知识图谱结构; 模块S103: 验证测试集映射的准确率和召回率, 若不满足目标要求, 继续引入新的训练 集人工。
10、优化布尔逻辑集合, 返回模块S102继续执行; 若满足目标要求则, 进入模块S104; 模块S104: 对生产环境的海量文档进行输入和知识图谱解构提取, 存入知识图谱数据 库中; 所述文本分析模块: 分词模块: 采用分词算法, 对文本序列进行分词处理, 分解成最基本的词向量单元。 ; 分句模块: 基于文本的分段和分句符号, 对文本进行句子的分解, 拆解出对应的属于同 一个子句的词序列的组合; 句法结构分析模块, 对上一模块中同一分句里面的词序列, 对属于主语、 谓语、 宾语的 词打上对应的标签, 标记同一句子中对应的词之间的句法结构关系; 所述布尔逻辑表达式模块 布尔逻辑表达式根据获得的带有句。
11、法结构的组合, 对文本进行布尔逻辑的匹配计算; 权利要求书 2/3 页 3 CN 111914534 A 3 所述匹配计算的逻辑由关键词的主谓宾关系, 句子关系, 词频关系以及距离搭配组成, 利用这些逻辑组合关系重构出知识图谱中的某个语义结构对应的文本描述结构; 对于知识图谱中实体的属性描述, 或者关系, 采用对应的布尔逻辑表达式将文本映射 到实体以及实体之间的关系。 9.根据权利要求1所述的构建知识图谱语义映射系统, 其特征在于, 所述布尔逻辑表达 式索引模块包括: 模块S401: 输入测试文档进行分词和句法结构分解; 模块S402: 文档重构成句法结构树模式, 准备进行匹配计算; 模块S4。
12、03: 对上述结构树的叶子节点到规则索引引擎检索, 过滤出所有的可能布尔逻 辑表达式; 模块S404: 对过滤出的布尔逻辑式集合进行扩展, 根据REFER操作符的引用关系, 扩展 出所有的引用逻辑表达式, 获得新的逻辑表达式集合, 为下一步多条规则并行计算解除依 赖关系; 模块S405: 对上述的新的逻辑表达式集合并行计算; 模块S406: 所有的匹配结果进行合并, 输出优化结果; 所述知识图谱模块: 对专业领域的知识图谱实体和关系进行描述和管理; 所述知识图谱中描述的是实体和实体之间的关系, 包括: 实体定义是由各种维度的属性来构建, 一个实体可以由多个维度的属性构成; 关系的定义存储的是实。
13、体和实体之间的关系, 每一条关系的记录描述的都是两个实体 之间的联系; 关系和实体之间的区别在于关系是属于多个实体之间的, 基于关系的属性能够进行关 系的计算。 10.一种存储有计算机程序的计算机可读存储介质, 其特征在于, 所述计算机程序被处 理器执行时实现权利要求1至6中任一项所述的构建知识图谱语义映射方法的步骤。 权利要求书 3/3 页 4 CN 111914534 A 4 构建知识图谱语义映射方法及系统 技术领域 0001 本发明涉及自然语言处理知识图谱语义分析领域, 具体地, 涉及构建知识图谱语 义映射方法及系统。 尤其地, 涉及基于句法分析和倒排索引构建知识图谱语义映射的方法。 背。
14、景技术 0002 随着文本分析技术以及自然语言处理技术不断的发展, 越来越需要基于知识图谱 的推理引擎来帮助进行语义相关的处理。 但是知识图谱的构建和实体的映射通常都有非常 高的门槛, 进入到应用领域, 还需要比较多的处理, 例如需要处理比较多的歧义消解的问 题, 需要解决统计算法实现模型训练, 训练文档需要比较多的资源进行人工标注的问题。 0003 现有的技术手段主要集中在知识图谱中实体和关系的构建方面, 在从文本到知识 图谱的映射方面的实现技术不多。 在真实的企业应用场景里面, 从文本到知识图谱的映射 的精准度又是应用无法逾越的一个门槛。 能够真正实现从文本到知识图谱的语义映射, 知 识图。
15、谱的推理引擎才能发挥它的能力, 智能的去处理业务过程中产生的文本。 而在现有的 专利里面对于这种映射通常是直接通过关键词, 或者简单的一些命名实体算法进行直接的 映射, 这往往造成实体三元组映射的准确率降低, 因为没有考虑句法相关的上下文搭配信 息或者一些歧义的场景。 0004 知识图谱构建和标注通常采用半自动化的方式, 除了需要手工构建领域相关的符 合知识图谱定义的各种实体和关系, 还需要对于各种实体和关系进行标注以及领域相关的 文本描述的关系映射进行标注。 这个标注的过程需要较大量的人工来校验对应的映射是否 准确, 当实体关系的数量和质量要求比较高时, 所需要人工标注的资源通常需要多年的持。
16、 续投入才能有效果, 这对于现在的知识图谱的普及应用是非常高的一个门槛。 0005 本发明在基于词法分析以及一些确定的句法分析结构的基础上, 利用布尔逻辑作 为推理引擎, 能够高效快速的实现从文本到实体关系的映射, 利用少量的人工干预, 就可以 实现高准确度的自动的语义映射标注。 另外一方面利用布尔逻辑规则的倒排索引处理, 可 以提高布尔逻辑判断推理的性能, 达到单机日处理千万级别的文档。 0006 申请号为CN201910594867.7一种基于知识图谱的短文本语义理解与精准匹配方 法及装置的中国专利的这种系统, 其主要功能点侧重在于对于短文中的词在知识图谱中的 实体进行检索, 然后通过实体。
17、和词之间的置信度来进行, 后面的语义分析通过知识集合和 文本的相关度或者置信度来进行计算匹配。 这种词和实体之间通过统计置信度直接进行映 射会出现较大的误差, 尤其在涉及到一些歧义或者无效词的干扰处理上很难准确映射, 而 调整也只能从统计置信度上去调节, 无法直接控制映射过程本身。 和本发明利用布尔逻辑 表达式实现从文本到知识图谱透明映射有比较大的不同 0007 申请号为CN201910943703.0, 公开了 “一种基于知识图谱的语义搜索方法及装置” 的这种方法, 其主要功能点也是基于每个关键词在知识图谱中的实体映射进行匹配, 然后 通过基于本体的语义扩展进行搜索结果的调整和映射, 这一方。
18、法也主要采用关键词到实体 的直接对应关系, 发明侧重于知识图谱内部的检索方式, 对于从文本到知识图谱的映射, 并 说明书 1/11 页 5 CN 111914534 A 5 没有太多考虑, 尤其对于歧义消解等, 并没有处理。 本发明主要侧重于从文本到知识图谱的 映射过程。 0008 CN201910706329.2, 公开了 “一种依存句法分析关系抽取模型的司法案件知识图 谱构建方法” 的这种方法, 其主要功能点侧重在通过依存句法分析来扩充知识图谱领域的 实体和实体三元组的关系。 对于句法分析的结果到知识图谱的映射关系的歧义和纠错没有 考虑, 在实际的应用系统中将很难保证最终映射的精准度。 发。
19、明内容 0009 针对现有技术中的缺陷, 本发明的目的是提供一种构建知识图谱语义映射方法及 系统。 0010 根据本发明提供的一种构建知识图谱语义映射方法, 其特征在于, 包括: 0011 训练集管理步骤: 管理文本训练集和测试集, 并进行布尔模型的迭代; 0012 文本分析步骤: 对输入的文本进行分词处理, 将文本转换成带有句法结构的组合; 0013 布尔逻辑表达式步骤: 根据获得的转换后的带有句法结构的组合, 对文本到知识 图谱实体关系之间的映射进行计算; 0014 布尔逻辑表达式索引步骤: 对生产环境的布尔逻辑匹配过程进行优化; 0015 知识图谱步骤: 存储语义关系, 对文本描述的语义。
20、关系进行搜索和推理。 0016 优选地, 所述训练集管理步骤包括: 0017 步骤S101: 对文本测试集进行初步的清洗和过滤, 形成初始化的训练集和测试集, 训练集通过词频统计, 筛选出重要的关键词对知识图谱映射进行搭配, 构建出初始化布尔 逻辑规则集合; 0018 步骤S102: 人工识别训练集, 调整优化布尔逻辑规则, 调用测试集利用构建的初始 化布尔逻辑规则集合转换成知识图谱结构; 0019 步骤S103: 验证测试集映射的准确率和召回率, 若不满足目标要求, 继续引入新的 训练集人工优化布尔逻辑集合, 调用步骤S102; 若满足目标要求则, 调用步骤S104; 0020 步骤S104。
21、: 对生产环境的海量文档进行输入和知识图谱解构提取, 存入知识图谱 数据库中。 0021 优选地, 所述文本分析步骤: 0022 分词步骤: 采用分词算法, 对文本序列进行分词处理, 分解成最基本的词向量单 元。 ; 0023 分句步骤: 基于文本的分段和分句符号, 对文本进行句子的分解, 拆解出对应的属 于同一个子句的词序列的组合; 0024 句法结构分析步骤, 对上一步骤中同一分句里面的词序列, 对属于主语、 谓语、 宾 语的词打上对应的标签, 标记同一句子中对应的词之间的句法结构关系。 0025 优选地, 所述布尔逻辑表达式步骤 0026 布尔逻辑表达式根据获得的带有句法结构的组合, 对。
22、文本进行布尔逻辑的匹配计 算; 0027 所述匹配计算的逻辑由关键词的主谓宾关系, 句子关系, 词频关系以及距离搭配 组成, 利用这些逻辑组合关系重构出知识图谱中的某个语义结构对应的文本描述结构; 说明书 2/11 页 6 CN 111914534 A 6 0028 对于知识图谱中实体的属性描述, 或者关系, 采用对应的布尔逻辑表达式将文本 映射到实体以及实体之间的关系。 0029 优选地, 所述布尔逻辑表达式索引步骤包括: 0030 步骤S401: 输入测试文档进行分词和句法结构分解; 0031 步骤S402: 文档重构成句法结构树模式, 准备进行匹配计算; 0032 步骤S403: 对上述。
23、结构树的叶子节点到规则索引引擎检索, 过滤出所有的可能布 尔逻辑表达式; 0033 步骤S404: 对过滤出的布尔逻辑式集合进行扩展, 根据REFER操作符的引用关系, 扩展出所有的引用逻辑表达式, 获得新的逻辑表达式集合, 为下一步多条规则并行计算解 除依赖关系; 0034 步骤S405: 对上述的新的逻辑表达式集合并行计算; 0035 步骤S406: 所有的匹配结果进行合并, 输出优化结果。 0036 优选地, 所述知识图谱步骤: 0037 对专业领域的知识图谱实体和关系进行描述和管理; 0038 所述知识图谱中描述的是实体和实体之间的关系, 包括: 0039 实体定义是由各种维度的属性来。
24、构建, 一个实体可以由多个维度的属性构成; 0040 关系的定义存储的是实体和实体之间的关系, 每一条关系的记录描述的都是两个 实体之间的联系; 0041 关系和实体之间的区别在于关系是属于多个实体之间的, 基于关系的属性能够进 行关系的计算。 0042 根据本发明提供的一种构建知识图谱语义映射系统, 包括: 0043 训练集管理模块: 管理文本训练集和测试集, 并进行布尔模型的迭代; 0044 文本分析模块: 对输入的文本进行分词处理, 将文本转换成带有句法结构的组合; 0045 布尔逻辑表达式模块: 根据获得的转换后的带有句法结构的组合, 对文本到知识 图谱实体关系之间的映射进行计算; 0。
25、046 布尔逻辑表达式索引模块: 对生产环境的布尔逻辑匹配过程进行优化; 0047 知识图谱模块: 存储语义关系, 对文本描述的语义关系进行搜索和推理。 0048 优选地, 所述训练集管理模块包括: 0049 模块S101: 对文本测试集进行初步的清洗和过滤, 形成初始化的训练集和测试集, 训练集通过词频统计, 筛选出重要的关键词对知识图谱映射进行搭配, 构建出初始化布尔 逻辑规则集合; 0050 模块S102: 人工识别训练集, 调整优化布尔逻辑规则, 调用测试集利用构建的初始 化布尔逻辑规则集合转换成知识图谱结构; 0051 模块S103: 验证测试集映射的准确率和召回率, 若不满足目标要。
26、求, 继续引入新的 训练集人工优化布尔逻辑集合, 返回模块S102继续执行; 若满足目标要求则, 进入模块 S104; 0052 模块S104: 对生产环境的海量文档进行输入和知识图谱解构提取, 存入知识图谱 数据库中; 0053 所述文本分析模块: 说明书 3/11 页 7 CN 111914534 A 7 0054 分词模块: 采用分词算法, 对文本序列进行分词处理, 分解成最基本的词向量单 元。 ; 0055 分句模块: 基于文本的分段和分句符号, 对文本进行句子的分解, 拆解出对应的属 于同一个子句的词序列的组合; 0056 句法结构分析模块, 对上一模块中同一分句里面的词序列, 对属。
27、于主语、 谓语、 宾 语的词打上对应的标签, 标记同一句子中对应的词之间的句法结构关系; 0057 所述布尔逻辑表达式模块 0058 布尔逻辑表达式根据获得的带有句法结构的组合, 对文本进行布尔逻辑的匹配计 算; 0059 所述匹配计算的逻辑由关键词的主谓宾关系, 句子关系, 词频关系以及距离搭配 组成, 利用这些逻辑组合关系重构出知识图谱中的某个语义结构对应的文本描述结构; 0060 对于知识图谱中实体的属性描述, 或者关系, 采用对应的布尔逻辑表达式将文本 映射到实体以及实体之间的关系。 0061 优选地, 所述布尔逻辑表达式索引模块包括: 0062 模块S401: 输入测试文档进行分词和。
28、句法结构分解; 0063 模块S402: 文档重构成句法结构树模式, 准备进行匹配计算; 0064 模块S403: 对上述结构树的叶子节点到规则索引引擎检索, 过滤出所有的可能布 尔逻辑表达式; 0065 模块S404: 对过滤出的布尔逻辑式集合进行扩展, 根据REFER操作符的引用关系, 扩展出所有的引用逻辑表达式, 获得新的逻辑表达式集合, 为下一步多条规则并行计算解 除依赖关系; 0066 模块S405: 对上述的新的逻辑表达式集合并行计算; 0067 模块S406: 所有的匹配结果进行合并, 输出优化结果; 0068 所述知识图谱模块: 0069 对专业领域的知识图谱实体和关系进行描述。
29、和管理; 0070 所述知识图谱中描述的是实体和实体之间的关系, 包括: 0071 实体定义是由各种维度的属性来构建, 一个实体可以由多个维度的属性构成; 0072 关系的定义存储的是实体和实体之间的关系, 每一条关系的记录描述的都是两个 实体之间的联系; 0073 关系和实体之间的区别在于关系是属于多个实体之间的, 基于关系的属性能够进 行关系的计算。 0074 根据本发明提供的一种存储有计算机程序的计算机可读存储介质, 所述计算机程 序被处理器执行时实现上述中任一项所述的构建知识图谱语义映射方法的步骤。 0075 与现有技术相比, 本发明具有如下的有益效果: 0076 (1)通过基于句法结。
30、构分析之上的布尔逻辑, 获取了更多的文本语义相关的句法 结构和搭配关系, 通过这种关系构建的布尔逻辑可以更加精准的描述词之间的搭配和修饰 结构, 从而可以使用人工来透明的干预句法结构的词之间的搭配关系。 所采用的布尔逻辑, 可以直观简洁的重构多个不同的关键词之间的搭配关系, 可以高精准度的匹配到我们需要 提取的关系或者实体, 有效的排除语言中的歧义和干扰。 所采用的布尔逻辑, 除了常用的与 说明书 4/11 页 8 CN 111914534 A 8 或非等, 还根据句法结构进行扩展, 引入了主谓宾结构的操作符, 词频距离, 分句, 短语修饰 等操作符, 确保关键词的修饰关系进行匹配。 0077。
31、 (2)通过采用倒排索引技术, 对布尔逻辑的表达式进行提前的索引处理, 可以提高 匹配效率。 在文本分析当中为了提高准确率, 传统的布尔逻辑表达式或者规则处理都是比 较少量的, 几百条或者上千条规则是比较大的极限。 更多的规则将导致计算的性能线性增 加。 本发明的特性决定了需要上千万甚至上亿的匹配表达式帮助做出精准的语义映射, 因 此不进行特殊处理, 会导致匹配的性能计算要求非常高, 无法满足实时处理的要求。 通过对 规则进行索引, 只对检索到相关关键词和操作符的规则进行逻辑运算, 可以将每次单文档 的匹配规则降低到百条左右, 大大提升了性能。 0078 (3)通过简化的布尔逻辑表达式, 简化。
32、了人工透明控制匹配映射的过程, 简单的主 谓宾搭配, 可以实现精准的匹配效果, 消除歧义表达。 例如(主语: 发动机, 谓语: 抖动, 宾语: 空)可以构建起对发动机抖动相关问题的匹配, 消除了启动发动机, 方向盘抖动等描 述可能产生的错误匹配, 这样的布尔逻辑也非常容易维护和管理。 附图说明 0079 通过阅读参照以下附图对非限制性实施例所作的详细描述, 本发明的其它特征、 目的和优点将会变得更明显: 0080 图1为本发明提供的一种功能关系模块示意图。 0081 图2为本发明提供的模型构建/实施整体流程示意图。 0082 图3为本发明提供的文本分析模块处理输出样例示意图。 0083 图4为。
33、本发明提供的布尔逻辑表达式样例结构示意图。 0084 图5为本发明提供的布尔逻辑计算优化流程示意图。 0085 图6为本发明提供的知识图谱结构样例示意图。 具体实施方式 0086 下面结合具体实施例对本发明进行详细说明。 以下实施例将有助于本领域的技术 人员进一步理解本发明, 但不以任何形式限制本发明。 应当指出的是, 对本领域的普通技术 人员来说, 在不脱离本发明构思的前提下, 还可以做出若干变化和改进。 这些都属于本发明 的保护范围。 0087 根据本发明提供的一种构建知识图谱语义映射方法, 其特征在于, 包括: 0088 训练集管理步骤: 管理文本训练集和测试集, 并进行布尔模型的迭代;。
34、 0089 文本分析步骤: 对输入的文本进行分词处理, 将文本转换成带有句法结构的组合; 0090 布尔逻辑表达式步骤: 根据获得的转换后的带有句法结构的组合, 对文本到知识 图谱实体关系之间的映射进行计算; 0091 布尔逻辑表达式索引步骤: 对生产环境的布尔逻辑匹配过程进行优化; 0092 知识图谱步骤: 存储语义关系, 对文本描述的语义关系进行搜索和推理。 0093 具体地, 所述训练集管理步骤包括: 0094 步骤S101: 对文本测试集进行初步的清洗和过滤, 形成初始化的训练集和测试集, 训练集通过词频统计, 筛选出重要的关键词对知识图谱映射进行搭配, 构建出初始化布尔 说明书 5/。
35、11 页 9 CN 111914534 A 9 逻辑规则集合; 0095 步骤S102: 人工识别训练集, 调整优化布尔逻辑规则, 调用测试集利用构建的初始 化布尔逻辑规则集合转换成知识图谱结构; 0096 步骤S103: 验证测试集映射的准确率和召回率, 若不满足目标要求, 继续引入新的 训练集人工优化布尔逻辑集合, 调用步骤S102; 若满足目标要求则, 调用步骤S104; 0097 步骤S104: 对生产环境的海量文档进行输入和知识图谱解构提取, 存入知识图谱 数据库中。 0098 具体地, 所述文本分析步骤: 0099 分词步骤: 采用分词算法, 对文本序列进行分词处理, 分解成最基本。
36、的词向量单 元。 ; 0100 分句步骤: 基于文本的分段和分句符号, 对文本进行句子的分解, 拆解出对应的属 于同一个子句的词序列的组合; 0101 句法结构分析步骤, 对上一步骤中同一分句里面的词序列, 对属于主语、 谓语、 宾 语的词打上对应的标签, 标记同一句子中对应的词之间的句法结构关系。 0102 具体地, 所述布尔逻辑表达式步骤 0103 布尔逻辑表达式根据获得的带有句法结构的组合, 对文本进行布尔逻辑的匹配计 算; 0104 所述匹配计算的逻辑由关键词的主谓宾关系, 句子关系, 词频关系以及距离搭配 组成, 利用这些逻辑组合关系重构出知识图谱中的某个语义结构对应的文本描述结构;。
37、 0105 对于知识图谱中实体的属性描述, 或者关系, 采用对应的布尔逻辑表达式将文本 映射到实体以及实体之间的关系。 0106 具体地, 所述布尔逻辑表达式索引步骤包括: 0107 步骤S401: 输入测试文档进行分词和句法结构分解; 0108 步骤S402: 文档重构成句法结构树模式, 准备进行匹配计算; 0109 步骤S403: 对上述结构树的叶子节点到规则索引引擎检索, 过滤出所有的可能布 尔逻辑表达式; 0110 步骤S404: 对过滤出的布尔逻辑式集合进行扩展, 根据REFER操作符的引用关系, 扩展出所有的引用逻辑表达式, 获得新的逻辑表达式集合, 为下一步多条规则并行计算解 除。
38、依赖关系; 0111 步骤S405: 对上述的新的逻辑表达式集合并行计算; 0112 步骤S406: 所有的匹配结果进行合并, 输出优化结果。 0113 具体地, 所述知识图谱步骤: 0114 对专业领域的知识图谱实体和关系进行描述和管理; 0115 所述知识图谱中描述的是实体和实体之间的关系, 包括: 0116 实体定义是由各种维度的属性来构建, 一个实体可以由多个维度的属性构成; 0117 关系的定义存储的是实体和实体之间的关系, 每一条关系的记录描述的都是两个 实体之间的联系; 0118 关系和实体之间的区别在于关系是属于多个实体之间的, 基于关系的属性能够进 行关系的计算。 说明书 6。
39、/11 页 10 CN 111914534 A 10 0119 根据本发明提供的一种构建知识图谱语义映射系统, 包括: 0120 训练集管理模块: 管理文本训练集和测试集, 并进行布尔模型的迭代; 0121 文本分析模块: 对输入的文本进行分词处理, 将文本转换成带有句法结构的组合; 0122 布尔逻辑表达式模块: 根据获得的转换后的带有句法结构的组合, 对文本到知识 图谱实体关系之间的映射进行计算; 0123 布尔逻辑表达式索引模块: 对生产环境的布尔逻辑匹配过程进行优化; 0124 知识图谱模块: 存储语义关系, 对文本描述的语义关系进行搜索和推理。 0125 具体地, 所述训练集管理模块。
40、包括: 0126 模块S101: 对文本测试集进行初步的清洗和过滤, 形成初始化的训练集和测试集, 训练集通过词频统计, 筛选出重要的关键词对知识图谱映射进行搭配, 构建出初始化布尔 逻辑规则集合; 0127 模块S102: 人工识别训练集, 调整优化布尔逻辑规则, 调用测试集利用构建的初始 化布尔逻辑规则集合转换成知识图谱结构; 0128 模块S103: 验证测试集映射的准确率和召回率, 若不满足目标要求, 继续引入新的 训练集人工优化布尔逻辑集合, 返回模块S102继续执行; 若满足目标要求则, 进入模块 S104; 0129 模块S104: 对生产环境的海量文档进行输入和知识图谱解构提取。
41、, 存入知识图谱 数据库中; 0130 所述文本分析模块: 0131 分词模块: 采用分词算法, 对文本序列进行分词处理, 分解成最基本的词向量单 元。 ; 0132 分句模块: 基于文本的分段和分句符号, 对文本进行句子的分解, 拆解出对应的属 于同一个子句的词序列的组合; 0133 句法结构分析模块, 对上一模块中同一分句里面的词序列, 对属于主语、 谓语、 宾 语的词打上对应的标签, 标记同一句子中对应的词之间的句法结构关系; 0134 所述布尔逻辑表达式模块 0135 布尔逻辑表达式根据获得的带有句法结构的组合, 对文本进行布尔逻辑的匹配计 算; 0136 所述匹配计算的逻辑由关键词的。
42、主谓宾关系, 句子关系, 词频关系以及距离搭配 组成, 利用这些逻辑组合关系重构出知识图谱中的某个语义结构对应的文本描述结构; 0137 对于知识图谱中实体的属性描述, 或者关系, 采用对应的布尔逻辑表达式将文本 映射到实体以及实体之间的关系。 0138 具体地, 所述布尔逻辑表达式索引模块包括: 0139 模块S401: 输入测试文档进行分词和句法结构分解; 0140 模块S402: 文档重构成句法结构树模式, 准备进行匹配计算; 0141 模块S403: 对上述结构树的叶子节点到规则索引引擎检索, 过滤出所有的可能布 尔逻辑表达式; 0142 模块S404: 对过滤出的布尔逻辑式集合进行扩。
43、展, 根据REFER操作符的引用关系, 扩展出所有的引用逻辑表达式, 获得新的逻辑表达式集合, 为下一步多条规则并行计算解 说明书 7/11 页 11 CN 111914534 A 11 除依赖关系; 0143 模块S405: 对上述的新的逻辑表达式集合并行计算; 0144 模块S406: 所有的匹配结果进行合并, 输出优化结果; 0145 所述知识图谱模块: 0146 对专业领域的知识图谱实体和关系进行描述和管理; 0147 所述知识图谱中描述的是实体和实体之间的关系, 包括: 0148 实体定义是由各种维度的属性来构建, 一个实体可以由多个维度的属性构成; 0149 关系的定义存储的是实体。
44、和实体之间的关系, 每一条关系的记录描述的都是两个 实体之间的联系; 0150 关系和实体之间的区别在于关系是属于多个实体之间的, 基于关系的属性能够进 行关系的计算。 0151 根据本发明提供的一种存储有计算机程序的计算机可读存储介质, 所述计算机程 序被处理器执行时实现上述中任一项所述的构建知识图谱语义映射方法的步骤。 0152 下面通过优选例, 对本发明进行更为具体地说明。 0153 优选例1: 0154 本发明的核心是文本句法结构的解析模块、 布尔逻辑表达式模块以及布尔逻辑表 达式的检索模块。 本系统从接收外界的输入文本开始, 经过训练集管理模块对输入文本格 式进行初步转换和管理, 然。
45、后通过文本解析模块对文本进行分句、 分词等语法结构的处理, 转换成语法结构树。 通过规则表达式模块进行匹配和逻辑计算。 由于表达式数量庞大, 需要 借助于表达式索引模块进行表达式的过滤和检索, 提高性能。 最终映射成为知识图谱模块 的语义结构, 实现从文本到语义空间的转换。 0155 本发明系统包含六个模块, 如图一是本系统的功能关系模块图。 0156 一、 训练集管理模块, 主要用于文本训练集和测试集的管理, 以及整体模型的迭 代: 0157 布尔逻辑表达式同实体和关系的数量是一一对应的。 为了实现映射关系的准确率 和召回率评估, 需要大量的训练文本和测试文本进行布尔模型的验证。 0158 。
46、训练和测试文档需要分成多批, 分阶段对布尔逻辑映射关系进行测试和检验, 当 测试的准确率和召回率达不到要求时, 需要修改或者增加布尔逻辑表达式提高准确率和召 回率。 经过多次调试, 让布尔逻辑表达式的匹配效果达到最终的准确率和召回率要求。 0159 流程处理方式如图二所示: 0160 步骤1.对文本测试集进行初步的清洗和过滤, 形成初始化的训练集和测试集。 训 练集通过词频统计, 筛选出重要的关键词对知识图谱映射进行搭配, 构建出初始化布尔逻 辑规则集合。 0161 步骤2.人工识别训练集, 调整优化布尔逻辑规则。 调用测试集利用上述初始规则 集合转换成知识图谱结构。 0162 步骤3.验证测。
47、试集映射的准确率和召回率。 若不满足目标要求, 继续引入新训练 集人工优化布尔逻辑集合, 重复迭代运行以上步骤。 0163 步骤4.达到生产要求, 对生产环境的海量文档进行输入和知识图谱解构提取, 存 入知识图谱数据库中。 说明书 8/11 页 12 CN 111914534 A 12 0164 二、 文本分析模块, 其用于: 0165 对文本进行分词处理, 将文本转换成带有句法结构的组合。 本模块需要对输入的 文本序列进行如下步骤的处理: 0166 分词: 采用分词算法, 对文本序列进行分词处理, 分解成最基本的词向量单元。 0167 分句: 基于文本的分段和分句符号, 对文本进行句子的分解。
48、, 拆解出对应的属于同 一个子句的词序列的组合。 0168 句法结构分析, 对上一步骤中同一分句里面的词序列, 对属于主语、 谓语、 宾语的 词打上对应的标签, 标记同一句子中对应的词之间的句法结构关系。 0169 如图三是本模块处理句子结构分析的一个样例。 对于句子:” 发动机会出现异常抖 动的情况, 这时候仪表盘上警告灯亮, 检查发现变速箱有漏油的情况” ,拆分出子分句, 对子 分句中主语、 谓语进行了标注, 形成了从分句到词的句法结构树。 0170 三、 布尔逻辑表达式模块, 主要用于: 0171 对文本到知识图谱实体关系之间的映射进行计算。 布尔逻辑表达式需要依据上面 文本分析模块处理。
49、的输出, 对文本进行布尔逻辑的匹配计算(匹配计算主要涉到主谓宾、 句 子、 词频以及词距离等), 主要的计算逻辑由关键词的主谓宾关系, 句子关系, 词频关系以及 距离搭配组成, 专家利用这些逻辑组合关系重构出知识图谱中的某个语义结构对应的文本 描述结构。 知识图谱中实体的属性描述, 或者关系, 采用对应的布尔逻辑表达式将文本映射 到实体以及实体之间的关系。 为了提高布尔逻辑的句法词法结构表达能力, 扩充如下的操 作符(属于布尔逻辑表达式中的操作符, 而操作符可以相互嵌套形成表达式, 一个表达式包 含很多个操作符和关键词。 ): 0172 OR: 当子节点之中, 有一个计算为真, 那么这个节点为。
50、真; 全部为假, 那么本节点为 假。 0173 AND: 所有的子节点都为真, 那么节点计算为真, 否则为假。 0174 NOT: 当子节点为假, 那么本节点为真; 子节点为真, 那么本节点为假。 0175 SUBSENT: 所有的子节点都需要为真, 并且在一个子句之内。 0176 SENT: 所有子节点都为真, 在同一个句子之内。 0177 SUBJECT: 所有子节点都为真, 并且是主语。 0178 OBJECT:所有子节点都为真, 并且是宾语。 0179 PREDICT: 所有子节点都为真, 并且是谓语。 0180 REFER: 引用规则, 可以引用其他的表达式作为子表达式, 值和子表达。
- 内容关键字: 构建 知识 图谱 语义 映射 方法 系统
废弃物焚烧装置.pdf
板框过滤器.pdf
建筑外立面绿化安装架.pdf
防反抽气动快速接头.pdf
适用于线末自动装框的上下料运输系统.pdf
地下水灌溉农业深度节水装置.pdf
耐磨板堆焊冷却平台装置.pdf
晶圆承载装置.pdf
预应力混凝土管桩模具用打磨装置.pdf
煤粉制备系统.pdf
适用不同飞机机型的垂尾维修平台.pdf
散热器侧板的管孔冲压机.pdf
风力输送撒盐系统.pdf
高效率的清废装置及专用吸头组件.pdf
化工污水处理装置.pdf
各向异性微滤膜及其制备方法和应用.pdf
稳定面可调的盾构管片拼装方位检测装置.pdf
异构双模冗余定时器、芯片以及车辆.pdf
静轴肩穿透焊搅拌头.pdf
颈动脉斑块易损性分级方法、装置、电子设备及存储介质.pdf
基于计算机视觉的自动化点云定向方法、设备及存储介质.pdf
婴童奶制品核心营养成分的膜分离重组方法及其应用.pdf
安全生产的双重预防管理方法、系统、设备及存储介质.pdf
用于滤波器的浮点数据处理系统.pdf
易调平的冲压设备工作台及冲压设备.pdf
车辆的相机位姿确定方法、装置、计算机设备和存储介质.pdf
钢厂板坯智能倒垛方法与系统.pdf
纱线捻线机.pdf
用于配电柜的操作机器人的分体式地刀结构.pdf
双核设备的数据处理方法和双核设备.pdf
氮化硼钝化增强的砷化镓基半导体器件及其制备方法.pdf
网络模型的转换方法、装置、终端及计算机可读存储介质.pdf
抗拉阻水防冰雪型中压三芯架空绝缘电缆及其制备方法.pdf
便携式超短基线定位基阵.pdf
用于PEEK侧弧片车加工的成品测量装置.pdf
生物碱提取用分离纯化装置.pdf
闽楠幼苗平衡施肥方法.pdf
避雷器绝缘套压铸机.pdf
雕塑辅助设备.pdf
塑料编织袋生产用尾料处理装置.pdf
可手持收卷宠物便袋的便携分配器装置.pdf
阀头研磨工具.pdf
再生塑料熔体过滤器.pdf
具有限位结构的电饼铛.pdf
心肺复苏数据化模拟分析装置.pdf
高强度齿科修复用陶瓷复合材料及其制备方法.pdf
多功能3D打印机.pdf
车载智能终端语音控制系统.pdf
骨科患者锻炼恢复装置.pdf
导向龙骨、墙体模块及装配式墙体.pdf
起重机.pdf