知识图谱更新方法、装置及电子设备.pdf

上传人:1520****312 文档编号:9208877 上传时间:2021-05-10 格式:PDF 页数:28 大小:1.02MB
收藏 版权申诉 举报 下载
知识图谱更新方法、装置及电子设备.pdf_第1页
第1页 / 共28页
知识图谱更新方法、装置及电子设备.pdf_第2页
第2页 / 共28页
知识图谱更新方法、装置及电子设备.pdf_第3页
第3页 / 共28页
文档描述:

《知识图谱更新方法、装置及电子设备.pdf》由会员分享,可在线阅读,更多相关《知识图谱更新方法、装置及电子设备.pdf(28页完成版)》请在专利查询网上搜索。

1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202010201639.1 (22)申请日 2020.03.20 (71)申请人 腾讯科技 (深圳) 有限公司 地址 518057 广东省深圳市南山区高新区 科技中一路腾讯大厦35层 (72)发明人 王策 (74)专利代理机构 深圳市隆天联鼎知识产权代 理有限公司 44232 代理人 叶虹 (51)Int.Cl. G06F 16/22(2019.01) G06F 16/23(2019.01) G06F 16/27(2019.01) (54)发明名称 知识图谱更新方法、 装置及电。

2、子设备 (57)摘要 本公开提供了知识图谱更新方法、 装置, 涉 及人工智能领域。 该方法包括: 响应于知识图谱 更新请求, 调用第一服务获取消息队列中的第一 标识信息, 根据第一标识信息获取HBASE数据库 中与第一标识信息对应的网络资源, 并对网络资 源进行知识抽取以获取三元组信息; 调用第二服 务对三元组信息与原始三元组信息进行融合, 以 获取融合三元组信息; 调用第三服务对融合三元 组信息中的属性和属性值进行处理以获取中间 三元组信息, 并根据中间三元组信息中的实体信 息进行信息融合以获取目标三元组信息; 调用第 四服务对目标三元组信息进行处理, 以获取更新 后的知识图谱, 并将更新后。

3、的知识图谱写入 HBASE数据库中。 本公开能够提高知识图谱的更 新效率, 保证知识更新的实时性。 权利要求书3页 说明书16页 附图8页 CN 111444181 A 2020.07.24 CN 111444181 A 1.一种知识图谱更新方法, 其特征在于, 包括: 响应于知识图谱更新请求, 调用第一服务获取消息队列中的第一标识信息, 根据所述 第一标识信息获取HBASE数据库中与所述第一标识信息对应的网络资源, 并对所述网络资 源进行知识抽取以获取三元组信息; 调用第二服务对所述三元组信息与原始三元组信息进行融合, 以获取融合三元组信 息; 调用第三服务对所述融合三元组信息中的属性和属性。

4、值进行处理以获取中间三元组 信息, 并根据所述中间三元组信息中的实体信息进行信息融合以获取目标三元组信息; 调用第四服务对所述目标三元组信息进行处理, 以获取更新后的知识图谱, 并将所述 更新后的知识图谱写入所述HBASE数据库中。 2.根据权利要求1所述的知识图谱更新方法, 其特征在于, 所述HBASE数据库中存储有 多个第二标识信息和与所述第二标识信息对应的网络资源; 所述根据所述第一标识信息获取HBASE数据库中与所述第一标识信息对应的网络资 源, 包括: 将所述第一标识信息与各所述第二标识信息进行比对; 当所述HBASE数据库中存在包含所述第一标识信息的目标第二标识信息时, 获取所述 。

5、目标第二标识信息对应的目标网络资源, 并将所述目标网络资源作为与所述第一标识信息 对应的网络资源。 3.根据权利要求1所述的知识图谱更新方法, 其特征在于, 所述调用第二服务对所述三 元组信息与原始三元组信息进行融合, 以获取融合三元组信息, 包括: 将所述第一标识信息与分布式文件系统数据库中的标识信息进行对比, 以获取与所述 第一标识信息对应的原始三元组信息; 采用与所述第一标识信息对应的三元组信息替换与所述第一标识信息对应的原始三 元组信息, 以获取所述融合三元组信息。 4.根据权利要求1所述的知识图谱更新方法, 其特征在于, 所述第三服务包括属性更新 服务、 属性值对齐服务和实体融合服务。

6、; 所述调用第三服务对所述融合三元组信息中的属性和属性值进行处理以获取中间三 元组信息, 并根据所述中间三元组信息中的实体信息进行信息融合以获取目标三元组信 息, 包括: 调用所述属性更新服务对所述融合三元组信息中的属性进行更新, 以使来自不同站点 且具有相同属性的实体对应同一属性信息; 调用所述属性值对齐服务对属性更新后的所述融合三元组信息中的属性值进行归一 处理, 以获取所述中间三元组信息; 调用所述实体融合服务对所述中间三元组信息中的实体进行对齐和融合, 以获取所述 目标三元组信息。 5.根据权利要求4所述的知识图谱更新方法, 其特征在于, 所述第三服务还包括属性值 添加服务; 在调用所。

7、述属性更新服务对所述融合三元组信息中的属性进行更新之后, 所述方法还 包括: 权利要求书 1/3 页 2 CN 111444181 A 2 调用所述属性值添加服务读取属性值列表, 所述属性值列表包括第一标识信息、 与所 述第一标识信息对应的实体和与所述实体对应的属性值; 获取所述融合三元组信息中缺失属性值的目标实体, 并获取与所述目标实体对应的第 一标识信息; 根据与所述目标实体对应的第一标识信息和所述目标实体从所述属性值列表中确定 目标属性值, 并将所述目标属性值添加至与所述目标实体对应的三元组信息中。 6.根据权利要求1所述的知识图谱更新方法, 其特征在于, 所述第四服务包括属性值选 择服。

8、务; 所述调用第四服务对所述目标三元组信息进行处理, 以获取更新后的知识图谱, 包括: 调用所述属性值选择服务对所述目标三元组信息中的属性值进行去重处理, 以获取所 述更新后的知识图谱。 7.根据权利要求6所述的知识图谱更新方法, 其特征在于, 所述第四服务还包括关联服 务; 在调用所述属性选择服务对所述目标三元组信息中的属性进行去重处理之后, 所述方 法还包括: 调用所述关联服务根据所述目标三元组信息中的实体确定第一实体标识信息, 并根据 与所述目标三元组信息中的实体相关联的实体确定第二实体标识信息; 将所述第一实体标识信息与所述第二实体标识信息进行关联, 以获取所述更新后的知 识图谱。 8。

9、.根据权利要求6所述的知识图谱更新方法, 其特征在于, 在调用所述属性选择服务对 所述目标三元组信息中的属性进行去重处理之后, 所述方法还包括: 根据所述目标三元组信息中的实体构建名称索引。 9.根据权利要求1所述的知识图谱更新方法, 其特征在于, 所述方法还包括: 在获取所述中间三元组信息之后, 对所述中间三元组信息进行过滤, 以保留目标属性 对应的属性值。 10.根据权利要求1所述的知识图谱更新方法, 其特征在于, 在调用第一服务获取消息 队列中的第一标识信息之前, 所述方法还包括: 根据预设URL获取网络资源, 并根据所述预设URL确定第一标识信息和第二标识信息; 将所述第一标识信息存储。

10、于所述消息队列中, 并将所述第二标识信息和对应的网络资 源存储于所述HBASE数据库中。 11.根据权利要求10所述的知识图谱更新方法, 其特征在于, 所述第一标识信息为对所 述预设URL进行哈希处理所形成的标识信息, 所述第二标识信息为根据所述第一标识信息 形成且具有HTML格式的标识信息, 所述消息队列为Kafka队列。 12.根据权利要求1所述的知识图谱更新方法, 其特征在于, 所述HBASE数据库中存储有 与多个知识对应的名称索引和实体标识信息; 所述方法还包括: 获取用户在终端设备中输入的待查询名称索引; 将所述待查询名称索引与各所述名称索引进行比对, 以获取与所述待查询名称索引对 。

11、应的目标实体标识信息, 并将所述目标实体标识信息反馈给所述用户; 获取所述用户在所述终端设备中输入的目标实体标识信息, 根据所述目标实体标识信 权利要求书 2/3 页 3 CN 111444181 A 3 息获取目标知识, 并将所述目标知识反馈给所述用户。 13.根据权利要求12所述的知识图谱更新方法, 其特征在于, 所述方法还包括: 响应所述用户对所述目标知识中的目标属性值的触发操作, 在所述终端设备中显示操 作选项; 响应所述用户对目标操作选项的触发操作, 根据所述目标操作选项对所述目标属性值 进行目标操作。 14.一种知识图谱更新装置, 其特征在于, 包括: 信息抽取模块, 用于响应于知。

12、识图谱更新请求, 调用第一服务获取消息队列中的第一 标识信息, 根据所述第一标识信息获取HBASE数据库中与所述第一标识信息对应的网络资 源, 并对所述网络资源进行信息抽取以获取三元组信息; 信息融合模块, 用于调用第二服务对所述三元组信息与原始三元组信息进行融合, 以 获取融合三元组信息; 第一处理模块, 用于调用第三服务对所述融合三元组信息中的属性和属性值进行处理 以获取中间三元组信息, 并根据所述中间三元组信息中的实体信息进行信息融合以获取目 标三元组信息; 第二处理模块, 用于调用第四服务对所述目标三元组信息进行处理, 以获取更新后的 知识图谱, 并将所述更新后的知识图谱写入所述HBA。

13、SE数据库中。 15.一种电子设备, 其特征在于, 包括: 一个或多个处理器; 存储装置, 用于存储一个或多个程序, 当所述一个或多个程序被所述一个或多个处理 器执行时, 使得所述一个或多个处理器执行如权利要求1至13中任一项所述的知识图谱更 新方法。 权利要求书 3/3 页 4 CN 111444181 A 4 知识图谱更新方法、 装置及电子设备 技术领域 0001 本公开涉及人工智能技术领域, 具体而言, 涉及一种知识图谱更新方法、 知识图谱 更新装置、 计算机存储介质及电子设备。 背景技术 0002 知识图谱(Knowledge Graph)是人工智能重要分支知识工程在大数据环境中的成 。

14、功应用, 知识图谱与大数据和深度学习一起, 成为推动互联网和人工智能发展的核心驱动 力之一。 知识图谱是结构化的语义知识库, 用于以符号形式描述物理世界中的概念及其相 互关系。 其基本组成单位是 “实体关系实体” 三元组, 以及实体及其相关属性-值对, 实体间 通过关系相互联结, 构成网状的知识结构。 0003 通常采用分布式文件系统(HDFS, Hadoop Distributed File System)存储知识图 谱, 在根据非结构化文本抽取得到三元组结构的知识, 并基于三元组结构的知识构建知识 图谱的过程中, 所有的数据处理模块都是通过脚本串行运行, 中间结果都存储在HDFS中。 但 。

15、是由于基于HDFS的知识图谱构建架构中有十余个数据处理模块, 各个数据处理模块都通过 脚本串行运行, 运行一次完整的流程需要一天甚至好几天的时间, 这样一来, 对于变化比较 快的实体, 其信息无法及时更新到知识图谱中, 实时性较差。 同时HDFS的存储结构决定了无 法根据key对单条数据进行修改。 0004 需要说明的是, 在上述背景技术部分公开的信息仅用于加强对本公开的背景的理 解, 因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。 发明内容 0005 本公开的实施例提供了一种知识图谱更新方法、 知识图谱更新装置、 计算机存储 介质及电子设备, 进而至少在一定程度上可以提高数据处。

16、理效率, 实时更新知识图谱中的 知识。 0006 本公开的其他特性和优点将通过下面的详细描述变得显然, 或部分地通过本公开 的实践而习得。 0007 根据本公开实施例的一个方面, 提供了一种知识图谱更新方法, 所述方法包括: 响 应于知识图谱更新请求, 调用第一服务获取消息队列中的第一标识信息, 根据所述第一标 识信息获取HBASE数据库中与所述第一标识信息对应的网络资源, 并对所述网络资源进行 知识抽取以获取三元组信息; 调用第二服务对所述三元组信息与原始三元组信息进行融 合, 以获取融合三元组信息; 调用第三服务对所述融合三元组信息中的属性和属性值进行 处理以获取中间三元组信息, 并根据所。

17、述中间三元组信息中的实体信息进行信息融合以获 取目标三元组信息; 调用第四服务对所述目标三元组信息进行处理, 以获取更新后的知识 图谱, 并将所述更新后的知识图谱写入所述HBASE数据库中。 0008 根据本公开实施例的一个方面, 提供了一种知识图谱更新装置, 所述装置包括: 信 息抽取模块, 用于响应于知识图谱更新请求, 调用第一服务获取消息队列中的第一标识信 说明书 1/16 页 5 CN 111444181 A 5 息, 根据所述第一标识信息获取HBASE数据库中与所述第一标识信息对应的网络资源, 并对 所述网络资源进行信息抽取以获取三元组信息; 信息融合模块, 用于调用第二服务对所述 。

18、三元组信息与原始三元组信息进行融合, 以获取融合三元组信息; 第一处理模块, 用于调用 第三服务对所述融合三元组信息中的属性和属性值进行处理以获取中间三元组信息, 并根 据所述中间三元组信息中的实体信息进行信息融合以获取目标三元组信息; 第二处理模 块, 用于调用第四服务对所述目标三元组信息进行处理, 以获取更新后的知识图谱, 并将所 述更新后的知识图谱写入所述HBASE数据库中。 0009 在本公开的一些实施例中, 所述HBASE数据库中存储有多个第二标识信息和与所 述第二标识信息对应的网络资源; 基于前述方案, 所述信息抽取模块配置为: 将所述第一标 识信息与各所述第二标识信息进行比对; 。

19、当所述HBASE数据库中存在包含所述第一标识信 息的目标第二标识信息时, 获取所述目标第二标识信息对应的目标网络资源, 并将所述目 标网络资源作为与所述第一标识信息对应的网络资源。 0010 在本公开的一些实施例中, 基于前述方案, 所述信息融合模块配置为: 将所述第一 标识信息与分布式文件系统数据库中的标识信息进行对比, 以获取与所述第一标识信息对 应的原始三元组信息; 采用与所述第一标识信息对应的三元组信息替换与所述第一标识信 息对应的原始三元组信息, 以获取所述融合三元组信息。 0011 在本公开的一些实施例中, 所述第三服务包括属性更新服务、 属性值对齐服务和 实体融合服务; 基于前述。

20、方案, 所述第一处理模块配置为: 调用所述属性更新服务对所述融 合三元组信息中的属性进行更新, 以使来自不同站点且具有相同属性的实体对应同一属性 信息; 调用所述属性值对齐服务对属性更新后的所述融合三元组信息中的属性值进行归一 处理, 以获取所述中间三元组信息; 调用所述实体融合服务对所述中间三元组信息中的实 体进行对齐和融合, 以获取所述目标三元组信息。 0012 在本公开的一些实施例中, 所述第三服务还包括属性值添加服务; 基于前述方案, 所述知识图谱更新装置配置为: 调用所述属性值添加服务读取属性值列表, 所述属性值列 表包括第一标识信息、 与所述第一标识信息对应的实体和与所述实体对应的。

21、属性值; 获取 所述融合三元组信息中缺失属性值的目标实体, 并获取与所述目标实体对应的第一标识信 息; 根据与所述目标实体对应的第一标识信息和所述目标实体从所述属性值列表中确定目 标属性值, 并将所述目标属性值添加至与所述目标实体对应的三元组信息中。 0013 在本公开的一些实施例中, 所述第四服务包括属性值选择服务; 基于前述方案, 所 述第二处理模块配置为: 调用所述属性值选择服务对所述目标三元组信息中的属性值进行 去重处理, 以获取所述更新后的知识图谱。 0014 在本公开的一些实施例中, 所述第四服务还包括关联服务; 基于前述方案, 所述知 识图谱更新装置还配置为: 调用所述关联服务根。

22、据所述目标三元组信息中的实体确定第一 实体标识信息, 并根据与所述目标三元组信息中的实体相关联的实体确定第二实体标识信 息; 将所述第一实体标识信息与所述第二实体标识信息进行关联, 以获取所述更新后的知 识图谱。 0015 在本公开的一些实施例中, 基于前述方案, 所述知识图谱更新装置还配置为: 根据 所述目标三元组信息中的实体构建名称索引。 0016 在本公开的一些实施例中, 基于前述方案, 所述知识图谱更新装置还配置为: 在获 说明书 2/16 页 6 CN 111444181 A 6 取所述中间三元组信息之后, 对所述中间三元组信息进行过滤, 以保留目标属性对应的属 性值。 0017 在。

23、本公开的一些实施例中, 基于前述方案, 所述知识图谱更新装置还配置为: 在获 取消息队列中的第一标识信息之前, 根据预设URL获取网络资源, 并根据所述预设URL确定 第一标识信息和第二标识信息; 将所述第一标识信息存储于所述消息队列中, 并将所述第 二标识信息和对应的网络资源存储于所述HBASE数据库中。 0018 在本公开的一些实施例中, 基于前述方案, 所述第一标识信息为对所述预设URL进 行哈希处理所形成的标识信息, 所述第二标识信息为根据所述第一标识信息形成且具有 HTML格式的标识信息, 所述消息队列为Kafka队列。 0019 在本公开的一些实施例中, 所述HBASE数据库中存储。

24、有与多个知识对应的名称索 引和实体标识信息; 基于前述方案, 所述知识图谱更新装置还可配置为: 获取用户在终端设 备中输入的待查询名称索引; 将所述待查询名称索引与各所述名称索引进行比对, 以获取 与所述待查询名称索引对应的目标实体标识信息, 并将所述目标实体标识信息反馈给所述 用户; 获取所述用户在所述终端设备中输入的目标实体标识信息, 根据所述目标实体标识 信息获取目标知识, 并将所述目标知识反馈给所述用户。 0020 在本公开的一些实施例中, 基于前述方案, 所述知识图谱更新装置还可配置为: 响 应所述用户对所述目标知识中的目标属性值的触发操作, 在所述终端设备中显示操作选 项; 响应所。

25、述用户对目标操作选项的触发操作, 根据所述目标操作选项对所述目标属性值 进行目标操作。 0021 根据本公开实施例的一个方面, 提供了一种计算机可读存储介质, 其上存储有计 算机程序, 所述程序被处理器执行时实现如上述实施例所述的知识图谱更新方法。 0022 根据本公开实施例的一个方面, 提供了一种电子设备, 包括一个或多个处理器; 存 储装置, 用于存储一个或多个程序, 当所述一个或多个程序被所述一个或多个处理器执行 时, 使得所述一个或多个处理器执行如上述实施例所述的知识图谱更新方法。 0023 在本公开的实施例所提供的技术方案中, 首先通过第一服务获取消息队列中的第 一标识信息, 根据第。

26、一标识信息获取HBASE数据库中对应的网络资源, 并对该网络资源进行 信息抽取以获取三元组信息; 接着调用第二服务对三元组信息和原始三元组信息进行融 合, 以获取融合三元组信息; 然后调用第三服务对融合三元组信息进行处理以获取目标三 元组信息; 最后调用第四服务对目标三元组信息进行处理以获取更新后的知识图谱。 本公 开的技术方案能够通过多个服务对根据第一标识信息确定的网络资源进行知识抽取、 知识 融合和处理, 提高知识图谱的更新效率, 保证了知识更新的实时性。 0024 应当理解的是, 以上的一般描述和后文的细节描述仅是示例性和解释性的, 并不 能限制本公开。 附图说明 0025 此处的附图被。

27、并入说明书中并构成本说明书的一部分, 示出了符合本公开的实施 例, 并与说明书一起用于解释本公开的原理。 显而易见地, 下面描述中的附图仅仅是本公开 的一些实施例, 对于本领域普通技术人员来讲, 在不付出创造性劳动的前提下, 还可以根据 这些附图获得其他的附图。 在附图中: 说明书 3/16 页 7 CN 111444181 A 7 0026 图1示出了本公开的一个实施例的所应用的网络系统的体系构架示意图; 0027 图2示意性示出了根据本公开的一个实施例的知识图谱更新方法的流程图; 0028 图3示意性示出了根据本公开的一个实施例的知识图谱更新单元的架构示意图; 0029 图4示意性示出了根。

28、据本公开的一个实施例的获取与第一标识信息对应的网络资 源的流程示意图; 0030 图5示意性示出了根据本公开的一个实施例的属性值补充的流程示意图; 0031 图6示意性示出了根据本公开的一个实施例的根据名称索引获取知识的流程示意 图; 0032 图7A-7D示意性示出了根据本公开的一个实施例的根据名称索引获取知识的界面 示意图; 0033 图8示意性示出了根据本公开的一个实施例的对知识进行修改的流程示意图; 0034 图9示意性示出了根据本公开的一个实施例的对知识进行修改的界面示意图; 0035 图10示意性示出了根据本公开的一个实施例的数据质量监控方法的流程示意图; 0036 图11示意性示。

29、出了根据本公开的一个实施例的知识图谱更新装置的框图; 0037 图12示出了适于用来实现本公开实施例的电子设备的计算机系统的结构示意图。 具体实施方式 0038 现在将参考附图更全面地描述示例实施方式。 然而, 示例实施方式能够以多种形 式实施, 且不应被理解为限于在此阐述的范例; 相反, 提供这些实施方式使得本公开将更加 全面和完整, 并将示例实施方式的构思全面地传达给本领域的技术人员。 0039 此外, 所描述的特征、 结构或特性可以以任何合适的方式结合在一个或更多实施 例中。 在下面的描述中, 提供许多具体细节从而给出对本公开的实施例的充分理解。 然而, 本领域技术人员将意识到, 可以实。

30、践本公开的技术方案而没有特定细节中的一个或更多, 或者可以采用其它的方法、 组元、 装置、 步骤等。 在其它情况下, 不详细示出或描述公知方 法、 装置、 实现或者操作以避免模糊本公开的各方面。 0040 附图中所示的方框图仅仅是功能实体, 不一定必须与物理上独立的实体相对应。 即, 可以采用软件形式来实现这些功能实体, 或在一个或多个硬件模块或集成电路中实现 这些功能实体, 或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。 0041 附图中所示的流程图仅是示例性说明, 不是必须包括所有的内容和操作/步骤, 也 不是必须按所描述的顺序执行。 例如, 有的操作/步骤还可以分解,。

31、 而有的操作/步骤可以合 并或部分合并, 因此实际执行的顺序有可能根据实际情况改变。 0042 知识图谱是知识工程的一个分支, 以知识工程中语义网络作为理论基础, 并且结 合了机器学习, 自然语言处理和知识表示和推理的最新成果, 在大数据的推动下受到了业 界和学术界的广泛关注, 其中机器学习、 自然语言处理和知识表示和推理都是人工智能的 重要方面。 人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控 制的机器模拟、 延伸和扩展人的智能, 感知环境、 获取知识并使用知识获得最佳结果的理 论、 方法、 技术及应用系统。 换句话说, 人工智能是计算机科学。

32、的一个综合技术, 它企图了解 智能的实质, 并生产出一种新的能以人类智能相似的方式做出反应的智能机器。 人工智能 也就是研究各种智能机器的设计原理与实现方法, 使机器具有感知、 推理与决策的功能。 说明书 4/16 页 8 CN 111444181 A 8 0043 人工智能技术是一门综合学科, 涉及领域广泛, 既有硬件层面的技术也有软件层 面的技术。 人工智能基础技术一般包括如传感器、 专用人工智能芯片、 云计算、 分布式存储、 大数据处理技术、 操作/交互系统、 机电一体化等技术。 人工智能软件技术主要包括计算机 视觉技术、 语音处理技术、 自然语言处理技术以及机器学习/深度学习等几大方向。

33、。 0044 自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智 能领域中的一个重要方向。 它研究能实现人与计算机之间用自然语言进行有效通信的各种 理论和方法。 自然语言处理是一门融语言学、 计算机科学、 数学于一体的科学。 因此, 这一领 域的研究将涉及自然语言, 即人们日常使用的语言, 所以它与语言学的研究有着密切的联 系。 自然语言处理技术通常包括文本处理、 语义理解、 机器翻译、 机器人问答、 知识图谱等技 术。 0045 机器学习(Machine Learning,ML)是一门多领域交叉学科, 涉及概率论、 统计学、 逼近论、 凸分析。

34、、 算法复杂度理论等多门学科。 专门研究计算机怎样模拟或实现人类的学习 行为, 以获取新的知识或技能, 重新组织已有的知识结构使之不断改善自身的性能。 机器学 习是人工智能的核心, 是使计算机具有智能的根本途径, 其应用遍及人工智能的各个领域。 机器学习和深度学习通常包括人工神经网络、 置信网络、 强化学习、 迁移学习、 归纳学习、 式 教学习等技术。 0046 随着人工智能技术研究和进步, 人工智能技术在多个领域展开研究和应用, 例如 常见的智能家居、 智能穿戴设备、 虚拟助理、 智能音箱、 智能营销、 无人驾驶、 自动驾驶、 无人 机、 机器人、 智能医疗、 智能客服等, 相信随着技术的发。

35、展, 人工智能技术将在更多的领域得 到应用, 并发挥越来越重要的价值。 0047 本公开实施例提供的方案涉及人工智能的自然语言处理技术, 具体通过如下实施 例进行说明: 0048 图1示出了可以应用本公开实施例的技术方案的示例性系统架构的示意图。 0049 如图1所示, 网络系统100包括网页下载单元101、 网络102、 消息单元103、 HBASE数 据库104、 知识图谱更新单元105。 其中网页下载单元101用于根据预设URL获取网络资源, 并 根据预设URL确定第一标识信息和第二标识信息, 该第一标识信息为对预设URL进行哈希处 理所得到的标识信息, 该第二标识信息为根据第一标识信息。

36、形成且具有HTML格式的标识信 息; 网络102用于在网络下载单元101、 消息单元103之间, 网络下载单元101、 HBASE数据库 104之间, 消息单元103、 HBASE数据库104和知识图谱更新单元105之间提供有线或无线的通 讯链路, 例如可以通过网络102将第一标识信息从网络下载单元101发送至消息单元103, 将 第二标识信息和网络资源从网络下载单元101发送至HBASE数据库104, 等等; 消息单元103 用于存放第一标识信息, 其具体可以是Kafka队列, Kafka是一种高吞吐量的分布式发布订 阅消息系统, 它可以处理消费者在网站中的所有动作流数据; HBASE数据库。

37、104用于存储第 二标识信息、 网络资源以及知识图谱更新过程中各个服务运行成功后所生成的数据; 知识 图谱更新单元105用于响应知识图谱更新请求, 调用相应的服务根据新的知识对旧的知识 进行更新; 进一步地, 知识图谱更新单元105可以包含一驱动服务和通过该驱动服务调用的 多个服务。 0050 网页下载单元101、 消息单元103、 HBASE数据库104、 知识图谱更新单元105可以同 时设置于独立的服务器中, 也可以是设置于由多个服务器组成的服务器集群等。 说明书 5/16 页 9 CN 111444181 A 9 0051 在本公开的一个实施例中, 网页下载单元101根据预设URL进行网。

38、页下载, 同时根 据预设URL确定第一标识信息和第二标识信息, 接着将第一标识信息通过网络102发送至消 息单元103, 以添加到Kafka消息队列中, 并将第二标识信息通过网络102发送至HBASE数据 库104进行存储。 接着, 在预设时间点触发知识图谱更新单元105对知识图谱进行更新, 知识 图谱更新单元105在接收到知识图谱更新请求后, 依次调用各个服务根据从消息队列中获 取的第一标识信息, 对HDFS中存储的知识图谱进行实时更新。 知识图谱更新单元105包含驱 动服务和由该驱动服务调用的多个服务, 具体地, 驱动服务接收到知识图谱更新请求后, 驱 动服务调用第一服务获取消息队列中的第。

39、一标识信息, 根据第一标识信息获取HBASE数据 库中与第一标识信息对应的网络资源, 并对网络资源进行知识抽取以获取三元组信息; 接 着第一服务将三元组信息返回至驱动服务, 驱动服务调用第二服务对三元组信息和原始三 元组信息进行融合, 以获取融合三元组信息; 然后第二服务将融合三元组信息返回至驱动 服务, 驱动服务调用第三服务对融合三元组信息进行处理以获取目标三元组信息; 最后第 三服务将目标三元组信息返回至驱动服务, 驱动服务调用第四服务对目标三元组信息进行 处理, 以获取更新后的知识图谱。 进一步地, 第四服务可以将更新后的知识图谱返回至驱动 服务, 驱动服务可以将更新后的知识图谱以及各个。

40、服务返回的数据写入HBASE数据库, 以供 后续的使用及调试。 本公开实施例中的知识图谱更新方法一方面能够基于HBASE数据库和 Kafka队列的存储结构, 通过多个服务对下载的网页中的知识进行抽取, 并根据抽取的知识 实时对知识图谱进行更新, 优化了知识图谱更新的流程, 提高了数据处理效率, 保证了知识 图谱中知识更新的实时性。 0052 Hadoop是一个能够对大量数据进行分布式处理的软件框, 实现了一个分布式文件 系统HDFS, HDFS有高容错性的特点, 并且设计用来部署在低廉的硬件上, 而且它提供高吞吐 量来访问应用程序的数据, 适合那些有这超大数据集的应用程序。 0053 在本领域。

41、的相关技术中, 在构建知识图谱时, 涉及大量的数据, 因此通常采用HDFS 存储知识图谱, 同时在根据下载的网页进行知识抽取, 并根据抽取的知识构建知识图谱的 过程中所采用的知识图谱构建系统包含十余个数据处理模块, 并且每个模块对应一个或多 个Hadoop脚本, 通过脚本串行运行实现知识图谱的构建。 但是由于数据处理模块较多, 数据 量大, 并且需要通过脚本串行运行的方式进行数据处理, 即使是对单条数据进行更新, 也需 要大量的时间才能运行一次完整的流程, 在工程中, 通常需要一天左右的时间, 对于变化比 较快的实体, 可能会导致信息无法及时更新到知识库的最终结果中, 对后续的知识图谱应 用带。

42、来障碍。 例如某个歌手最新发布了一首单曲, 如果根据相关技术中通过多个数据处理 模块的脚本串行运行对该歌手的知识进行更新, 那么需要耗费太长的时间, 就会导致用户 通过问答系统咨询相关信息时无法及时获得该最新单曲的信息, 这必然会影响用户体验和 问答系统的粘性。 0054 针对相关技术中存在的问题, 本公开实施例提供了一种知识图谱更新方法, 该方 法可以应用于服务器, 主要应用于服务器中部署的知识图谱更新单元, 如图1所示的知识图 谱更新单元105。 该服务器具体可以是云服务器, 知识图谱更新单元可以部署在与云服务器 相关的云服务上, 并基于云技术实现对知识图谱的实时更新。 0055 本公开实。

43、施例中的知识图谱更新方法可应用于任意需要进行知识图谱更新的系 统或平台, 例如问答系统、 医疗系统、 各类资讯平台等等。 图2示意性示出了根据本公开的一 说明书 6/16 页 10 CN 111444181 A 10 个实施例的知识图谱更新方法的流程图, 参照图2所示, 该知识图谱更新方法至少包括步骤 S210至步骤S240, 详细介绍如下: 0056 在步骤S210中, 响应于知识图谱更新请求, 调用第一服务获取消息队列中的第一 标识信息, 根据所述第一标识信息获取HBASE数据库中与所述第一标识信息对应的网络资 源, 并对所述网络资源进行知识抽取以获取三元组信息。 0057 在本公开的一个。

44、实施例中, 可以根据预设URL获取网络资源, 通过对网络资源进行 抽取可以获得知识, 并且基于所抽取的知识可以对已有的知识图谱中的数据进行更新。 URL (uniform resource locator)又称统一资源定位系统, 是因特网的万维网服务程序上用于 指定信息位置的表示方法, 根据具体的URL可以获取具体的网络资源, 例如通过URL: https:/ 可以获取百度百科主页面的信息。 在本公开的实施例中, 预设 URL可以是开发人员收集的现有的URL, 也可以是针对给定的种子页面, 根据种子页面中的 特定格式所构造的URL, 系统在获取预设URL后, 可以根据预设URL自动获取与预设U。

45、RL对应 的网络资源, 进一步地, 还可以根据预设URL确定第一标识信息和第二标识信息, 其中, 第一 标识信息, 以doc_id进行标记, 是通过对预设URL进行哈希处理所形成的标识信息, 可以视 为网页信息的关键字, 通常为64位无符号整形; 第二标识信息, 是根据第一标识信息形成且 具有HTML格式的标识信息, 具体表示为doc_idt base64_html, 根据第二标识信息可以获 取doc_id对应的网络资源。 0058 在本公开的一个实施例中, 在根据预设URL确定第一标识信息和第二标识信息后, 可以将第一标识信息存储于消息队列中, 将第二标识信息和对应的网络资源存储于HBASE。

46、 数据库中。 该消息队列具体可以为Kafka队列, Kafka是一种高吞吐量的分布式发布订阅消 息系统, 处理消费者在网站中的所有动作流数据, 同时HBASE是一个分布式的、 面向列的开 源数据库, 本公开实施例采用基于HBASE数据库和Kafka队列的存储结构能够优化知识图谱 更新的流程, 提高数据处理效率。 0059 在本公开的一个实施例中, 在系统中还可以设置定时触发单元, 该定时触发单元 可以在预设时间点向知识图谱更新单元发送知识图谱更新请求, 知识图谱更新单元响应该 知识图谱更新请求, 可以调用其中的服务根据第一标识信息、 HBASE数据库中的第二标识信 息以及与第二标识信息对应的网。

47、络资源对知识图谱进行更新。 0060 在本公开的一个实施例中, 知识图谱更新单元包含一驱动服务和由驱动服务调用 的多个服务, 其中该驱动服务一方面可以对多个服务进行调用, 一方面可以接收多个服务 运行成功所生成的数据, 并将数据写入HBASE数据库中; 该多个服务可以用于对网络资源进 行知识抽取并根据抽取的知识对知识图谱进行更新。 图3示出了知识图谱更新单元的架构 示意图, 如图3所示, 知识图谱更新单元300包括驱动服务301、 第一服务302、 第二服务303、 第三服务304和第四服务305, 其中, 第一服务302、 第二服务303、 第三服务304和第四服务 305由驱动服务301进。

48、行调用。 0061 接下来, 基于图3所示的知识图谱更新单元的架构对知识图谱更新方法的流程进 行说明。 0062 在接收到知识图谱更新请求后, 驱动服务301调用第一服务302, 该第一服务302具 体可以为抽取服务, 其可从Kafka队列中获取第一标识信息。 根据第一标识信息获取HBASE 数据库中与该第一标识信息对应的网络资源, 并对所获取的网络资源进行知识抽取以获取 说明书 7/16 页 11 CN 111444181 A 11 三元组信息。 进一步地, 定时触发单元在向知识图谱更新单元发送知识图谱更新请求之前, 可以从Kafka中读取包含第一标识信息的列表, 然后在发送知识图谱更新请求。

49、的同时发送 给知识图谱更新单元, 当调用第一服务进行知识抽取时, 可以从包含第一标识信息的列表 中获取第一标识信息。 0063 在本公开的一个实施例中, HBASE数据库中存储有多个第二标识信息和与各第二 标识信息对应的网络资源, 图4示出了获取与第一标识信息对应的网络资源的流程示意图, 如图4所示, 在步骤S401中, 将第一标识信息与各第二标识信息进行比对; 在步骤S402中, 当 第二标识信息中存在包含第一标识信息的目标第二标识信息时, 获取目标第二标识信息对 应的目标网络资源, 并将目标网络资源作为与第一标识信息对应的网络资源。 0064 接下来, 第一服务302可以对获取的网络资源进。

50、行抽取, 以获取其中的三元组信 息。 在对网络资源进行抽取时, 可以根据预设的正则表达式进行抽取, 也可以通过网页抽取 工具进行抽取, 本公开实施例对此不做具体限定。 0065 在步骤S220中, 调用第二服务对所述三元组信息与原始三元组信息进行融合, 以 获取融合三元组信息。 0066 在本公开的一个实施例中, 在通过第一服务302对网络资源进行抽取获得三元组 信息之后, 第一服务302可以将三元组信息返回至驱动服务301, 并通过驱动服务301调用第 二服务303, 该第二服务303为新旧融合服务, 可对三元组信息和原始三元组信息进行融合。 0067 在本公开的一个实施例中, 基于存储于H。

展开阅读全文
内容关键字: 知识 图谱 更新 方法 装置 电子设备
关于本文
本文标题:知识图谱更新方法、装置及电子设备.pdf
链接地址:https://www.zhuanlichaxun.net/pdf/9208877.html
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1