知识图谱生成方法、装置、电子设备及存储介质.pdf
《知识图谱生成方法、装置、电子设备及存储介质.pdf》由会员分享,可在线阅读,更多相关《知识图谱生成方法、装置、电子设备及存储介质.pdf(20页完成版)》请在专利查询网上搜索。
1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202010979383.7 (22)申请日 2020.09.17 (71)申请人 平安国际智慧城市科技股份有限公 司 地址 518000 广东省深圳市前海深港合作 区妈湾兴海大道3048号前海自贸大厦 1-34层 (72)发明人 陈芷昕 (74)专利代理机构 深圳市沃德知识产权代理事 务所(普通合伙) 44347 代理人 高杰于志光 (51)Int.Cl. G06F 16/36(2019.01) G06F 16/35(2019.01) (54)发明名称 知识图谱生成方法、 装置。
2、、 电子设备及存储 介质 (57)摘要 本发明涉及一种大数据技术, 揭露了一种知 识图谱生成方法, 包括: 将爬取的文本集中文本 进行聚类和特征词提取, 得到聚类文本集和特征 词集, 并识别所述聚类文本集和特征词集中存在 的属性关系, 生成节点属性关系, 将所述节点属 性关系和所述特征词集转换为对应的节点属性 关系向量和特征词向量集; 从所述特征词向量集 中筛选出不具有特征词属性关系的特征词向量, 得到筛选向量, 并计算任意两个筛选向量之间的 距离值; 根据所述距离值进行知识图谱的建模, 生成对应的知识图谱。 此外, 本发明还涉及区块 链技术, 所述特征词集可存储于区块链中。 本发 明可以提高。
3、知识图谱的全面性。 本发明还适用于 智慧政务领域, 从而推动智慧城市的建设。 权利要求书2页 说明书13页 附图4页 CN 111930963 A 2020.11.13 CN 111930963 A 1.一种知识图谱生成方法, 其特征在于, 所述方法包括: 爬取文本集, 将所述文本集中相同类型的文本进行聚类, 生成一个或者多个聚类文本 集; 识别每个所述聚类文本集中文本之间的基本文本属性关系; 提取所述聚类文本集中每一个聚类文本的特征词, 得到特征词集, 并识别所述特征词 集中特征词之间的特征词属性关系; 汇总所述基本文本属性关系和所述特征词属性关系, 生成节点属性关系, 将所述节点 属性关系。
4、和所述特征词集分别转换为节点属性关系向量和特征词向量集; 从所述特征词向量集中筛选出不具有特征词属性关系的特征词向量, 得到筛选向量, 并计算任意两个筛选向量之间的距离值; 在所述距离值不大于预设距离值时, 识别对应筛选向量之间的隐含属性关系向量, 并 对所述特征词向量集、 节点属性关系向量以及隐含属性关系向量进行文本-属性关系建模, 生成第一图谱向量空间, 将所述第一图谱向量空间转化为第一知识图谱; 在所述距离值大于预设距离值时, 对所述特征词向量集和节点属性关系向量进行文 本-属性关系建模, 生成第二图谱向量空间, 将所述第二图谱向量空间转化为第二知识图 谱。 2.如权利要求1所述的知识图。
5、谱生成方法, 其特征在于, 所述爬取文本集包括: 获取待爬取文本的网站页面, 并侦测所述网站页面的埋点控件; 根据所述埋点控件, 生成待爬取文本的配置参数表; 根据所述配置参数表, 采集所述网站页面中的文本, 得到所述文本集。 3.如权利要求1所述的知识图谱生成方法, 其特征在于, 所述识别所述聚类文本集中文 本之间的基本文本属性关系, 包括: 提取所述聚类文本集中的实体词语; 根据提取的所述实体词语, 及利用预设的实体属性关系图确定所述聚类文本集中文本 之间的基本文本属性关系。 4.如权利要求1所述的知识图谱生成方法, 其特征在于, 所述提取所述聚类文本集中每 一个聚类文本的特征词包括: 对。
6、所述每一个聚类文本进行分词, 得到词语集, 根据所述词语集, 执行所述特征词的提 取。 5.如权利要求4所述的知识图谱生成方法, 其特征在于, 所述对所述每一个聚类文本进 行分词, 得到词语集, 包括: 删除所述聚类文本中的停用词, 得到目的聚类文本; 筛选所述目的聚类文本中的词条, 生成初始词条集; 对所述初始词条集进行前缀切分, 得到所述词语集。 6.如权利要求1所述的知识图谱生成方法, 其特征在于, 所述计算任意两个筛选向量之 间的距离值, 包括: 利用下述方法计算任意两个筛选向量之间的距离值: 权利要求书 1/2 页 2 CN 111930963 A 2 其中, T(x, y)表示筛选。
7、向量之间的距离值, x表示筛选向量x, y表示筛选向量y,表示筛 选向量x的第i个向量值,表示筛选向量y的第i个向量值。 7.如权利要求1至6中任意一项所述的知识图谱生成方法, 其特征在于, 所述第一知识 图谱和第二知识图谱的界面为可视化界面。 8.一种知识图谱生成装置, 其特征在于, 所述装置包括: 爬取模块, 用于爬取文本集, 将所述文本集中相同类型的文本进行聚类, 生成一个或者 多个聚类文本集; 识别模块, 用于识别所述聚类文本集中文本之间的基本文本属性关系; 所述识别模块, 还用于提取所述聚类文本集中每一个聚类文本的特征词, 得到特征词 集, 并识别所述特征词集中特征词之间的特征词属性。
8、关系; 汇总及转换模块, 用于汇总所述基本文本属性关系和所述特征词属性关系, 生成节点 属性关系, 将所述节点属性关系和所述特征词集转换为对应的节点属性关系向量和特征词 向量集; 筛选及计算模块, 用于从所述特征词向量集中筛选出不具有特征词属性关系的特征词 向量, 得到筛选向量, 并计算任意两个筛选向量之间的距离值; 所述识别模块, 还用于识别所述距离值是否大于预设距离值; 生成模块, 用于在所述距离值不大于预设距离值时, 识别对应筛选向量之间的隐含属 性关系向量, 并对所述特征词向量集、 节点属性关系向量以及隐含属性关系向量进行文本- 属性关系建模, 生成第一图谱向量空间, 将所述第一图谱向。
9、量空间转化为第一知识图谱; 所述生成模块, 还用于在所述距离值大于预设距离值时, 对所述特征词向量集和节点 属性关系向量进行文本-属性关系建模, 生成第二图谱向量空间, 将所述第二图谱向量空间 转化为第二知识图谱。 9.一种电子设备, 其特征在于, 所述电子设备包括: 至少一个处理器; 以及, 与所述至少一个处理器通信连接的存储器; 其中, 所述存储器存储有可被所述至少一个处理器执行的指令, 所述指令被所述至少一个处 理器执行, 以使所述至少一个处理器能够执行如权利要求1至7中任意一项所述的知识图谱 生成方法。 10.一种计算机可读存储介质, 存储有计算机程序, 其特征在于, 所述计算机程序被。
10、处 理器执行时实现如权利要求1至7中任意一项所述的知识图谱生成方法。 权利要求书 2/2 页 3 CN 111930963 A 3 知识图谱生成方法、 装置、 电子设备及存储介质 技术领域 0001 本发明涉及大数据技术领域, 尤其涉及一种知识图谱生成方法、 装置、 电子设备及 存储介质。 背景技术 0002 知识图谱在图书情报界称为知识域可视化或知识领域映射地图, 是显示知识发展 进程与结构关系的一系列各种不同的图形, 用可视化技术描述知识资源及其载体, 挖掘、 分 析、 构建、 绘制和显示知识及它们之间的相互联系, 以结构化的形式描述客观世界中的概 念、 实体及其关系。 0003 知识图谱。
11、为互联网上海量、 异构、 动态的大数据表达、 组织、 管理以及利用提供了 一种更为有效的方式, 使得网络的智能化水平更高, 更加接近于人类的认知思维。 0004 当前的知识图谱通常是抽取数据中的实体信息及实体之间的属性关系, 汇总所述 属性关系生成的。 但通过上述方法生成的知识图谱, 并没有考虑到数据中存在的隐含的实 体关系, 导致最终生成的知识图谱不够全面。 发明内容 0005 本发明提供一种知识图谱生成方法、 装置、 电子设备及计算机可读存储介质, 其主 要目的在于提高知识图谱的全面性。 0006 为实现上述目的, 本发明提供的一种知识图谱生成方法, 包括: 爬取文本集, 将所述文本集中相。
12、同类型的文本进行聚类, 生成一个或者多个聚类文本 集; 识别所述聚类文本集中文本之间的基本文本属性关系; 提取所述聚类文本集中每一个聚类文本的特征词, 得到特征词集, 并识别所述特征词 集中特征词之间的特征词属性关系; 汇总所述基本文本属性关系和所述特征词属性关系, 生成节点属性关系, 将所述节点 属性关系和所述特征词集转换为对应的节点属性关系向量和特征词向量集; 从所述特征词向量集中筛选出不具有特征词属性关系的特征词向量, 得到筛选向量, 并计算任意两个筛选向量之间的距离值; 在所述距离值不大于预设距离值时, 识别对应筛选向量之间的隐含属性关系向量, 并 对所述特征词向量集、 节点属性关系向。
13、量以及隐含属性关系向量进行文本-属性关系建模, 生成第一图谱向量空间, 将所述第一图谱向量空间转化为第一知识图谱; 在所述距离值大于预设距离值时, 对所述特征词向量集和节点属性关系向量进行文 本-属性关系建模, 生成第二图谱向量空间, 将所述第二图谱向量空间转化为第二知识图 谱。 0007 可选地, 所述爬取文本集包括: 获取待爬取文本的网站页面, 并侦测所述网站页面的埋点控件; 说明书 1/13 页 4 CN 111930963 A 4 根据所述埋点控件, 生成待爬取文本的配置参数表; 根据所述配置参数表, 采集所述网站页面中的文本, 得到所述文本集。 0008 可选地, 述识别所述聚类文本。
14、集中文本之间的基本文本属性关系, 包括: 提取所述聚类文本集中的实体词语; 根据提取的所述实体词语, 及利用预设的实体属性关系图确定所述聚类文本集中文本 之间的基本文本属性关系。 0009 可选地, 所述提取所述聚类文本集中每一个聚类文本的特征词包括: 对所述每一个聚类文本进行分词, 得到词语集, 根据所述词语集, 执行所述特征词的提 取。 0010 可选地, 所述对所述每一个聚类文本进行分词, 得到词语集, 包括: 删除所述聚类文本中的停用词, 得到目的聚类文本; 筛选所述目的聚类文本中的词条, 生成初始词条集; 对所述初始词条集进行前缀切分, 得到所述词语集。 0011 可选地, 所述计算。
15、任意两个筛选向量之间的距离值, 包括: 利用下述方法计算任意两个筛选向量之间的距离值: 其中, T(x, y)表示筛选向量之间的距离值, x表示筛选向量x, y表示筛选向量y,表示 筛选向量x的第i个向量值,表示筛选向量y的第i个向量值。 0012 可选地, 所述第一知识图谱和第二知识图谱的界面为可视化界面。 0013 为了解决上述问题, 本发明还提供一种知识图谱生成装置, 所述装置包括: 爬取模块, 用于爬取文本集, 将所述文本集中相同类型的文本进行聚类, 生成一个或者 多个聚类文本集; 识别模块, 用于识别所述聚类文本集中文本之间的基本文本属性关系; 所述识别模块, 还用于提取所述聚类文本。
16、集中每一个聚类文本的特征词, 得到特征词 集, 并识别所述特征词集中特征词之间的特征词属性关系; 汇总及转换模块, 用于汇总所述基本文本属性关系和所述特征词属性关系, 生成节点 属性关系, 将所述节点属性关系和所述特征词集转换为对应的节点属性关系向量和特征词 向量集; 筛选及计算模块, 用于从所述特征词向量集中筛选出不具有特征词属性关系的特征词 向量, 得到筛选向量, 并计算任意两个筛选向量之间的距离值; 所述识别模块, 还用于识别所述距离值是否大于预设距离值; 生成模块, 用于在所述距离值不大于预设距离值时, 识别对应筛选向量之间的隐含属 性关系向量, 并对所述特征词向量集、 节点属性关系向。
17、量以及隐含属性关系向量进行文本- 属性关系建模, 生成第一图谱向量空间, 将所述第一图谱向量空间转化为第一知识图谱; 所述生成模块, 还用于在所述距离值大于预设距离值时, 对所述特征词向量集和节点 属性关系向量进行文本-属性关系建模, 生成第二图谱向量空间, 将所述第二图谱向量空间 转化为第二知识图谱。 0014 为了解决上述问题, 本发明还提供一种电子设备, 所述电子设备包括: 说明书 2/13 页 5 CN 111930963 A 5 存储器, 存储至少一个指令; 及 处理器, 执行所述存储器中存储的指令以实现上述所述的知识图谱生成方法。 0015 为了解决上述问题, 本发明还提供一种计算。
18、机可读存储介质, 所述计算机可读存 储介质中存储有至少一个指令, 所述至少一个指令被电子设备中的处理器执行以实现上述 所述的知识图谱生成方法。 0016 本发明实施例首先识别爬取的聚类文本之间的基本文本属性关系以及聚类文本 中特征词的特征词属性关系, 汇总所述文本属性关系和所述特征词属性关系, 生成节点属 性关系, 并将所述节点属性关系和所述特征词集转换为对应的节点属性关系向量和特征词 向量集, 通过爬取的手段保证了聚类文本的实时性, 及基于所述节点属性关系的确定, 可以 直观的反应出聚类文本之间和特征词之间的关系, 保障了知识图谱生成的前提; 其次, 本发 明实施例计算所述特征词向量集中不具。
19、有特征词属性关系的特征词向量之间的距离值, 可 以识别出特征词之间存在的隐含属性关系, 保障知识图谱生成的全面性; 进一步地, 本发明 实施例若所述距离值不大于预设距离值, 则生成对应特征词向量之间的隐含属性关系向 量, 并对所述特征词向量、 节点属性关系向量以及隐含属性关系向量进行文本-属性关系建 模, 得到第一知识图谱, 若所述距离值大于预设距离值, 则对所述特征词向量和节点属性关 系向量进行文本-属性关系建模, 得到第二知识图谱, 基于所述第一知识图谱和第二知识图 谱, 可以直观形象的全面展示出政策之间的属性关系, 从而可以确定政策之间较为全面的 关联关系, 进而可以提高生成的知识图谱的。
20、全面性。 附图说明 0017 图1为本发明一实施例提供的知识图谱生成方法的流程示意图; 图2为本发明第一实施例中图1提供的知识图谱方法步骤S1的流程示意图; 图3为本发明第一实施例中图1提供的知识图谱方法步骤S2的流程示意图; 图4为本发明一实施例提供的知识图谱生成装置的模块示意图; 图5为本发明一实施例提供的实现知识图谱生成方法的电子设备的内部结构示意图; 本发明目的的实现、 功能特点及优点将结合实施例, 参照附图做进一步说明。 具体实施方式 0018 应当理解, 此处所描述的具体实施例仅仅用以解释本发明, 并不用于限定本发明。 0019 本申请实施例提供的知识图谱生成方法的执行主体包括但不。
21、限于服务端、 终端等 能够被配置为执行本申请实施例提供的该方法的电子设备中的至少一种。 换言之, 所述知 识图谱生成方法可以由安装在终端设备或服务端设备的软件或硬件来执行, 所述软件可以 是区块链平台。 所述服务端包括但不限于: 单台服务器、 服务器集群、 云端服务器或云端服 务器集群等。 0020 参照图1所示的本发明一实施例提供的知识图谱生成方法的流程示意图。 在本发 明实施例中, 所述知识图谱生成方法包括: S1、 爬取文本集, 将所述聚类文本集中相同类型的聚类文本进行聚类, 生成多个聚类文 本集。 0021 本发明其中一个实施例中, 所述文本集包括政策文本集, 所述政策文本集由不同 说。
22、明书 3/13 页 6 CN 111930963 A 6 地区政府颁布的政策文件形成, 例如: 地方落户政策文件、 区域科技发展政策文件、 区域拆 迁补偿政策文件以及区域招商引资政策文件等等。 0022 优选地, 本发明实施例利用埋点技术实现所述聚类文本集的爬取, 基于所述埋点 技术可以爬取实时最新文件, 有利于保证后续知识图谱建立的实时性。 0023 具体的, 参阅图2所示, 所述爬取文本集, 包括: S10、 获取待爬取聚类文本的网站页面, 并侦测所述网站页面的埋点控件; S11、 根据所述埋点控件, 生成待爬取聚类文本的配置参数表; S12、 根据所述配置参数表, 采集所述网站页面中的聚。
23、类文本, 得到所述聚类文本集。 0024 其中, 需要声明的是, 埋点技术属于当前较为成熟的技术, 因此, 在本发明中, 关于 埋点技术具体的实现原理不再进一步地阐述。 0025 进一步地, 由于爬取的聚类文本集具有不同类型的聚类文本, 其涉及到多个行业, 多个领域, 因此, 本发明通过将所述聚类文本集中相同类型的聚类文本进行聚类, 生成多个 聚类文本集, 以区分出所述聚类文本集中不同类型的聚类文本及实现相同类型的聚类文本 的集成。 0026 示例性地, 所述文本集为政策文本集, 则政策文本集的类型包括: 政策主题、 政策 类别以及政策行业等, 于是, 本发明将政策类型为关于地方落户的政策文件。
24、聚类, 将区域招 商引资的政策文件进行聚类等等。 0027 一个可选实施例中, 利用当前已知k-means算法实现所述聚类文本的聚类。 0028 基于上述的实施方案, 通过爬取的手段保证了聚类文本的实时性, 采用聚类的手 段实现了聚类文本集的聚类文本分类, 提高后续聚类文本的处理时间。 0029 S2、 识别每个所述聚类文本集中聚类文本之间的基本文本属性关系。 0030 本发明较佳实施例中, 参阅图3所示, 所述S2包括: S20、 提取所述聚类文本集中的实体词语; S21、 根据提取的所述实体词语, 及利用预设的实体属性关系图确定所述聚类文本集中 聚类文本之间的基本文本属性关系。 0031 。
25、一个优选实施例中, 利用当前已知的实体命名识别 (Named Entity Recognition, NER) 工具提取所述聚类文本集中的实体词语。 0032 一个优选实施例中, 所述预设的实体属性关系图通过E-R图进行构建, 其中, 需要 声明的是, 所述预设的实体属性关系图基于不同的用户选择进行构建。 0033 示例性地, 所述聚类文本集为地方落户聚类文本集, 其包括: 市落户聚类文本、 区 落户聚类文本以及县落户聚类文本等, 其中, 利用所述NER工具提取所述地方落户聚类文本 集的实体词语包括: 市、 区、 县, 根据预设的政策实体关系图, 查询出市与区的属性关系为包 含, 市与县的属性。
26、关系也为包含, 区与县的属性关系为并列, 从而可以确定市落户聚类文本 与区落户聚类文本的基本文本属性关系为包含关系, 市落户聚类文本与县落户聚类文本的 基本文本属性关系为包含关系, 区落户聚类文本与县落户聚类文本的文本属性关系为并列 关系, 为了方便理解, 将所述市落户聚类文本、 区落户聚类文本以及县落户聚类文本作为实 体1、 实体2以及实体3, 则可构建文本属性关系三元组包括:(实体1, 包含, 实体2) 、(实体1, 包含, 实体3) 以及 (实体2, 并列, 实体3) 。 0034 基于所述文本属性关系的确定, 可以直观的反应出聚类文本之间的关系, 保障了 说明书 4/13 页 7 CN。
27、 111930963 A 7 知识图谱生成的前提。 0035 S3、 提取每个所述聚类文本集中每一个聚类文本的特征词, 得到特征词集, 并识别 所述特征词集中特征词之间的特征词属性关系。 0036 在本发明的至少一个实例中, 在提取每个所述聚类文本集中每一个聚类文本的特 征词之前, 还包括: 对所述每一个聚类文本进行分词, 得到词语集, 根据所述词语集, 执行所 述特征词的提取, 以加快后续特征词的提取速度。 0037 优选地, 本发明通过预设的匹配策略将所述聚类文本集中每一个聚类文本的所有 句子与预设词典中的词表进行匹配, 得到所述词语集。 其中, 所述预设的匹配策略可以为正 向最大匹配法,。
28、 所述正向最大匹配法的思想为从左到右将所述聚类文本中的几个连续字符 与词表匹配, 如果匹配上, 则切分出一个词。 其中, 所述预设词典包括: 停用词词典、 统计字 典以及前缀词典等。 0038 具体的, 所述对所述每一个聚类文本进行分词, 得到词语集, 包括: 利用所述停用词词典删除所述聚类文本中的停用词, 得到目的聚类文本; 利用所述统计字典筛选所述目的聚类文本中的词条, 生成初始词条集; 利用所述前缀词典对所述初始词条集进行前缀切分, 得到所述词语集。 0039 示例性地, 所述聚类文本中的一个句子为 “现如今的房价异常动荡” , 通过所述停 用词删除句子中 “的” , 得到句子 “现如今。
29、房子异常动荡” , 通过所述统计词典进行字符匹配, 得到句子中 “现”“如今”“房子”“异常”“动荡” 为匹配成功的词语, 利用所述前缀词典将匹配 成功的词进行切分, 得到词语为:“现” 、“如今” 、“房子” 、“异常” 以及 “动荡” 。 0040 进一步地, 本发明较佳实施例中, 所述提取每个所述聚类文本集中每一个聚类文 本的特征词, 即提取出所述词语集中的实体词语, 其中, 所述实体词语包括但不限于: 人名、 地名、 机构名以及专有名词。 0041 一个可选实施例中, 利用上述NER工具提取出所述词语集中的实体词语。 例如, 对 市落户政策的词语集进行实体词语提取, 可以包括: 市名、。
30、 市政府机构名、 签署人姓名、 落户 文件名、 落户方向以及落户扶持力度等等。 0042 基于提取的所述实体名词, 保障了知识图谱的生成雏形。 0043 进一步地, 由于所提取出的特征词具有一定的属性关系, 例如上述市落户政策的 实体词语中, 落户文件名与签署人姓名的属性关系为: 签署人签署落户文件, 因此, 本发明 实施例通过识别所述特征词集中特征词之间的特征词属性关系, 以确定各个特征词之间的 节点关系, 从而建立特征词之间的实体关系节点, 进而搭建初始知识图谱。 0044 本发明较佳实施例中, 所述特征词属性关系的识别原理与上述基本文本属性关系 的识别原理相同, 在此不做进一步地阐述。 。
31、0045 其中, 需要强调的是, 为进一步保证上述特征词集的私密和安全性, 上述特征词集 还可以存储于一区块链的节点中。 0046 S4、 汇总所述文本属性关系和所述特征词属性关系, 生成节点属性关系, 将所述节 点属性关系和所述特征词集转换为对应的节点属性关系向量和特征词向量集。 0047 在本发明的至少一个实施例中, 由于所述文本属性关系和特征词属性关系存在相 同的属性关系, 例如, 包含、 并列、 属于等共同属性, 于是, 本发明将所述文本属性关系和所 述特征词属性关系进行汇总, 生成节点属性关系, 以避免重复出现相同的属性关系。 说明书 5/13 页 8 CN 111930963 A 。
32、8 0048 进一步地, 在本发明的其中一个可选实施例中, 利用node2vec算法将所述节点属 性关系转换为对应的节点属性关系向量, 利用word2vec算法将所述特征词转换为特征词向 量, 其中, node2vec和word2vec向量转换算法均为当前较为成熟的技术, 在此不做进一步地 阐述。 0049 S5、 从所述特征词向量集中筛选出不具有特征词属性关系的特征词向量, 得到筛 选向量, 并计算任意两个筛选向量之间的距离值。 0050 在本发明的至少一个实施例中, 根据上述识别出的特征词之间存在的特征词属性 关系, 选取出不具有特征词属性关系的特征词向量, 得到所述筛选向量。 0051 。
33、一个优选实施例中, 利用下述方法计算任意两个筛选向量之间的距离值: 其中, T(x, y)表示筛选向量之间的距离值, x表示筛选向量x, y表示筛选向量y,表示 筛选向量x的第i个向量值,表示筛选向量y的第i个向量值。 0052 S6、 识别所述距离值是否大于预设距离值。 0053 本发明实施例中, 所述预设距离值为: 0.25。 0054 若所述距离值不大于预设距离值, 则执行S7、 识别对应筛选向量之间的隐含属性 关系向量, 并对所述特征词向量集、 节点属性关系向量以及隐含属性关系向量进行文本-属 性关系建模, 生成第一知识图谱向量空间, 将所述第一知识图谱向量空间转化为第一知识 图谱。 。
34、0055 本发明较佳实施例中, 所述距离值不大于预设距离值, 说明不具有基本文本属性 关系的特征词向量之间存在一定的隐含属性关系, 例如, 计算落户区域与落户补贴两个特 征词向量的距离值不大于预设距离值, 则说明所述落户区域与落户补贴存在一定的隐含属 性关系, 比如, 落户区域越发达, 落户补贴越大, 成正比的隐含属性关系。 0056 本发明较佳实施例中, 所述隐含属性关系向量的识别原理与上述基本文本属性关 系的识别原理相同, 在此不做进一步地阐述。 0057 进一步地, 本发明实施例利用当前已知的翻译模型 (Trans) 实现所述特征词向量 集、 节点属性关系向量以及隐含属性关系向量的文本-。
35、属性关系建模, 得到所述第一知识图 谱向量空间。 0058 其中, 所述利用翻译模型 (Trans) 包括: 多元关系数据嵌入 (简称TransE)、 将知识 嵌入到超平面(简称TransH) 、 实体和关系分开嵌入 (TransR)、 通过动态映射矩阵嵌入 (TransD)以及自适应的度量函数 (TransA) 。 0059 需要声明的是, 利用所述Trans实现实体-关系向量的建模属于当前较为成熟的技 术, 在此不做进一步地阐述。 0060 进一步地, 本发明实施例利用TensorBoard工具将所述知识图谱向量空间转换为 可视化界面的知识图谱, 得到所述第一知识图谱, 以直观形象的全面展。
36、示出知识图谱中各 个实体之间的属性关系, 通过所述属性关系可以确定实体之间较为全面的关联关系。 0061 若所述距离值大于预设距离值, 则执行S8、 对所述特征词向量集和节点属性关系 向量进行文本-属性关系建模, 生成第二知识图谱向量空间, 将所述第二知识图谱向量空间 转化为第二知识图谱。 说明书 6/13 页 9 CN 111930963 A 9 0062 本发明实施例中, 利用上述的翻译模型 (Trans) 实现所述特征词向量和节点属性 关系向量的文本-属性关系建模 , 得到所述第二知识图谱向量空间 , 及利用上述 TensorBoard工具将所述知识图谱向量空间转换为可视化界面的知识图谱。
37、, 得到所述第二 知识图谱, 以直观形象的全面展示出知识图谱中各个实体之间的属性关系, 通过所述属性 关系可以确定实体之间较为全面的关联关系。 0063 为了便于理解本发明所述的知识图谱, 本发明以政策图谱为例进行阐述, 由于不 同地区会颁布不同的政策文件, 其中, 政策文件包含大量的实体词语, 比如: 政府、 机关、 人 名等, 且各个实体词语之间关系错综复杂, 为了方便对所述政策文件中各个实体词语之间 关系进行直观的展示, 根据每个政策文件中实体词语之间的属性关系, 建立实体词语、 属性 关系、 实体词语的三元组, 并对建立的三元组进行汇总合并, 从而形成一个政策图谱。 0064 综上所述。
38、, 本发明实施例首先识别爬取的聚类文本之间的基本文本属性关系以及 聚类文本中特征词的特征词属性关系, 汇总所述文本属性关系和所述特征词属性关系, 生 成节点属性关系, 并将所述节点属性关系和所述特征词集转换为对应的节点属性关系向量 和特征词向量集, 通过爬取的手段保证了聚类文本的实时性, 及基于所述节点属性关系的 确定, 可以直观的反应出聚类文本之间和特征词之间的关系, 保障了知识图谱生成的前提; 其次, 本发明实施例计算所述特征词向量集中不具有特征词属性关系的特征词向量之间的 距离值, 可以识别出特征词之间存在的隐含属性关系, 保障知识图谱生成的全面性; 进一步 地, 本发明实施例若所述距离。
39、值不大于预设距离值, 则生成对应特征词向量之间的隐含属 性关系向量, 并对所述特征词向量、 节点属性关系向量以及隐含属性关系向量进行文本-属 性关系建模, 得到第一知识图谱, 若所述距离值大于预设距离值, 则对所述特征词向量和节 点属性关系向量进行文本-属性关系建模, 得到第二知识图谱, 基于所述第一知识图谱和第 二知识图谱, 可以直观形象的全面展示出政策之间的属性关系, 从而可以确定政策之间较 为全面的关联关系, 进而可以提高生成的知识图谱的全面性。 0065 如图4所示, 是本发明知识图谱生成装置的功能模块图。 0066 本发明所述知识图谱生成装置100可以安装于电子设备中。 根据实现的功。
40、能, 所述 知识图谱生成装置可以包括爬取模块101、 识别模块102、 汇总及转换模块103、 筛选及计算 模块104以及生成模块105。 本发所述模块也可以称之为单元, 是指一种能够被电子设备处 理器所执行, 并且能够完成固定功能的一系列计算机程序段, 其存储在电子设备的存储器 中。 0067 在本实施例中, 关于各模块/单元的功能如下: 所述爬取模块101, 用于爬取文本集, 将所述文本集中相同类型的文本进行聚类, 生成 一个或者多个聚类文本集。 0068 本发明其中一个实施例中, 所述文本集包括政策文本集, 所述政策文本集由不同 地区政府颁布的政策文件形成, 例如: 地方落户政策文件、 。
41、区域科技发展政策文件、 区域拆 迁补偿政策文件以及区域招商引资政策文件等等。 0069 优选地, 本发明实施例利用埋点技术实现所述聚类文本集的爬取, 基于所述埋点 技术可以爬取实时最新文件, 有利于保证后续知识图谱建立的实时性。 0070 具体的, 所述爬取模块101采用下述方法爬取文本集: 步骤A、 获取待爬取聚类文本的网站页面, 并侦测所述网站页面的埋点控件; 说明书 7/13 页 10 CN 111930963 A 10 步骤B、 根据所述埋点控件, 生成待爬取聚类文本的配置参数表; 步骤C、 根据所述配置参数表, 采集所述网站页面中的聚类文本, 得到所述聚类文本集。 0071 其中, 。
42、需要声明的是, 埋点技术属于当前较为成熟的技术, 因此, 在本发明中, 关于 埋点技术具体的实现原理不再进一步地阐述。 0072 进一步地, 由于爬取的聚类文本集具有不同类型的聚类文本, 其涉及到多个行业, 多个领域, 因此, 本发明通过将所述聚类文本集中相同类型的聚类文本进行聚类, 生成多个 聚类文本集, 以区分出所述聚类文本集中不同类型的聚类文本及实现相同类型的聚类文本 的集成。 0073 示例性地, 所述文本集为政策文本集, 则政策文本集的类型包括: 政策主题、 政策 类别以及政策行业等, 于是, 本发明将政策类型为关于地方落户的政策文件聚类, 将区域招 商引资的政策文件进行聚类等等。 。
43、0074 一个可选实施例中, 利用当前已知k-means算法实现所述聚类文本的聚类。 0075 基于上述的实施方案, 通过爬取的手段保证了聚类文本的实时性, 采用聚类的手 段实现了聚类文本集的聚类文本分类, 提高后续聚类文本的处理时间。 0076 所述识别模块102, 用于识别每个所述聚类文本集中聚类文本之间的基本文本属 性关系。 0077 本发明较佳实施例中, 所述识别模块102采用下述方法识别每个所述聚类文本集 中聚类文本之间的基本文本属性关系: I、 提取所述聚类文本集中的实体词语; II、 根据提取的所述实体词语, 及利用预设的实体属性关系图确定所述聚类文本集中 聚类文本之间的基本文本。
44、属性关系。 0078 一个优选实施例中, 利用当前已知的实体命名识别 (Named Entity Recognition, NER) 工具提取所述聚类文本集中的实体词语。 0079 一个优选实施例中, 所述预设的实体属性关系图通过E-R图进行构建, 其中, 需要 声明的是, 所述预设的实体属性关系图基于不同的用户选择进行构建。 0080 示例性地, 所述聚类文本集为地方落户聚类文本集, 其包括: 市落户聚类文本、 区 落户聚类文本以及县落户聚类文本等, 其中, 利用所述NER工具提取所述地方落户聚类文本 集的实体词语包括: 市、 区、 县, 根据预设的政策实体关系图, 查询出市与区的属性为包含。
45、, 市与县的属性关系也为包含, 区与县的属性关系为并列, 从而可以确定市落户聚类文本与 区落户聚类文本的基本文本属性关系为包含关系, 市落户聚类文本与县落户聚类文本的基 本文本属性关系为包含关系, 区落户聚类文本与县落户聚类文本的基本文本属性关系为并 列关系, 为了方便理解, 将所述市落户聚类文本、 区落户聚类文本以及县落户聚类文本作为 实体1、 实体2以及实体3, 则可构建文本属性关系三元组包括:(实体1, 包含, 实体2) 、(实体 1, 包含, 实体3) 以及 (实体2, 并列, 实体3) 。 0081 基于所述文本属性关系的确定, 可以直观的反应出聚类文本之间的关系, 保障了 知识图谱。
46、生成的前提。 0082 所述识别模块102, 还用于提取每个所述聚类文本集中每一个聚类文本的特征词, 得到特征词集, 并识别所述特征词集中特征词之间的特征词属性关系。 0083 在本发明的至少一个实例中, 在提取每个所述聚类文本集中每一个聚类文本的特 说明书 8/13 页 11 CN 111930963 A 11 征词之前, 还包括: 对所述每一个聚类文本进行分词, 得到词语集, 根据所述词语集, 执行所 述特征词的提取, 以加快后续特征词的提取速度。 0084 优选地, 本发明通过预设的匹配策略将所述聚类文本集中每一个聚类文本的所有 句子与预设词典中的词表进行匹配, 得到所述词语集。 其中,。
47、 所述预设的匹配策略可以为正 向最大匹配法, 所述正向最大匹配法的思想为从左到右将所述聚类文本中的几个连续字符 与词表匹配, 如果匹配上, 则切分出一个词。 其中, 所述预设词典包括: 停用词词典、 统计字 典以及前缀词典等。 0085 具体的, 所述对所述每一个聚类文本进行分词, 得到词语集, 包括: 利用所述停用词词典删除所述聚类文本中的停用词, 得到目的聚类文本; 利用所述统计字典筛选所述目的聚类文本中的词条, 生成初始词条集; 利用所述前缀词典对所述初始词条集进行前缀切分, 得到所述词语集。 0086 示例性地, 所述聚类文本中的一个句子为 “现如今的房价异常动荡” , 通过所述停 用。
48、词删除句子中 “的” , 得到句子 “现如今房子异常动荡” , 通过所述统计词典进行字符匹配, 得到句子中 “现”“如今”“房子”“异常”“动荡” 为匹配成功的词语, 利用所述前缀词典将匹配 成功的词进行切分, 得到词语为:“现” 、“如今” 、“房子” 、“异常” 以及 “动荡” 。 0087 进一步地, 本发明较佳实施例中, 所述提取每个所述聚类文本集中每一个聚类文 本的特征词, 即提取出所述词语集中的实体词语, 其中, 所述实体词语包括但不限于: 人名、 地名、 机构名以及专有名词。 0088 一个可选实施例中, 利用上述NER工具提取出所述词语集中的实体词语。 例如, 对 市落户政策的。
49、词语集进行实体词语提取, 可以包括: 市名、 市政府机构名、 签署人姓名、 落户 文件名、 落户方向以及落户扶持力度等等。 0089 基于提取的所述实体名词, 保障了知识图谱的生成雏形。 0090 进一步地, 由于所提取出的特征词具有一定的属性关系, 例如上述市落户政策的 实体词语中, 落户文件名与签署人姓名的属性关系为: 签署人签署落户文件, 因此, 本发明 实施例通过识别所述特征词集中特征词之间的特征词属性关系, 以确定各个特征词之间的 节点关系, 从而建立特征词之间的实体关系节点, 进而搭建初始知识图谱。 0091 本发明较佳实施例中, 所述特征词属性关系的识别原理与上述基本文本属性关系。
50、 的识别原理相同, 在此不做进一步地阐述。 0092 其中, 需要强调的是, 为进一步保证上述特征词集的私密和安全性, 上述特征词集 还可以存储于一区块链的节点中。 0093 所述汇总及转换模块103, 用于汇总所述文本属性关系和所述特征词属性关系, 生 成节点属性关系, 将所述节点属性关系和所述特征词集转换为对应的节点属性关系向量和 特征词向量集。 0094 在本发明的至少一个实施例中, 由于所述文本属性关系和特征词属性关系存在相 同的属性关系, 例如, 包含、 并列、 属于等共同属性, 于是, 本发明将所述文本属性关系和所 述特征词属性关系进行汇总, 生成节点属性关系, 以避免重复出现相同。
- 内容关键字: 知识 图谱 生成 方法 装置 电子设备 存储 介质
纳米气泡布面除油预缩设备.pdf
半导体老化冷热测试装置.pdf
RFID芯片剪切力测试仪.pdf
可按摩式颈托睡眠头枕及汽车座椅.pdf
汽车点火装饰圈.pdf
起落架部件机加工同心度辅助工装.pdf
园林绿化垃圾处理装置.pdf
施工物料分筛装置.pdf
鸡粪螺旋挤出设备.pdf
用于分砖的压砖装置.pdf
故障电池包防护箱.pdf
耐磨型泥沙挖掘齿.pdf
阀门锁盖设备.pdf
用于多肽固相合成的后处理系统及多肽固相合成设备.pdf
高压线圈导线拉紧装置.pdf
可调式带锯机切割辅助工装.pdf
温度压力一体化检测的波码通信控制装置.pdf
屋面防水卷材辅助施工设备.pdf
桥梁支座变形角度测量装置.pdf
便于冷却烘干的塑料玩具注塑机.pdf
防护插板.pdf
基于特征融合Transformer的多对比度核磁共振图像超分辨率方法.pdf
复叠制冷压缩机组.pdf
盾构管片拼装定位分体测量装置.pdf
自组装多肽RAKA 16的合成方法.pdf
基于机器学习的盾构掘进机姿态分项预测方法.pdf
宫颈TCT切片的多类型细胞核标注及多任务处理方法.pdf
基于自然资源工程勘测面积的测量装置.pdf
数据处理方法、装置及电子设备.pdf
基于人工智能的生物质电厂燃烧控制决策优化方法及系统.pdf
低功率的医院污水处理装置.pdf
基于FV-MViT的指静脉识别方法、装置及相关介质.pdf
倒垂孔坐标追踪定位定量纠偏方法.pdf
基于射频识别的电动车防盗锁.pdf
全息指纹识别智能安全门.pdf
U形渡槽变形缝复合止水带.pdf
一种带指纹识别系统的柜子.pdf
一种天花安装设备的安装方法.pdf
一种自关式隐藏式铰链.pdf
一种构架柱的柱脚节点.pdf
自成形挡板及其反应型泡沫封孔密封装置.pdf
一种白云岩储层地球化学图版生成方法.pdf
一种内外平开多功能窗型材及窗的构造组成.pdf
井下自膨胀式悬挂器.pdf
一种机电一体化的防盗装置.pdf
雨水控制的污水排放装置.pdf
轻质高强度复合模板.pdf
野外生产供水装置.pdf
冶金专用履带式装载机的整车控制系统及其控制方法.pdf
一种高原非煤矿井采掘工作面增氧方法及装置.pdf
采用可旋转整流罩的水下立管涡激振动抑制装置.pdf