数据搜索匹配方法、装置、计算机设备和存储介质.pdf

上传人:小** 文档编号:10677194 上传时间:2021-08-08 格式:PDF 页数:17 大小:801.44KB
收藏 版权申诉 举报 下载
数据搜索匹配方法、装置、计算机设备和存储介质.pdf_第1页
第1页 / 共17页
数据搜索匹配方法、装置、计算机设备和存储介质.pdf_第2页
第2页 / 共17页
数据搜索匹配方法、装置、计算机设备和存储介质.pdf_第3页
第3页 / 共17页
文档描述:

《数据搜索匹配方法、装置、计算机设备和存储介质.pdf》由会员分享,可在线阅读,更多相关《数据搜索匹配方法、装置、计算机设备和存储介质.pdf(17页完成版)》请在专利查询网上搜索。

1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 201911311777.9 (22)申请日 2019.12.18 (71)申请人 深圳壹账通智能科技有限公司 地址 518052 广东省深圳市前海深港合作 区前湾一路1号A栋201室(入驻深圳市 前海商务秘书有限公司) (72)发明人 董润华徐国强 (74)专利代理机构 广州华进联合专利商标代理 有限公司 44224 代理人 刘羚 (51)Int.Cl. G06F 16/36(2019.01) G06F 40/284(2020.01) G06F 16/953(2019.01) 。

2、(54)发明名称 数据搜索匹配方法、 装置、 计算机设备和存 储介质 (57)摘要 本申请涉及数据处理技术领域, 应用于金融 行业, 特别是涉及一种数据搜索匹配方法、 装置、 计算机设备和存储介质。 上述方法包括: 获取待 搜索的关键词以及关键词对应的事件图谱; 根据 事件图谱中各节点之间的关系, 计算关键词在事 件图谱中所属节点与事件图谱中其它节点之间 的距离, 提取距离小于第一预设阈值的节点, 获 得第一拓展关键词; 根据目标百科图谱中各节点 之间的关系, 计算关键词在目标百科图谱中所属 节点与目标百科图谱中其它节点之间的距离, 提 取距离小于第二预设阈值的节点, 获得第二拓展 关键词; 。

3、将关键词、 第一拓展关键词以及第二拓 展关键词合并, 获得关键词集合, 基于关键词集 合以及预设的搜索与分析引擎进行搜索, 获得搜 索结果。 权利要求书2页 说明书10页 附图4页 CN 111177405 A 2020.05.19 CN 111177405 A 1.一种数据搜索匹配方法, 所述方法包括: 获取待搜索的关键词以及所述关键词对应的事件图谱; 根据所述事件图谱中各节点之间的关系, 计算所述关键词在所述事件图谱中所属节点 与所述事件图谱中其它节点之间的距离, 提取距离小于第一预设阈值的节点, 获得第一拓 展关键词; 根据目标百科图谱中各节点之间的关系, 计算所述关键词在所述目标百科图。

4、谱中所属 节点与所述目标百科图谱中其它节点之间的距离, 提取距离小于第二预设阈值的节点, 获 得第二拓展关键词, 所述目标百科图谱为所述关键词所属搜索领域对应的百科图谱; 将所述关键词、 所述第一拓展关键词以及所述第二拓展关键词合并, 获得关键词集合; 基于所述关键词集合以及预设的搜索与分析引擎进行搜索, 获得搜索结果。 2.根据权利要求1所述的方法, 其特征在于, 还包括: 获取数据库数据, 对所述数据库数据进行自然语言处理, 提取事件图谱中节点词以及 节点关系词, 所述节点关系词表征各节点之间的连接关系; 根据所述节点词以及所述节点关系词生成预设的事件图谱。 3.根据权利要求2所述的方法,。

5、 其特征在于, 所述获取数据库数据之前, 还包括: 获取数据源地址列表、 开始页码、 结束页码以及采集时间; 根据所述采集时间, 提取基于所述数据源地址列表、 所述开始页码、 所述结束页码所确 定的新闻数据; 解析所述新闻数据中的标题和正文数据, 并将解析结果存储至预设数据库, 生成数据 库数据。 4.根据权利要求2所述的方法, 其特征在于, 所述对所述数据库数据进行自然语言处 理, 提取事件图谱中节点词以及节点关系词包括: 通过自然语言处理模型从所述数据库数据中提取数据关键词; 将词频-逆向文件频率高于预设值的数据关键词作为节点词, 并通过所述自然语言处 理模型从所述数据库数据中提取节点关系。

6、词。 5.根据权利要求1所述的方法, 其特征在于, 还包括: 从预设的百科图谱中, 获取与所述关键词所属搜索领域相关联的多个条目; 以所述多个条目作为目标百科图谱的节点, 获取各节点之间的关系, 并以各节点之间 的关系作为目标百科图谱的边, 构建所述搜索领域对应的目标百科图谱。 6.根据权利要求5所述的方法, 其特征在于, 所述获取各节点之间的关系, 并以所述多 个条目作为目标百科图谱的节点, 以各节点之间的关系作为目标百科图谱的边, 构建所述 搜索领域对应的目标百科图谱之前, 还包括: 分别计算所述多个条目中每个条目到所述搜索领域的置信度, 删除置信度低于预设置 信度阈值的条目, 得到更新后。

7、的多个条目。 7.根据权利要求1所述的方法, 其特征在于, 还包括: 获取搜索主体对应的指标数据以及所述指标数据的时间顺序, 将所述搜索结果按照所 述时间顺序与所述指标数据进行关联处理, 得到关联后的数据; 向所述搜索主体推送所述关联后的数据。 8.一种搜索匹配装置, 其特征在于, 所述装置包括: 权利要求书 1/2 页 2 CN 111177405 A 2 获取模块, 用于获取待搜索的关键词以及所述关键词对应的事件图谱; 第一拓展模块, 用于根据所述事件图谱中各节点之间的关系, 计算所述关键词在所述 事件图谱中所属节点与所述事件图谱中其它节点之间的距离, 提取距离小于第一预设阈值 的节点, 。

8、获得第一拓展关键词; 第二拓展模块, 用于根据所述目标百科图谱中各节点之间的关系, 计算所述关键词在 所述目标百科图谱中所属节点与所述目标百科图谱中其它节点之间的距离, 提取距离小于 第二预设阈值的节点, 获得第二拓展关键词, 所述目标百科图谱为所述关键词所属搜索领 域对应的百科图谱; 搜索结果获取模块, 用于将所述关键词、 所述第一拓展关键词以及所述第二拓展关键 词合并, 获得关键词集合, 基于所述关键词集合以及预设的搜索与分析引擎进行搜索, 获得 搜索结果。 9.一种计算机设备, 包括存储器和处理器, 所述存储器存储有计算机程序, 其特征在 于, 所述处理器执行所述计算机程序时实现权利要求。

9、1至7中任一项所述方法的步骤。 10.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机程序 被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。 权利要求书 2/2 页 3 CN 111177405 A 3 数据搜索匹配方法、 装置、 计算机设备和存储介质 技术领域 0001 本申请涉及数据处理技术领域, 特别是涉及一种数据搜索匹配方法、 装置、 计算机 设备和存储介质。 背景技术 0002 随着互联网技术的发展, 搜索引擎作为基于互联网数据检索的主要手段, 用户可 通过搜索引擎获取搜索结果。 搜索引擎根据用户输入的关键词检索得到相关信息, 并将检 索获得的相关。

10、信息作为搜索结果展示给用户。 0003 传统的搜索引擎大多采用通用搜索引擎, 通用搜索引擎通过对输入的检索内容进 行分词处理, 然后再根据分词处理得到的关键词进行匹配。 然而, 这种将分词结果作为关键 词的搜索方法, 无法对检索内容进行解析, 实现搜索其中隐含内容相关的信息, 比如搜索获 得的结果中排在前面的搜索结果未必与用户搜索主题匹配, 导致搜索的匹配结果精准度不 高。 发明内容 0004 基于此, 有必要针对上述技术问题, 提供一种能够提高搜索匹配精准度的数据搜 索匹配方法、 装置、 计算机设备和存储介质。 0005 一种数据搜索匹配方法, 所述方法包括: 0006 获取待搜索的关键词以。

11、及所述关键词对应的事件图谱; 0007 根据所述事件图谱中各节点之间的关系, 计算所述关键词在所述事件图谱中所属 节点与所述事件图谱中其它节点之间的距离, 提取距离小于第一预设阈值的节点, 获得第 一拓展关键词; 0008 根据所述目标百科图谱中各节点之间的关系, 计算所述关键词在所述目标百科图 谱中所属节点与所述目标百科图谱中其它节点之间的距离, 提取距离小于第二预设阈值的 节点, 获得第二拓展关键词, 所述目标百科图谱为所述关键词所属搜索领域对应的百科图 谱; 0009 将所述关键词、 所述第一拓展关键词以及所述第二拓展关键词合并, 获得关键词 集合; 0010 基于所述关键词集合以及预设。

12、的搜索与分析引擎进行搜索, 获得搜索结果。 0011 在一个实施例中, 所述方法还包括: 0012 获取数据库数据, 对所述数据库数据进行自然语言处理, 提取事件图谱中节点词 以及节点关系词, 所述节点关系词表征各节点之间的连接关系; 0013 根据所述节点词以及所述节点关系词生成预设的事件图谱。 0014 在一个实施例中, 所述获取数据库数据之前, 还包括: 0015 获取数据源地址列表、 开始页码、 结束页码以及采集时间; 0016 根据所述采集时间, 提取基于所述数据源地址列表、 所述开始页码、 所述结束页码 说明书 1/10 页 4 CN 111177405 A 4 所确定的新闻数据;。

13、 0017 解析所述新闻数据中的标题和正文数据, 并将解析结果存储至预设数据库, 生成 数据库数据。 0018 在一个实施例中, 所述对所述数据库数据进行自然语言处理, 提取事件图谱中节 点词以及节点关系词包括: 0019 通过自然语言处理模型从所述数据库数据中提取数据关键词; 0020 将词频-逆向文件频率高于预设值的数据关键词作为节点词, 并通过所述自然语 言处理模型从所述数据库数据中提取节点关系词。 0021 在一个实施例中, 所述方法还包括: 0022 从预设的百科图谱中获取与所述关键词所属搜索领域相关联的多个条目; 0023 以所述多个条目作为目标百科图谱的节点, 获取各节点之间的关。

14、系, 并以各节点 之间的关系作为目标百科图谱的边, 构建所述搜索领域对应的目标百科图谱。 0024 在一个实施例中, 所述获取各节点之间的关系, 并以所述多个条目作为目标百科 图谱的节点, 以各节点之间的关系作为目标百科图谱的边, 构建所述搜索领域对应的目标 百科图谱之前, 还包括: 0025 分别计算所述多个条目中每个条目到所述搜索领域的置信度, 删除置信度低于预 设置信度阈值的条目, 得到更新后的多个条目。 0026 在一个实施例中, 所述方法还包括: 0027 获取搜索主体对应的指标数据以及所述指标数据的时间顺序, 将所述搜索结果按 照所述时间顺序与所述指标数据进行关联处理, 得到关联后。

15、的数据; 0028 向所述搜索主体推送所述关联后的数据。 0029 一种搜索匹配装置, 所述装置包括: 0030 获取模块, 用于获取待搜索的关键词以及所述关键词对应的事件图谱; 0031 第一拓展模块, 用于根据所述事件图谱中各节点之间的关系, 计算所述关键词在 所述事件图谱中所属节点与所述事件图谱中其它节点之间的距离, 提取距离小于第一预设 阈值的节点, 获得第一拓展关键词; 0032 第二拓展模块, 用于根据所述目标百科图谱中各节点之间的关系, 计算所述关键 词在所述目标百科图谱中所属节点与所述目标百科图谱中其它节点之间的距离, 提取距离 小于第二预设阈值的节点, 获得第二拓展关键词, 。

16、所述目标百科图谱为所述关键词所属搜 索领域对应的百科图谱; 0033 搜索结果获取模块, 用于将所述关键词、 所述第一拓展关键词以及所述第二拓展 关键词合并, 获得关键词集合, 基于所述关键词集合以及预设的搜索与分析引擎进行搜索, 获得搜索结果。 0034 一种计算机设备, 包括存储器和处理器, 所述存储器存储有计算机程序, 所述处理 器执行所述计算机程序时实现以下步骤: 0035 获取待搜索的关键词以及所述关键词对应的事件图谱; 0036 根据所述事件图谱中各节点之间的关系, 计算所述关键词在所述事件图谱中所属 节点与所述事件图谱中其它节点之间的距离, 提取距离小于第一预设阈值的节点, 获得。

17、第 一拓展关键词; 说明书 2/10 页 5 CN 111177405 A 5 0037 根据所述目标百科图谱中各节点之间的关系, 计算所述关键词在所述目标百科图 谱中所属节点与所述目标百科图谱中其它节点之间的距离, 提取距离小于第二预设阈值的 节点, 获得第二拓展关键词, 所述目标百科图谱为所述关键词所属搜索领域对应的百科图 谱; 0038 将所述关键词、 所述第一拓展关键词以及所述第二拓展关键词合并, 获得关键词 集合; 0039 基于所述关键词集合以及预设的搜索与分析引擎进行搜索, 获得搜索结果。 0040 一种计算机可读存储介质, 其上存储有计算机程序, 所述计算机程序被处理器执 行时。

18、实现以下步骤: 0041 获取待搜索的关键词以及所述关键词对应的事件图谱; 0042 根据所述事件图谱中各节点之间的关系, 计算所述关键词在所述事件图谱中所属 节点与所述事件图谱中其它节点之间的距离, 提取距离小于第一预设阈值的节点, 获得第 一拓展关键词; 0043 根据所述目标百科图谱中各节点之间的关系, 计算所述关键词在所述目标百科图 谱中所属节点与所述目标百科图谱中其它节点之间的距离, 提取距离小于第二预设阈值的 节点, 获得第二拓展关键词, 所述目标百科图谱为所述关键词所属搜索领域对应的百科图 谱; 0044 将所述关键词、 所述第一拓展关键词以及所述第二拓展关键词合并, 获得关键词。

19、 集合; 0045 基于所述关键词集合以及预设的搜索与分析引擎进行搜索, 获得搜索结果。 0046 上述数据搜索匹配方法、 装置、 计算机设备和存储介质, 根据待搜索的关键词在事 件图谱中所属节点与图谱中节点间的距离进行拓展, 获得第一拓展关键词, 基于关键词所 属搜索领域对应的目标百科图谱, 根据关键词在目标百科图谱中所属节点与图谱中节点间 的距离进行拓展, 获得第二拓展关键词, 将关键词以及拓展后的关键词合并, 获得关键词集 合, 根据关键词集合进行搜索, 获得搜索结果, 通过上述方式进行搜索能够更加精准的匹配 搜索主体的搜索, 从而提高搜索匹配结果的精确度。 附图说明 0047 图1为一。

20、个实施例中数据搜索匹配方法的应用环境图; 0048 图2为一个实施例中数据搜索匹配方法的流程示意图; 0049 图3为一个实施例中目标百科图谱构建步骤的流程示意图; 0050 图4为另一个实施例中数据搜索匹配方法的流程示意图; 0051 图5为一个实施例中数据搜索匹配装置的结构框图; 0052 图6为一个实施例中计算机设备的内部结构图。 具体实施方式 0053 为了使本申请的目的、 技术方案及优点更加清楚明白, 以下结合附图及实施例, 对 本申请进行进一步详细说明。 应当理解, 此处描述的具体实施例仅仅用以解释本申请, 并不 用于限定本申请。 说明书 3/10 页 6 CN 111177405。

21、 A 6 0054 本申请提供的数据搜索匹配方法, 可以应用于如图1所示的应用环境中。 搜索主体 在搜索框内输入关键词, 数据处理终端获取待搜索的关键词以及关键词对应的事件图谱, 根据事件图谱中各节点之间的关系, 计算关键词在事件图谱中所属节点与事件图谱中其它 节点之间的距离, 提取距离小于第一预设阈值的节点, 获得第一拓展关键词; 根据目标百科 图谱中各节点之间的关系, 计算关键词在目标百科图谱中所属节点与目标百科图谱中其它 节点之间的距离, 提取距离小于第二预设阈值的节点, 获得第二拓展关键词, 其中, 目标百 科图谱为关键词所属搜索领域对应的百科图谱; 将关键词、 第一拓展关键词以及第二。

22、拓展 关键词合并, 获得关键词集合, 基于关键词集合以及预设的搜索与分析引擎进行搜索, 获得 搜索结果。 其中, 数据处理终端可以但不限于是各种个人计算机、 笔记本电脑、 智能手机和 平板电脑。 0055 在一个实施例中, 如图2所示, 提供了一种数据搜索匹配方法, 以该方法应用于图1 中的数据处理终端为例进行说明, 包括以下步骤: 0056 步骤202, 获取待搜索的关键词以及关键词对应的事件图谱。 0057 搜索主体可以在搜索框中输入关键词进行搜索, 比如, 用户可以在搜索框中输入 a1进行搜索。 获取某个领域的资讯数据, 根据该领域的资讯数据抽取出事件图谱, 事件图谱 中包括大量不同的词。

23、和事件。 比如, 用户输入某个待搜索的关键词, 在预设的事件图谱中查 找, 获得关键词对应的事件图谱。 再根据该关键词在该事件图谱的节点中进行搜索, 获取该 关键词所属节点。 事件是指特定时间、 特定地点发生的事情, 事件抽取具体可以是元事件抽 取。 其中, 元事件表示一个动作的发生或状态的变化, 由表示动作的动词或名词来驱动, 包 括参与该动作行为的主要成分, 比如时间、 地点、 人物等。 事件由事件触发和描述事件结构 的元素组成, 事件触发词是指用来表示事件发生的核心词, 如动词或名词。 元素指表示事件 的参与者、 时间、 地点等属性信息。 事件抽取包括事件识别和事件元素识别, 事件元素识。

24、别 即根据预先设定的事件模板, 抽取相应的元素。 可以基于模式匹配、 基于机器学习、 基于神 经网络等事件抽取方法实现元事件抽取, 其中, 基于神经网络的事件抽取方法是指将事件 抽取转换成一个有监督的多元分类任务, 包括句子篇章级事件抽取、 基于联合模型、 融合外 部资源的神经网络事件抽取方法等。 事件图谱是以事件为基础信息的结构化表示方式, 图 谱中的节点表示事件提及, 节点之间的边表示事件提及之间的时间关系和指代关系。 0058 步骤204, 根据事件图谱中各节点之间的关系, 计算关键词在事件图谱中所属节点 与事件图谱中其它节点之间的距离, 提取距离小于第一预设阈值的节点, 获得第一拓展关。

25、 键词。 0059 可以通过BP算法计算词距离, 首先获得语料库的词列表, 对词列表中的每个词构 建单位向量, 计算全连接前向神经网络输出值, 根据误差由后向反馈网络修正权值, 循环上 述步骤直至满足终止条件。 0060 以养猪业事件图谱作为预设的事件图谱为例, 比如, 用户输入的关键词为a1, 将a1 在预先已构建的养猪业事件图谱中查询距离a1节点最近的相关事件节点, 返回事件类型和 关联的节点, 比如查询得到的相关事件结果为: 金融事件对应的节点是 “金融危机” 以及冲 突事件对应的节点是 “贸易摩擦” , 此时, 第一拓展关键词包括金融危机和贸易摩擦。 0061 步骤206, 根据目标百。

26、科图谱中各节点之间的关系, 计算关键词在目标百科图谱中 所属节点与目标百科图谱中其它节点之间的距离, 提取距离小于第二预设阈值的节点, 获 说明书 4/10 页 7 CN 111177405 A 7 得第二拓展关键词, 目标百科图谱为关键词所属搜索领域对应的百科图谱。 0062 比如, 图谱中的一个节点A, A的下级节点为a1。 与a1节点同级存在一个 a2节点, a1 节点的下级存在一个a11节点。 距离小于第二预设阈值的节点具体可以是与关键词节点距 离中最近的三个节点, 比如, 与关键词节点a1距离最近的三个节点可以是其上级节点A、 同 级节点a2以及下级节点a11。 一般而言, 通过设置。

27、预设阈值获取到的节点为与关键词节点距 离最近的三个节点, 这样可以保证关键词集合的质量。 0063 以养猪业作为搜索领域为例, 将a1在预先已构建的养猪业百科图谱中查询直接关 联的节点, 比如查询的结果为: 猪肉价格和种猪疫苗, 此时, 第二拓展关键词包括猪肉价格 和种猪疫苗。 0064 步骤208, 将关键词、 第一拓展关键词以及第二拓展关键词合并, 获得关键词集合。 0065 具体可以按照事件类型将第一拓展关键词和第二拓展关键词及输入的关键词分 别合并, 比如事件图谱返回的事件类型包括金融事件和冲突事件, 对应的, 关键词集合包括 金融事件关键词集合以及冲突时间关键词集合。 0066 步骤。

28、210, 基于关键词集合以及预设的搜索与分析引擎进行搜索, 获得搜索结果。 0067 预设的搜索与分析引擎可以是ElasticSearch搜索与分析引擎, 具体可以通过合 并后的关键词集合在基于ElasticSearch搜索与分析引擎已构建的养猪业资讯库中搜索最 相关的前50条新闻。 比如搜索出两个事件类型: 金融事件和冲突事件, 则对应的搜索结果为 两个50条新闻集合结果。 0068 上述数据搜索匹配方法, 根据待搜索的关键词在事件图谱中所属节点与图谱中节 点间的距离进行拓展, 获得第一拓展关键词, 基于关键词所属搜索领域对应的目标百科图 谱, 根据关键词在目标百科图谱中所属节点与图谱中节点。

29、间的距离进行拓展, 获得第二拓 展关键词, 将关键词以及拓展后的关键词合并, 获得关键词集合, 根据关键词集合进行搜 索, 获得搜索结果, 通过上述方式进行搜索能够更加精准的匹配搜索主体的搜索, 从而提高 搜索匹配结果的精确度。 0069 在一个实施例中, 数据搜索匹配方法还包括: 获取数据库数据, 对数据库数据进行 自然语言处理, 提取事件图谱中节点词以及节点关系词, 节点关系词表征各节点之间的连 接关系; 根据节点词以及节点关系词生成预设的事件图谱。 其中, 获取数据库数据之前, 还 包括: 获取数据源地址列表、 开始页码、 结束页码以及采集时间; 根据采集时间, 提取基于数 据源地址列表。

30、、 开始页码、 结束页码所确定的新闻数据; 解析新闻数据中的标题和正文数 据, 并将解析结果存储至预设数据库, 生成数据库数据。 比如, 当需要构建金融事件图谱时, 可以设置采集金融财经类的新闻数据。 这样可以自动采集数据, 节省时间, 提高效率。 具体 地, 对数据库数据进行自然语言处理, 提取节点以及节点之间的关系包括: 通过自然语言处 理模型从数据库数据中提取数据关键词; 将词频-逆向文件频率高于预设值的数据关键词 作为节点词, 并通过自然语言处理模型从数据库数据中提取节点关系词。 可以通过自然语 言处理模型对新闻数据中的文本基于语义进行分割, 得到分割后的多个词语, 对每个词语 进行词。

31、性标注, 比如人名、 地名、 数字等标注, 获取所需的标注实体。 自然语言处理模型可以 通过TF-IDF(Term Frequency- Inverse Document Frequency, 词频-逆向文件频率)算法 计算数据关键词的词频- 逆向文件频率, 将词频-逆向文件频率高于预设值的数据关键词 作为节点。 TF (Term Frequency, 词频)表示词语在文件中出现的频率, IDF(Inverse 说明书 5/10 页 8 CN 111177405 A 8 Document Frequency, 逆向文件频率)是一个词语普遍重要性的度量。 某一特定词语的IDF 可以由总文件数目除。

32、以包含该词语的文件的数目, 再将得到的商取对数得到。 某一特定文 件内的高词语频率, 以及该词语在整个文件集合中的低文件频率, 可以产生出高权重的TF- IDF。 因此, 通过TF-IDF可以过滤掉常见的词语, 保留重要的词语。 0070 在一个实施例中, 如图3所示, 数据搜索匹配方法还包括: 步骤302, 从预设的百科 图谱中, 获取与关键词所属搜索领域相关联的多个条目; 步骤304, 以多个条目作为目标百 科图谱的节点, 获取各节点之间的关系, 并以各节点之间的关系作为目标百科图谱的边, 构 建搜索领域对应的目标百科图谱。 具体地, 获取各节点之间的关系, 并以多个条目作为目标 百科图谱。

33、的节点, 以各节点之间的关系作为目标百科图谱的边, 构建搜索领域对应的目标 百科图谱之前, 还包括: 分别计算多个条目中每个条目到搜索领域的置信度, 删除置信度低 于预设置信度阈值的条目, 得到更新后的多个条目。 这样可以过滤非搜索领域的条目, 在维 基百科中很多类别和条目都属于多个父类别, 为了提高搜索领域的条目的准确性, 需要消 除无效的、 与搜索领域关联较小的分类及条目。 0071 获取指定搜索领域下的所有条目及分类结构, 以及所有条目对应的出度, 比如定 义V为维基百科公开数据集page表养猪业下的所有条目及分类, 定义E为维基百科公开数据 集categorylinks和redirec。

34、t获取到养猪业下的分类结构链接, 通过V表示节点的集合, E表 示边的集合, E的方向是从子类别或者条目指向父类别。 假设节点v是待建立的养猪业百科 图谱的节点之一, C是养猪业的顶级父类别, 需要计算v到C的所属度。 定义b为节点v的链接 权重, 其取值是v 对应的出度的倒数, c为v到C的权重, 其值等于这条路径上所有权重的乘 积, 对于v到C的所属度为连通v到C路径权重的和; 设置所属度阈值比如0.1, 用于过滤无效 的分类和条目, 将过滤后的条目通过爬虫技术获取条目的关系节点及属性, 如: 大白猪的别 名为大约克夏, 原产地为英国等相关信息。 将所有数据入图数据库形成知识图谱, 图谱具。

35、体 可以通过Neo4j图数据库进行构建。 0072 在一个实施例中, 如图4所示, 数据搜索匹配方法还包括: 步骤406, 获取搜索主体 对应的指标数据以及指标数据的时间顺序, 将搜索结果按照时间顺序与指标数据进行关联 处理, 得到关联后的数据; 步骤407, 向搜索主体推送关联后的数据。 以股票数据作为指标数 据为例, 比如可以使用爬虫技术将东方财富网上的所有上市公司股票数据爬取下来, 再通 过行业分类筛选出养猪业上市公司的股票数据; 将所有事件类型关联集合查出的每50条新 闻通过时间顺序插入至养猪业上市公司的股票数据时间轴上, 这样搜索主体可以通过关联 后的数据分析输入的关键词给行业的某条。

36、指标带来的影响。 0073 应该理解的是, 虽然图2-4的流程图中的各个步骤按照箭头的指示依次显示, 但是 这些步骤并不是必然按照箭头指示的顺序依次执行。 除非本文中有明确的说明, 这些步骤 的执行并没有严格的顺序限制, 这些步骤可以以其它的顺序执行。 而且, 图2-4中的至少一 部分步骤可以包括多个子步骤或者多个阶段, 这些子步骤或者阶段并不必然是在同一时刻 执行完成, 而是可以在不同的时刻执行, 这些子步骤或者阶段的执行顺序也不必然是依次 进行, 而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地 执行。 0074 在一个实施例中, 如图5所示, 提供了一种数据搜索匹。

37、配装置, 包括: 获取模块502、 第一拓展模块504、 第二拓展模块506和搜索结果获取模块508。 获取模块, 用于获取待搜索 说明书 6/10 页 9 CN 111177405 A 9 的关键词以及关键词对应的事件图谱。 第一拓展模块, 用于根据事件图谱中各节点之间的 关系, 计算关键词在事件图谱中所属节点与事件图谱中其它节点之间的距离, 提取距离小 于第一预设阈值的节点, 获得第一拓展关键词。 第二拓展模块, 用于根据目标百科图谱中各 节点之间的关系, 计算关键词在目标百科图谱中所属节点与目标百科图谱中其它节点之间 的距离, 提取距离小于第二预设阈值的节点, 获得第二拓展关键词, 目标。

38、百科图谱为关键词 所属搜索领域对应的百科图谱。 搜索结果获取模块, 用于将关键词、 第一拓展关键词以及第 二拓展关键词合并, 获得关键词集合, 基于关键词集合以及预设的搜索与分析引擎进行搜 索, 获得搜索结果。 0075 在一个实施例中, 数据搜索匹配装置还包括事件图谱构建模块, 用于获取数据库 数据, 对数据库数据进行自然语言处理, 提取事件图谱中节点词以及节点关系词, 节点关系 词表征各节点之间的连接关系; 根据节点词以及节点关系词生成预设的事件图谱。 0076 在一个实施例中, 数据搜索匹配装置还包括数据库数据生成模块, 用于获取数据 源地址列表、 开始页码、 结束页码以及采集时间; 根。

39、据采集时间, 提取基于数据源地址列表、 开始页码、 结束页码所确定的新闻数据; 解析新闻数据中的标题和正文数据, 并将解析结果 存储至预设数据库, 生成数据库数据。 0077 在一个实施例中, 事件图谱构建模块还用于通过自然语言处理模型从数据库数据 中提取数据关键词; 将词频-逆向文件频率高于预设值的数据关键词作为节点词, 并通过自 然语言处理模型从数据库数据中提取节点关系词。 0078 在一个实施例中, 数据搜索匹配装置还包括目标百科图谱构建模块, 用于从预设 的百科图谱中, 获取与关键词所属搜索领域相关联的多个条目; 以多个条目作为目标百科 图谱的节点, 获取各节点之间的关系, 并以各节点。

40、之间的关系作为目标百科图谱的边, 构建 搜索领域对应的目标百科图谱。 0079 在一个实施例中, 数据搜索匹配装置还包括条目删除模块, 用于分别计算多个条 目中每个条目到搜索领域的置信度, 删除置信度低于预设置信度阈值的条目, 得到更新后 的多个条目。 0080 在一个实施例中, 数据搜索匹配装置还包括数据推送模块, 用于获取搜索主体对 应的指标数据以及指标数据的时间顺序, 将搜索结果按照时间顺序与指标数据进行关联处 理, 得到关联后的数据; 向搜索主体推送关联后的数据。 0081 关于数据搜索匹配装置的具体限定可以参见上文中对于数据搜索匹配方法的限 定, 在此不再赘述。 上述数据搜索匹配装置。

41、中的各个模块可全部或部分通过软件、 硬件及其 组合来实现。 上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中, 也可以 以软件形式存储于计算机设备中的存储器中, 以便于处理器调用执行以上各个模块对应的 操作。 0082 在一个实施例中, 提供了一种计算机设备, 该计算机设备可以是终端, 其内部结构 图可以如图6所示。 该计算机设备包括通过系统总线连接的处理器、 存储器、 网络接口和数 据库。 其中, 该计算机设备的处理器用于提供计算和控制能力。 该计算机设备的存储器包括 非易失性存储介质、 内存储器。 该非易失性存储介质存储有操作系统、 计算机程序和数据 库。 该内存储器为非易失性存。

42、储介质中的操作系统和计算机程序的运行提供环境。 该计算 机设备的数据库用于存储事件图谱、 搜索领域百科图谱等数据。 该计算机设备的网络接口 说明书 7/10 页 10 CN 111177405 A 10 用于与外部的终端通过网络连接通信。 该计算机程序被处理器执行时以实现一种数据搜索 匹配方法。 0083 本领域技术人员可以理解, 图6中示出的结构, 仅仅是与本申请方案相关的部分结 构的框图, 并不构成对本申请方案所应用于其上的计算机设备的限定, 具体的计算机设备 可以包括比图中所示更多或更少的部件, 或者组合某些部件, 或者具有不同的部件布置。 0084 在一个实施例中, 提供了一种计算机设。

43、备, 包括存储器和处理器, 该存储器存储有 计算机程序, 该处理器执行计算机程序时实现以下步骤: 获取待搜索的关键词以及关键词 对应的事件图谱; 根据事件图谱中各节点之间的关系, 计算关键词在事件图谱中所属节点 与事件图谱中其它节点之间的距离, 提取距离小于第一预设阈值的节点, 获得第一拓展关 键词; 根据目标百科图谱中各节点之间的关系, 计算关键词在目标百科图谱中所属节点与 目标百科图谱中其它节点之间的距离, 提取距离小于第二预设阈值的节点, 获得第二拓展 关键词, 目标百科图谱为关键词所属搜索领域对应的百科图谱; 将关键词、 第一拓展关键词 以及第二拓展关键词合并, 获得关键词集合, 基于。

44、关键词集合以及预设的搜索与分析引擎 进行搜索, 获得搜索结果。 0085 在一个实施例中, 处理器执行计算机程序时还实现以下步骤: 获取数据库数据, 对 数据库数据进行自然语言处理, 提取节点词以及节点关系词; 根据节点词以及节点关系词 生成预设的事件图谱。 0086 在一个实施例中, 处理器执行计算机程序时还实现以下步骤: 获取数据源地址列 表、 开始页码、 结束页码以及采集时间; 根据采集时间, 提取基于数据源地址列表、 开始页 码、 结束页码所确定的新闻数据; 解析新闻数据中的标题和正文数据, 并将解析结果存储至 预设数据库, 生成数据库数据。 0087 在一个实施例中, 处理器执行计算。

45、机程序时还实现以下步骤: 通过自然语言处理 模型从数据库数据中提取数据关键词; 将词频-逆向文件频率高于预设值的数据关键词作 为节点词, 并通过自然语言处理模型从数据库数据中提取节点关系词。 0088 在一个实施例中, 处理器执行计算机程序时还实现以下步骤: 从预设的百科图谱 中, 获取与关键词所属搜索领域相关联的多个条目; 以多个条目作为目标百科图谱的节点, 获取各节点之间的关系, 并以各节点之间的关系作为目标百科图谱的边, 构建搜索领域对 应的目标百科图谱。 0089 在一个实施例中, 处理器执行计算机程序时还实现以下步骤: 分别计算多个条目 中每个条目到搜索领域的置信度, 删除置信度低于。

46、预设置信度阈值的条目, 得到更新后的 多个条目。 0090 在一个实施例中, 处理器执行计算机程序时还实现以下步骤: 获取搜索主体对应 的指标数据以及指标数据的时间顺序, 将搜索结果按照时间顺序与指标数据进行关联处 理, 得到关联后的数据; 向搜索主体推送关联后的数据。 0091 在一个实施例中, 提供了一种计算机可读存储介质, 其上存储有计算机程序, 计算 机程序被处理器执行时实现以下步骤: 获取待搜索的关键词以及关键词对应的事件图谱; 根据事件图谱中各节点之间的关系, 计算关键词在事件图谱中所属节点与事件图谱中其它 节点之间的距离, 提取距离小于第一预设阈值的节点, 获得第一拓展关键词; 。

47、根据目标百科 图谱中各节点之间的关系, 计算关键词在目标百科图谱中所属节点与目标百科图谱中其它 说明书 8/10 页 11 CN 111177405 A 11 节点之间的距离, 提取距离小于第二预设阈值的节点, 获得第二拓展关键词, 目标百科图谱 为关键词所属搜索领域对应的百科图谱; 将关键词、 第一拓展关键词以及第二拓展关键词 合并, 获得关键词集合, 基于关键词集合以及预设的搜索与分析引擎进行搜索, 获得搜索结 果。 0092 在一个实施例中, 计算机程序被处理器执行时还实现以下步骤: 获取数据库数据, 对数据库数据进行自然语言处理, 提取节点词以及节点关系词; 根据节点词以及节点关系 词。

48、生成预设的事件图谱。 0093 在一个实施例中, 计算机程序被处理器执行时还实现以下步骤: 获取数据源地址 列表、 开始页码、 结束页码以及采集时间; 根据采集时间, 提取基于数据源地址列表、 开始页 码、 结束页码所确定的新闻数据; 解析新闻数据中的标题和正文数据, 并将解析结果存储至 预设数据库, 生成数据库数据。 0094 在一个实施例中, 计算机程序被处理器执行时还实现以下步骤: 通过自然语言处 理模型从数据库数据中提取数据关键词; 将词频-逆向文件频率高于预设值的数据关键词 作为节点词, 并通过自然语言处理模型从数据库数据中提取节点关系词。 0095 在一个实施例中, 计算机程序被处。

49、理器执行时还实现以下步骤: 从预设的百科图 谱中, 获取与关键词所属搜索领域相关联的多个条目; 以多个条目作为目标百科图谱的节 点, 获取各节点之间的关系, 并以各节点之间的关系作为目标百科图谱的边, 构建搜索领域 对应的目标百科图谱。 0096 在一个实施例中, 计算机程序被处理器执行时还实现以下步骤: 分别计算多个条 目中每个条目到搜索领域的置信度, 删除置信度低于预设置信度阈值的条目, 得到更新后 的多个条目。 0097 在一个实施例中, 计算机程序被处理器执行时还实现以下步骤: 获取搜索主体对 应的指标数据以及指标数据的时间顺序, 将搜索结果按照时间顺序与指标数据进行关联处 理, 得到。

50、关联后的数据; 向搜索主体推送关联后的数据。 0098 本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程, 是可以 通过计算机程序来指令相关的硬件来完成, 所述的计算机程序可存储于一非易失性计算机 可读取存储介质中, 该计算机程序在执行时, 可包括如上述各方法的实施例的流程。 其中, 本申请所提供的各实施例中所使用的对存储器、 存储、 数据库或其它介质的任何引用, 均可 包括非易失性和/或易失性存储器。 非易失性存储器可包括只读存储器(ROM)、 可编程ROM (PROM)、 电可编程ROM (EPROM)、 电可擦除可编程ROM(EEPROM)或闪存。 易失性存储器可包括 随机。

展开阅读全文
内容关键字: 数据 搜索 匹配 方法 装置 计算机 设备 存储 介质
关于本文
本文标题:数据搜索匹配方法、装置、计算机设备和存储介质.pdf
链接地址:https://www.zhuanlichaxun.net/pdf/10677194.html
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1