基于数据图谱的搜索方法、智能终端和可读存储介质.pdf
《基于数据图谱的搜索方法、智能终端和可读存储介质.pdf》由会员分享,可在线阅读,更多相关《基于数据图谱的搜索方法、智能终端和可读存储介质.pdf(22页完成版)》请在专利查询网上搜索。
1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202010471335.7 (22)申请日 2020.05.29 (71)申请人 平安科技 (深圳) 有限公司 地址 518000 广东省深圳市福田区福田街 道福安社区益田路5033号平安金融中 心23楼 (72)发明人 邹杰 (74)专利代理机构 深圳中细软知识产权代理有 限公司 44528 代理人 彭佳伟 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/338(2019.01) G06F 16/36(2019.01) G06F 16/9536。
2、(2019.01) G06F 16/9538(2019.01) (54)发明名称 基于数据图谱的搜索方法、 智能终端和可读 存储介质 (57)摘要 本发明涉及大数据技术领域, 公开了一种基 于数据图谱的搜索方法, 包括: 获取所有注册用 户的个人数据和应用数据, 构建数据图谱; 获取 数据库中的所有注册用户的个人数据和应用数 据, 构建数据图谱; 获取输入的检索关键词, 确定 当前使用用户及对应的身份标识, 获取当前使用 用户的第一历史点击内容, 从数据图谱中获取与 当前使用用户相似的其他用户的第二历史点击 内容; 计算第一历史点击内容的第一路径长度和 第二历史点击内容的第二路径长度, 将其中。
3、的最 小值作为排序路径长度; 根据召回路径长度和排 序路径长度对至少一种召回内容进行排列。 可以 得出对不同用户的基于数据图谱的搜索结果, 有 效提升工作效率, 降低空间复杂度。 权利要求书2页 说明书13页 附图6页 CN 111694929 A 2020.09.22 CN 111694929 A 1.一种基于数据图谱的搜索方法, 其特征在于, 所述方法包括: 获取数据库中的所有注册用户的个人数据和应用数据, 根据所述个人数据和所述应用 数据构建数据图谱; 获取输入的检索关键词, 确定输入所述检索关键词的当前使用用户以及对应的身份标 识; 根据所述检索关键词从所述数据库中获取至少一种召回内容。
4、, 计算所述至少一种召回 内容的内容路径长度, 将所述内容路径长度的最小值作为召回路径长度; 获取所述当前使用用户的第一历史点击内容, 从所述数据图谱中获取与所述当前使用 用户相似的其他用户的第二历史点击内容; 计算所述第一历史点击内容的第一路径长度和第二历史点击内容的第二路径长度, 将 所述第一路径长度和所述第二路径长度的最小值作为排序路径长度; 根据所述召回路径长度和所述排序路径长度对所述至少一种召回内容进行排序, 作为 最终搜索结果。 2.根据权利要求1所述的基于数据图谱的搜索方法, 其特征在于, 所述个人数据包括所 述注册用户点击的内容、 注册用户点击的内容的数量、 所述注册用户的标签。
5、, 所述注册用户 输入的检索关键词; 所述应用数据包括应用内容和所述应用内容中的热门内容; 所述根据所述个人数据和所述应用数据构建数据图谱的步骤, 包括: 将所述应用内容、 所述注册用户的标签、 所述检索关键词和所述注册用户作为节点; 绘制所述节点之间的关系。 3.根据权利要求2所述的基于数据图谱的搜索方法, 其特征在于, 所述根据所述检索关 键词从所述数据库中获取至少一种召回内容的步骤, 包括: 根据所述检索关键词通过开源搜索引擎召回第一类内容; 和/或 根据所述检索关键词获取衍生词, 根据所述衍生词通过开源搜索引擎召回第二类内 容; 和/或 根据所述第一类内容进行衍生获取第三类内容; 和/。
6、或 根据所述第二类内容进行衍生获取第四类内容; 和/或 获取被点击次数大于第一预设阈值的第五类内容。 4.根据权利要求2所述的基于数据图谱的搜索方法, 其特征在于, 所述当前使用用户相 似的其他用户包括: 与所述当前使用用户具有相同标签的第一用户; 和/或 与所述当前使用用户点击过相同内容的第二用户; 和/或 与所述当前使用用户输入过相同检索关键词的第三用户。 5.根据权利要求4所述的基于数据图谱的搜索方法, 其特征在于, 所述从所述数据图谱 中获取与所述当前使用用户相似的其他用户的第二历史点击内容的步骤, 包括: 分别计算所述第一用户和/或所述第二用户和/或所述第三用户到所述当前使用用户 的。
7、路径的第二得分, 根据所述第二得分获取所述第一用户和/或所述第二用户和/或所述第 三用户与所述当前使用用户的相似度; 若所述相似度大于第二预设阈值, 则所述第一用户和/或所述第二用户和/或所述第三 用户为与所述当前使用用户相似的其他用户。 权利要求书 1/2 页 2 CN 111694929 A 2 6.根据权利要求5所述的基于数据图谱的搜索方法, 其特征在于, 所述根据所述第二得 分获取所述第一用户和/或所述第二用户和/或所述第三用户与所述当前使用用户的相似 度的步骤, 包括: 将所述第二得分的平均值作为所述第一用户和/或所述第二用户和/或所述第三用户 与所述当前使用用户的相似度。 7.根据。
8、权利要求1所述的基于数据图谱的搜索方法, 其特征在于, 所述根据所述召回路 径长度和所述排序路径长度对所述至少一种召回内容进行排列的步骤, 包括: 根据所述召回路径长度和所述排序路径长度计算所述至少一种召回内容的第一得分; 将所述至少一种召回内容根据所述第一得分按降序排列, 作为最终搜索结果; 还包括, 将所述最终搜索结果上传至区块链中。 8.一种智能终端, 其特征在于, 包括: 图谱模块, 用于获取数据库中的所有注册用户的个人数据和应用数据, 根据所述个人 数据和所述应用数据构建数据图谱; 获取模块, 用于获取输入的检索关键词, 确定输入所述检索关键词的当前使用用户以 及对应的身份标识; 召。
9、回模块, 用于根据所述检索关键词从所述数据库中获取至少一种召回内容, 计算所 述至少一种召回内容的内容路径长度, 将所述内容路径长度的最小值作为召回路径长度; 历史模块, 用于获取所述当前使用用户的第一历史点击内容, 从所述数据图谱中获取 与所述当前使用用户相似的其他用户的第二历史点击内容; 排序模块, 用于计算所述第一历史点击内容的第一路径长度和第二历史点击内容的第 二路径长度, 将所述第一路径长度和所述第二路径长度的最小值作为排序路径长度; 结果模块, 用于根据所述召回路径长度和所述排序路径长度对所述至少一种召回内容 进行排列, 作为最终搜索结果。 9.一种智能终端, 其特征在于, 包括存。
10、储器和处理器, 所述存储器存储有计算机程序, 所述计算机程序被所述处理器执行时, 使得所述处理器执行如权利要求1至7中任一项所述 方法的步骤。 10.一种可读存储介质, 其特征在于, 存储有计算机程序, 所述计算机程序被处理器执 行时, 使得所述处理器执行如权利要求1至7中任一项所述方法的步骤。 权利要求书 2/2 页 3 CN 111694929 A 3 基于数据图谱的搜索方法、 智能终端和可读存储介质 技术领域 0001 本发明涉及大数据技术领域, 尤其涉及基于数据图谱的搜索方法、 智能终端和可 读存储介质。 背景技术 0002 目前的搜索方案基于ES(Elastic Search)全文检。
11、索引擎实现的。 文章、 功能、 问答 等内容经ES分词处理后, 建立倒排索引并放入存储库。 用户搜索时, 输入的检索关键词经同 样的分词处理, 与倒排索引匹配, 从存储库中召回相关内容。 召回的内容再根据业务权重进 行排序, 然后返回到前端。 这套方案没有考虑用户行为信息, 没有做到基于数据图谱的搜索 排序。 0003 当前业内常用的基于数据图谱的搜索排序方法, 主要有基于用户协同过滤、 基于 内容协同过滤、 隐语义模型、 基于图的PageRank等。 这些方法的时间和空间复杂度很高, 在 拥有海量数据的环境中, 推广难度较大。 发明内容 0004 基于此, 有必要针对上述问题, 提出了基于数。
12、据图谱的搜索方法、 智能终端和可读 存储介质。 0005 一种基于数据图谱的搜索方法, 所述方法包括: 获取数据库中的所有注册用户的 个人数据和应用数据, 根据所述个人数据和所述应用数据构建数据图谱; 获取输入的检索 关键词, 确定输入所述检索关键词的当前使用用户以及对应的身份标识; 根据所述检索关 键词从所述数据库中获取至少一种召回内容, 计算所述至少一种召回内容的内容路径长 度, 将所述内容路径长度的最小值作为召回路径长度; 获取所述当前使用用户的第一历史 点击内容, 从所述数据图谱中获取与所述当前使用用户相似的其他用户的第二历史点击内 容; 计算所述第一历史点击内容的第一路径长度和第二历。
13、史点击内容的第二路径长度, 将 所述第一路径长度和所述第二路径长度的最小值作为排序路径长度; 根据所述召回路径长 度和所述排序路径长度对所述至少一种召回内容进行排序, 作为最终搜索结果。 0006 其中, 所述个人数据包括所述注册用户点击的内容、 注册用户点击的内容的数量、 所述注册用户的标签, 所述注册用户输入的检索关键词; 所述应用数据包括应用内容和所 述应用内容中的热门内容; 所述根据所述个人数据和所述应用数据构建数据图谱的步骤, 包括: 将所述应用内容、 所述注册用户的标签、 所述检索关键词和所述注册用户作为节点; 绘制所述节点之间的关系。 0007 其中, 所述根据所述检索关键词获取。
14、至少一种召回内容的步骤, 包括: 根据所述检 索关键词通过开源搜索引擎召回第一类内容; 和/或根据所述检索关键词获取衍生词, 根据 所述衍生词通过开源搜索引擎召回第二类内容; 和/或根据所述第一类内容进行衍生获取 第三类内容; 和/或根据所述第二类内容进行衍生获取第四类内容; 和/或获取被点击次数 大于第一预设阈值的第五类内容。 说明书 1/13 页 4 CN 111694929 A 4 0008 其中, 所述当前使用用户相似的其他用户包括: 与所述当前使用用户具有相同标 签的第一用户; 和/或与所述当前使用用户点击过相同内容的第二用户; 和/或与所述当前 使用用户输入过相同检索关键词的第三用。
15、户。 0009 其中, 所述从所述数据图谱中获取与所述当前使用用户相似的其他用户的第二历 史点击内容的步骤, 包括: 分别计算所述第一用户和/或所述第二用户和/或所述第三用户 到所述当前使用用户的路径的第二得分, 根据所述第二得分获取所述第一用户和/或所述 第二用户和/或所述第三用户与所述当前使用用户的相似度; 若所述相似度大于第二预设 阈值, 则所述第一用户和/或所述第二用户和/或所述第三用户为与所述当前使用用户相似 的其他用户。 0010 其中, 所述根据所述第二得分获取所述第一用户和/或所述第二用户和/或所述第 三用户与所述当前使用用户的相似度的步骤, 包括: 将所述第二得分的平均值作为。
16、所述第 一用户和/或所述第二用户和/或所述第三用户与所述当前使用用户的相似度。 0011 其中, 所述根据所述召回路径长度和所述排序路径长度对所述至少一种召回内容 进行排列的步骤, 包括: 根据所述召回路径长度和所述排序路径长度计算所述至少一种召 回内容的第一得分; 将所述至少一种召回内容根据所述第一得分按降序排列, 作为最终搜 索结果; 还包括, 将所述最终搜索结果上传至区块链中。 0012 一种智能终端, 包括: 图谱模块, 用于获取数据库中的所有注册用户的个人数据和 应用数据, 根据所述个人数据和所述应用数据构建数据图谱; 获取模块, 用于获取输入的检 索关键词, 确定输入所述检索关键词。
17、的当前使用用户以及对应的身份标识; 召回模块, 用于 根据所述检索关键词从所述数据库中获取至少一种召回内容, 计算所述至少一种召回内容 的内容路径长度, 将所述内容路径长度的最小值作为召回路径长度; 历史模块, 用于获取所 述当前使用用户的第一历史点击内容, 从所述数据图谱中获取与所述当前使用用户相似的 其他用户的第二历史点击内容; 排序模块, 用于计算所述第一历史点击内容的第一路径长 度和第二历史点击内容的第二路径长度, 将所述第一路径长度和所述第二路径长度的最小 值作为排序路径长度; 结果模块, 用于根据所述召回路径长度和所述排序路径长度对所述 至少一种召回内容进行排列, 作为最终搜索结果。
18、。 0013 一种智能终端, 包括存储器和处理器, 所述存储器存储有计算机程序, 所述计算机 程序被所述处理器执行时, 使得所述处理器执行如上所述方法的步骤。 0014 一种可读存储介质, 存储有计算机程序, 所述计算机程序被处理器执行时, 使得所 述处理器执行如上所述方法的步骤。 0015 采用本发明, 具有如下的有益效果: 0016 根据应用程序的注册用户的个人数据和应用程序的应用数据构建数据图谱, 根据 数据图谱获取注册用户与当前使用用户之间的相似度, 结合检索关键词之间的相关度、 内 容之间相关度计算每个召回内容的得分, 根据得分进行排序, 可以得出对不同用户的个性 化搜索结果, 可以。
19、有效提升工作效率, 降低空间复杂度。 附图说明 0017 为了更清楚地说明本发明实施例或现有技术中的技术方案, 下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍, 显而易见地, 下面描述中的附图仅仅是本 说明书 2/13 页 5 CN 111694929 A 5 发明的一些实施例, 对于本领域普通技术人员来讲, 在不付出创造性劳动的前提下, 还可以 根据这些附图获得其他的附图。 0018 其中: 0019 图1是本发明提供的基于数据图谱的搜索方法的第一实施例额流程示意图; 0020 图2是本发明提供的数据图谱的示意图; 0021 图3是本发明提供的基于数据图谱的搜索方法中获取召回路。
20、径长度的方法的一实 施例的流程示意图; 0022 图4是本发明提供的基于数据图谱的搜索方法中获取排序路径长度的方法的一实 施例的流程示意图; 0023 图5是本发明提供的基于数据图谱的搜索方法中获取当前使用用户相似的其他用 户的方法的一实施例的流程示意图; 0024 图6是本发明提供的基于数据图谱的搜索方法的第二实施例额流程示意图; 0025 图7是本发明提供的智能终端的第一实施例的结构示意图; 0026 图8是本发明提供的智能终端的第二实施例的结构示意图; 0027 图9是本发明提供的可读存储介质的一实施例的结构示意图。 具体实施方式 0028 下面将结合本发明实施例中的附图, 对本发明实施。
21、例中的技术方案进行清楚、 完 整地描述, 显然, 所描述的实施例仅仅是本发明一部分实施例, 而不是全部的实施例。 基于 本发明中的实施例, 本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他 实施例, 都属于本发明保护的范围。 0029 目前的搜索方案基于ES(Elastic Search)全文检索引擎实现的。 这套方案没有考 虑用户行为信息, 没有做到基于数据图谱的搜索排序。 当前业内常用的基于数据图谱的搜 索排序方法的时间和空间复杂度很高, 在拥有海量数据的环境中, 推广难度较大。 0030 在本实施例中, 为了解决上述问题, 提供了一种混合腔的压力控制方法, 能够得出 对不同用。
22、户的基于数据图谱的搜索结果, 可以有效提升工作效率, 降低空间复杂度。 0031 请参阅图1, 图1是本发明提供的基于数据图谱的搜索方法的第一实施例额流程示 意图。 本发明提供的基于数据图谱的搜索方法包括如下步骤: 0032 S101: 获取数据库中的所有注册用户的个人数据和应用数据, 根据所述个人数据 和所述应用数据构建数据图谱。 0033 在一个具体的实施场景中, 获取数据库中所有注册用户的个人数据和应用程序的 应用数据。 该数据库中的数据对应一应用程序。 根据个人数据和应用数据构建数据图谱, 请 结合参阅图2, 图2是本发明提供的数据图谱的示意图。 本实施例中, 该图谱为 “用户-检索关。
23、 键词-内容(UKC)” 图谱。 可以收集个人数据和应用数据, 通过storm或者spark streaming等 流数据处理框架, 快速存入neo4j数据库中, 构建用户-检索关键词-内容(UKC)图谱。 0034 注册用户的个人数据包括注册用户(在图2中标识为User), 包括注册用户的ID (Identity document, 身份标识)和注册用户节点的出度, 即注册用户点击内容的数量; 用 户画像组为该注册用户提供的标签(在图2中标识为Keyword)、 注册用户输入的检索关键词 (在图2中标识为Keyword)、 注册用户的个人数据还包括注册用户点击的内容。 应用数据包 说明书 3。
24、/13 页 6 CN 111694929 A 6 括应用内容(在图2中标识为HotConten), 包括内容标识和内容类型; 应用程序的热门内容 (在图2中标识为IS_HOT)。 0035 在本实施场景中, 将应用内容(HotConten)、 注册用户的标签(Keyword)、 检索关键 词(Keyword)和注册用户(User)作为节点, 绘制各个节点之间的关系, 构建成数据图谱。 0036 请继续参阅图2, 数据图谱中的关系如下表所示。 0037 0038 需要说明的是, 图2中没有展示IS_HOT关系, 因为neo4j里, 该标签可以贴到 Content节点上UKC_KEYWORD_CO。
25、NVERSION_TIMES和UKC_CONTENT_CONVERSION_TIMES均为计 算比率的中间关系, 不在图2中显示。 0039 S102: 获取输入的检索关键词, 确定输入检索关键词的当前使用用户以及对应的 身份标识。 0040 在本实施场景中, 获取当前使用该应用程序的当前使用用户输入的检索关键词和 当前使用用户的身份标识, 获取检索关键词和身份标识的方法可采用本领域现有技术, 此 处不再进行赘述。 说明书 4/13 页 7 CN 111694929 A 7 0041 S103: 根据检索关键词从数据库中获取至少一种召回内容, 计算至少一种召回内 容的内容路径长度, 将内容路径。
26、长度的最小值作为召回路径长度。 0042 在本实施场景中, 根据检索关键词获取至少一种召回内容, 例如可以根据检索关 键词通过开源搜索引擎, 例如ES(Elastic Search), 召回, 从而获取一种召回内容, 还可以 根据当前使用用户的点击内容的习惯获取一种召回内容, 还可以根据输入相同检索关键词 的其他注册用户的点击内容的习惯获取一种召回内容等等。 分别计算每种召回内容的内容 路径长度, 将内容路径长度的最小值作为召回路径长度。 内容路径长度越短, 则表示召回内 容越匹配当前使用用户的需求。 0043 S104: 获取当前使用用户的第一历史点击内容, 从数据图谱中获取与当前使用用 户。
27、相似的其他用户的第二历史点击内容。 0044 在本实施场景中, 获取当前使用用户的点击过的第一历史点击内容, 根据数据图 谱获取与当前使用用户相似的其他使用用户, 具体地说, 可以计算数据图谱中所有注册用 户与当前使用用户USER_SIM的值, 当USER_SIM满足预设条件时, 对应该USER_SIM的注册用 户为与当前使用用户相似的其他用户, 获取其他用户的第二历史点击内容。 0045 获取第一历史点击内容和第二历史点击内容可以通过数据图谱实现或者采用现 有技术实现, 在此不做限定。 0046 S105: 计算第一历史点击内容的第一路径长度和第二历史点击内容的第二路径长 度, 将第一路径长。
28、度和第二路径长度的最小值作为排序路径长度。 0047 在本实施场景中, 分别计算第一历史点击内容的第一路径长度和第二历史点击内 容的第二路径长度, 将第一路径长度和第二路径长度的最小值作为排序路径长度。 0048 S106: 根据召回路径长度和排序路径长度对至少一种召回内容进行排列, 作为最 终搜索结果。 0049 在本实施场景中, 根据召回路径长度和排序路径长度分别计算步骤S103中获取的 至少一种召回内容的排序得分, 排序得分越高, 该召回内容与当前使用用户的搜索需求越 匹配, 将至少一种召回内容按照各自的排序得分进行降序排列, 作为最终搜索结果。 0050 通过上述描述可知, 在本实施例。
29、中根据应用程序的注册用户的个人数据和应用程 序的应用数据构建数据图谱, 从数据图谱中获取与当前使用用户相似的其他用户, 获取当 前使用用户的第一历史点击内容和其他用户的第二历史点击内容, 将第一历史点击内容的 第一路径长度和第二历史点击内容的第二路径长度的最小值作为排序路径长度, 根据当前 使用用户输入的检索关键词取至少一种召回内容, 计算至少一种召回内容的内容路径长 度, 将内容路径长度的最小值作为召回路径长度, 根据召回路径长度和排序路径长度对至 少一种召回内容进行排列, 作为最终搜索结果, 可以得出对不同用户的基于数据图谱的搜 索结果, 可以有效提升工作效率, 降低空间复杂度。 0051。
30、 请参阅图3, 图3是本发明提供的基于数据图谱的搜索方法中获取召回路径长度的 方法的一实施例的流程示意图。 本发明提供的获取召回路径长度的方法包括如下步骤: 0052 S201: 根据检索关键词通过开源搜索引擎召回的第一类内容。 0053 在本实施场景中, 根据当前使用用户输入的检索关键词, 根据检索关键词, 采用通 过开源搜索引擎, 例如ES(Elastic Search)搜索, 召回第一类内容。 ElasticSearch是一个 基于Lucene的搜索服务器。 它提供了一个分布式多用户能力的全文搜索引擎, 基于RESTful 说明书 5/13 页 8 CN 111694929 A 8 we。
31、b接口。 Elasticsearch是用Java语言开发的, 并作为Apache许可条款下的开放源码发布, 是一种流行的企业级搜索引擎。 0054 S202: 根据检索关键词获取衍生词, 根据衍生词通过开源搜索引擎召回的第二类 内容。 0055 在本实施场景中, 根据检索关键词衍生出衍生词, 可以统计注册用户的搜索记录, 获取注册用户在搜索检索关键词时, 也会搜索的其他检索关键词, 根据其他检索关键词获 取衍生词。 例如, 将其他检索关键词按照统计的搜索频率或者搜索次数等条件进行排序, 选 择前一个或者前若干个其他检索关键词作为衍生词。 根据衍生词通过开源搜索引擎, 例如 ES搜索, 召回第二。
32、类内容。 0056 S203: 根据第一类内容进行衍生获取第三类内容。 0057 在本实施场景中, 根据第一类内容衍生出第三类内容。 可以统计注册用户的点击 记录, 获取点击过第一类内容的注册用户经常点击的内容, 该内容为第三类内容。 例如, 可 以获取点击过第一类内容的注册用户, 获取这些注册用户经常点击的内容, 可以预设筛选 条件对这些内容进行筛选, 选择点击该内容的时间与点击第一类内容的时间的间隔小于预 设阈值的内容, 或者选择点击次数高于预设阈值的内容等。 将筛选后的内容作为第三类内 容。 0058 S204: 根据第二类内容进行衍生获取第四类内容。 0059 在本实施场景中, 与步骤。
33、S203中类似的, 根据第二类内容衍生出第四类内容。 可以 统计注册用户的点击记录, 获取点击过第二类内容的注册用户经常点击的内容, 该内容为 第四类内容。 例如, 可以获取点击过第二类内容的注册用户, 获取这些注册用户经常点击的 内容, 可以预设筛选条件对这些内容进行筛选, 选择点击该内容的时间与点击第二类内容 的时间的间隔小于预设阈值的内容, 或者选择点击次数高于预设阈值的内容等。 将筛选后 的内容作为第四类内容。 0060 S205: 获取被点击次数大于第一预设阈值的第五类内容。 0061 在本实施场景中, 获取注册用户的点击记录, 统计出被点击次数大于第一预设阈 值的第五类内容, 第五。
34、类内容为应用程序中的热门内容。 0062 需要说明的是, 在本实施例中, 步骤S201-S205可以同时或者先后执行, 执行顺序 不进行限制, 也可以仅执行其中一个或者若干个步骤。 0063 S206: 计算上述至少一种召回内容的内容路径长度。 0064 在本实施场景中, 根据检索关键词获取了第一类召回内容、 第二类召回内容、 第三 类召回内容、 第四类召回内容和第五类召回内容, 分别计算第一类召回内容、 第二类召回内 容、 第三类召回内容、 第四类召回内容和第五类召回内容的内容路径长度。 0065 具体地说, 根据公式(1)计算第一类召回内容的内容路径长度: 0066 0067 其中, pl。
35、1(k,c1)为第一类召回内容的内容路径长度, k为检索关键词, c1为第一类 召回内容, r1为检索关键词k与第一类召回内容c1的关系, r1.cr代表关系r1的转化率。 0068 根据公式(2)计算第二类召回内容的内容路径长度: 说明书 6/13 页 9 CN 111694929 A 9 0069 0070 其中, pl2(k,c2)为第二类召回内容的内容路径长度, k为检索关键词, c2为第二类 召回内容, r1为检索关键词k与第一类召回内容c1的关系, r2为检索关键词k与第二类召回内 容c2的关系, r1.cr代表关系r1的转化率, r2.cr代表关系r2的转化率。 0071 根据公。
36、式(3)计算第三类召回内容的内容路径长度: 0072 0073 其中, pl3(k,c3)为第三类召回内容的内容路径长度, k为检索关键词, c3为第三类 召回内容, r1为检索关键词k与第一类召回内容c1的关系, r2为检索关键词k与第二类召回内 容c2的关系, r1.cr代表关系r1的转化率, r2.cr代表关系r2的转化率。 0074 根据公式(4)计算第四类召回内容的内容路径长度: 0075 0076 其中, pl4(k,c4)为第四类召回内容的内容路径长度, k为检索关键词, c4为第四类 召回内容, r1为检索关键词k与第一类召回内容c1的关系, r2为检索关键词k与第二类召回内 。
37、容c2的关系, r3为检索关键词k与第三类召回内容c3的关系, r1.cr代表关系r1的转化率, r2.cr代表关系r2的转化率, r3.cr代表关系r3的转化率。 0077 根据数据图谱计算第五类召回内容的内容路径长度pl5(k,c5)。 0078 S207: 将内容路径长度的最小值作为召回路径长度。 0079 在本实施场景中, 根据公式(5)计算召回路径长度。 0080 pl(k, c)min(pl1(k, c1), pl2(k, c2), pl3(k, c3), pl4(k, c4), pl5(k, c5) (5) 0081 其中, pl(k,c)为召回路径长度, pl1(k,c1)为第。
38、一类召回内容的内容路径长度, pl2 (k,c2)为第二类召回内容的内容路径长度, pl3(k,c3)为第三类召回内容的内容路径长度, pl4(k,c4)为第四类召回内容的内容路径长度, pl5(k,c5)为第五类召回内容的内容路径长 度。 0082 通过上述描述可知, 在本实施例中根据检索关键词通过开源搜索引擎召回的第一 类内容, 根据检索关键词获取衍生词, 根据衍生词通过开源搜索引擎召回的第二类内容, 根 据第一类内容进行衍生获取第三类内容, 根据第二类内容进行衍生获取第四类内容, 被点 击次数大于第一预设阈值的第五类内容, 计算上述至少一种召回内容的内容路径长度, 将 内容路径长度的最小。
39、值作为召回路径长度, 可以获取匹配当前使用用户所需的内容。 0083 请参阅图4, 图4是本发明提供的基于数据图谱的搜索方法中获取排序路径长度的 方法的一实施例的流程示意图。 本发明提供的获取排序路径长度的方法包括如下步骤: 0084 S301: 获取当前使用用户的第一历史点击内容, 从数据图谱中获取与当前使用用 户相似的其他用户的第二历史点击内容。 0085 在一个具体的实施场景中, 获取当前使用用户的身份标识, 获取该身份标识对应 的第一历史点击内容。 获取当前使用用户的第一历史点击内容可以通过现有技术实现, 此 说明书 7/13 页 10 CN 111694929 A 10 处不再进行赘。
40、述。 0086 根据本发明提供的基于数据图谱的搜索方法的第一实施例中的步骤S101中的数 据图谱, 获取与当前使用用户相似的其他用户。 具体地, 可以根据数据图谱获取与当前使用 用户的路径长度满足预设条件的注册用户作为与当前使用用户相似的其他用户。 例如, 可 以获取与当前使用用户具有相同标签的第一用户; 和/或与当前使用用户点击过相同内容 的第二用户; 和/或与当前使用用户输入过相同检索关键词的第三用户作为与当前使用用 户相似的其他用户。 进一步地, 还可以对第一用户、 第二用户和第三用户按照预设的规则进 行筛选, 将筛选的结果作为与当前使用用户相似的其他用户。 0087 S302: 计算第。
41、一历史点击内容的第一路径长度和第二历史点击内容的第二路径长 度。 0088 在本实施场景中, 根据公式(6)计算第一路径长度: 0089 0090 其中, u1为当前使用用户, c6为第一历史点击内容, sl1(u1,c6)为第一路径长度。 0091 根据公式(7)计算第二路径长度: 0092 0093 其中, u2为与当前使用用户相似的其他用户, c7为第二历史点击内容, r.sim代表其 他用户与当前使用用户的用户相似度, sl2(u2,c7)为第二路径长度。 0094 在本实施场景中, 可以在步骤S302中获取与当前使用用户相似的其他用户时, 计 算其他用户与当前使用用户的用户相似度。 。
42、0095 S303: 将第一路径长度和第二路径长度的最小值作为排序路径长度。 0096 在本实施场景中, 根据公式(8)计算排序路径长度: 0097 sl(u,c)min(sl1(u1,c6),sl2(u2,c7) (8) 0098 其中, sl(u,c)为排序路径长度, sl1(u1,c6)为第一路径长度, sl2(u2,c7)为第二路 径长度。 0099 通过上述描述可知, 在本实施例中从数据图谱中获取与当前使用用户相似的其他 用户的第二历史点击内容, 计算当前使用用户的第一历史点击内容的第一路径长度和第二 历史点击内容的第二路径长度, 将最小值作为排序路径长度, 可以获取当前使用用户的使。
43、 用偏好, 有利于获取用户的基于数据图谱的搜索结果。 0100 请参阅图5, 图5是本发明提供的基于数据图谱的搜索方法中获取当前使用用户相 似的其他用户的方法的一实施例的流程示意图。 本发明提供的获取当前使用用户相似的其 他用户的方法包括如下步骤: 0101 S401: 获取与当前使用用户具有相同标签的第一用户; 和/或与当前使用用户点击 过相同内容的第二用户; 和/或与当前使用用户输入过相同检索关键词的第三用户。 0102 在一个具体的实施场景中, 根据数据图谱获取与当前使用用户具有相同标签的第 一用户、 与当前使用用户点击过相同内容的第二用户、 与当前使用用户输入过相同检索关 键词的第三用。
44、户。 如上文中的, 数据图谱是根据注册用户的个人数据和应用程序的应用数 据构建的, 个人数据包括注册用户点击的内容、 注册用户点击的内容的数量、 注册用户的标 说明书 8/13 页 11 CN 111694929 A 11 签, 注册用户输入的检索关键词, 因此, 可以根据数据图谱获取第一用户、 第二用户和第三 用户。 0103 S402: 分别计算第一用户和/或第二用户和/或第三用户到当前使用用户的路径的 第二得分, 根据第二得分获取第一用户和/或第二用户和/或第三用户与当前使用用户的相 似度。 0104 在本实施场景中, 首先获取第一用户到当前使用用户的路径: uLabelv, 第二 用户。
45、到当前使用用户的路径: uContentv, 以及第三用户到当前使用用户的路径: u Keywordv。 0105 再构建一个函数算第一用户、 第二用户和第三用户到当前使用用户的路径的第二 得分, 该函数需要满足以下条件: 0106 i.共同点击内容数量为0时, 用户相似度为0; 0107 ii.共同点击内容数量为1或者为2时, 用户相似度差别非常小; 0108 iii.当用户点击内容为10或者100时, 用户相似度差别很大; 0109 iv.共同点击内容数量为10万或者100万时, 用户相似度差别不大; 0110 v.共同点击内容数量非常多时, 保证用户相似度趋近于1。 0111 综上, 该。
46、函数呈S型。 0112 在本实施场景中, 根据公式(9)计算第一用户、 第二用户和第三用户到当前使用用 户的路径: 路径u(M)v的第二得分: 0113 0114 其中, F(u,v,M)为第二得分, u为当前使用用户, v为第一用户、 第二用户和第三用 户中的一个, M为第一用户、 第二用户和第三用户与当前使用用户的相同的数据类型, 例如 Label、 Content或者Keyword, m.id表示节点m的入度。 0115 在本实施场景中, 将第二得分作为相似度。 0116 S403: 若相似度大于第二预设阈值, 则第一用户和/或第二用户和/或第三用户为 与当前使用用户相似的其他用户。 0。
47、117 在本实施场景中, 通过步骤S402分别获取第一用户、 第二用户和第三用户的相似 度, 判断第一用户、 第二用户和第三用户的相似度是否大于第二预设阈值, 相似度大于第二 预设阈值的第一用户、 第二用户或者第三用户为与当前使用用户的其他用户。 0118 通过上述描述可知, 在本实施例中根据数据图谱获取与当前使用用户具有相同标 签的第一用户, 与当前使用用户点击过相同内容的第二用户, 与当前使用用户输入过相同 检索关键词的第三用户, 分别计算第一用户和/或第二用户和/或第三用户到当前使用用户 的路径的第二得分, 根据第二得分获取用户之间的相似度, 可以准确快速获取与当前用户 相似的其他用户,。
48、 提升工作效率。 0119 请参阅图6, 图6是本发明提供的基于数据图谱的搜索方法的第二实施例额流程示 意图。 本发明提供的基于数据图谱的搜索方法包括如下步骤: 0120 S501: 获取数据库中的所有注册用户的个人数据和应用数据, 根据所述个人数据 和所述应用数据构建数据图谱。 0121 S502: 获取输入的检索关键词, 确定输入检索关键词的当前使用用户以及对应的 说明书 9/13 页 12 CN 111694929 A 12 身份标识。 0122 在本实施场景中, 步骤S501-S502与本发明提供的基于数据图谱的搜索方法的第 一实施例中的步骤S101-S102基本一致, 此处不再进行赘。
49、述。 0123 S503: 根据检索关键词通过开源搜索引擎召回的第一类内容。 0124 S504: 根据检索关键词获取衍生词, 根据衍生词通过开源搜索引擎召回的第二类 内容。 0125 S505: 根据第一类内容进行衍生获取第三类内容。 0126 S506: 根据第二类内容进行衍生获取第四类内容。 0127 S507: 获取被点击次数大于第一预设阈值的第五类内容。 0128 S508: 计算上述至少一种召回内容的内容路径长度。 0129 S509: 将内容路径长度的最小值作为召回路径长度。 0130 在本实施场景中, 步骤S503-S509与本发明提供的基于数据图谱的搜索方法中获 取召回路径长。
50、度的方法的一实施例中步骤S201-S207基本一致, 此处不再进行赘述。 0131 S510: 获取与当前使用用户具有相同标签的第一用户; 和/或与当前使用用户点击 过相同内容的第二用户; 和/或与当前使用用户输入过相同检索关键词的第三用户。 0132 S511: 分别计算第一用户和/或第二用户和/或第三用户到当前使用用户的路径的 第二得分, 根据第二得分获取第一用户和/或第二用户和/或第三用户与当前使用用户的相 似度。 0133 S512: 若相似度大于第二预设阈值, 则第一用户和/或第二用户和/或第三用户为 与当前使用用户相似的其他用户。 0134 在本实施场景中, 步骤S510-S512。
- 内容关键字: 基于 数据 图谱 搜索 方法 智能 终端 可读 存储 介质
农机动力飞轮喷涂用漆雾废气处理装置.pdf
旁路引流线绝缘防护夹持支架结构.pdf
建筑施工围挡.pdf
推进剂气体浓度监测传感器.pdf
防刺伤采血针.pdf
铸造件快速冷却装置.pdf
工业硅粉制备用研磨装置.pdf
电池盖帽包边用防偏移模具.pdf
拉杆式储能电源箱.pdf
多穴五轴自动光学检测装置.pdf
活塞钻铣床.pdf
混凝土结构表面裂缝检测装置.pdf
羊粪粉碎机的清扫装置.pdf
铁碳微电解填料球.pdf
电感电流过零检测方法及电路.pdf
陶瓷加工的练泥机.pdf
建筑工程用支护装置.pdf
压滤机拉板装置及压滤机.pdf
含油污泥处理水洗装置.pdf
半导体结构及其制备方法.pdf
双环高密度标测消融导管.pdf
洁净手术室用的排风系统.pdf
用于预测转动设备的故障概率的方法、设备和存储介质.pdf
视觉辅助的三极管封装质量检测方法.pdf
可调式肢体活动康复训练装置.pdf
基于分布式光纤声波传感的异常事件识别方法及相关装置.pdf
服装布料用卷绕装置.pdf
鸽子脂肪前体细胞的分离并体外培养方法及培养物和应用.pdf
配置肘式黏滞阻尼器的自复位摇摆结构.pdf
采硐充填方法.pdf
积分球数字仿体系统及成像测评方法.pdf
氯代碳酸乙烯酯的制备方法.pdf
高炉煤气脱硫催化剂及其制备方法和应用.pdf
抖筛机.pdf
电连接器组件.pdf
用于网络路由器的保护装置.pdf
膨胀式家具板材连接组件.pdf
用于畜牧业牧草加工用粉碎装置.pdf
断桥式电机专用铝型材.pdf
可响应X射线释药的介孔硅纳米粒子及其制备方法与应用.pdf
多级处理烘干设备.pdf
功能推荐方法、装置、电子设备及存储介质.pdf
基于LoRaWAN的高效无线地震数据传输协议设计方法.pdf
小面积室内空气循环加热系统.pdf
防止污水污物堵塞的潜水泵.pdf
轮式机器人有限时间控制方法、系统、装置及介质.pdf
宽带二维波束赋形网络.pdf
LED灯灯芯加工用固定装置.pdf
输电线路自动巡检无人机、控制方法、装置和存储介质.pdf
低成本免挤出塑料管材的缠绕成型工艺.pdf
装修砌墙用自动出料型连续供料装置.pdf