内容搜索方法、装置、设备及存储介质.pdf

上传人:bo****18 文档编号:11200773 上传时间:2021-09-12 格式:PDF 页数:22 大小:903.28KB
收藏 版权申诉 举报 下载
内容搜索方法、装置、设备及存储介质.pdf_第1页
第1页 / 共22页
内容搜索方法、装置、设备及存储介质.pdf_第2页
第2页 / 共22页
内容搜索方法、装置、设备及存储介质.pdf_第3页
第3页 / 共22页
文档描述:

《内容搜索方法、装置、设备及存储介质.pdf》由会员分享,可在线阅读,更多相关《内容搜索方法、装置、设备及存储介质.pdf(22页完成版)》请在专利查询网上搜索。

1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 201911197737.6 (22)申请日 2019.11.29 (71)申请人 北京三快在线科技有限公司 地址 100080 北京市海淀区北四环西路9号 2106-030 (72)发明人 赵朝兴项肖华周乐钦张俊浩 张弓王仲远 (74)专利代理机构 北京三高永信知识产权代理 有限责任公司 11138 代理人 谢冬寒 (51)Int.Cl. G06Q 30/06(2012.01) G06F 16/332(2019.01) G06F 16/35(2019.01) (54)发明名称 。

2、内容搜索方法、 装置、 设备及存储介质 (57)摘要 本申请公开了一种内容搜索方法、 装置、 设 备及存储介质, 属于互联网技术领域。 所述方法 包括: 获取搜索关键词; 获取特征向量; 根据特征 向量, 从z个聚类中心点中选择n个目标中心点; 从n个目标中心点的聚类集合中, 搜索获取与搜 索关键词相匹配的r个内容; 根据r个内容生成搜 索结果。 本申请实施例提供的技术方案, 扩展了 一种搜索查询的方式, 并且实现了从内容集合的 海量内容中, 预先选择一些具有代表性的内容作 为聚类中心点, 然后在这些聚类中心点及其所在 的聚类集合的基础上进行后续的搜索查询过程, 提升了系统的处理速度, 减少了。

3、搜索查询过程的 耗时。 权利要求书2页 说明书12页 附图7页 CN 111582967 A 2020.08.25 CN 111582967 A 1.一种内容搜索方法, 其特征在于, 所述方法包括: 获取搜索关键词; 获取特征向量; 根据所述特征向量, 从z个聚类中心点中选择n个目标中心点, 所述z个聚类中心点是从 内容集合中选取的z个内容, 所述z为正整数, 所述n为小于或等于所述z的正整数; 从所述n个目标中心点的聚类集合中, 搜索获取与所述搜索关键词相匹配的r个内容, 其中, 每个所述目标中心点的聚类集合中包括至少一个内容, 所述r为正整数; 根据所述r个内容生成搜索结果。 2.根据权利。

4、要求1所述的方法, 其特征在于, 所述根据所述特征向量, 从z个聚类中心点 中选择n个目标中心点, 包括: 分别计算所述特征向量与每个所述聚类中心点的内容特征向量之间的相似度; 从所述z个聚类中心点中, 选择所述相似度符合条件的n个聚类中心点作为所述n个目 标中心点; 其中, 所述条件包括: 所述相似度按照从大到小的顺序排在前n位, 或者所述相似度超 过相似度阈值。 3.根据权利要求1所述的方法, 其特征在于, 所述从所述n个目标中心点的聚类集合中, 搜索获取与所述搜索关键词相匹配的r个内容, 包括: 分别获取各个所述目标中心点的倒排链, 所述目标中心点的倒排链中包括以所述目标 中心点为聚类中。

5、心的至少一个内容的标识; 根据各个所述目标中心点的倒排链, 从以所述目标中心点为聚类中心的至少一个内容 中, 搜索获取与所述搜索关键词相匹配的所述r个内容。 4.根据权利要求1所述的方法, 其特征在于, 所述根据所述r个内容生成搜索结果, 包 括: 生成所述r个内容的推荐分值, 所述推荐分值用于指示所述内容适合推荐的程度; 根据所述r个内容的推荐分值, 从所述r个内容中选择至少一个目标内容作为所述搜索 结果。 5.根据权利要求1至4任一项所述的方法, 其特征在于, 所述根据所述特征向量, 从z个 聚类中心点中选择n个目标中心点之前, 还包括: 从所述内容集合中抽样选取y个内容, 所述内容集合中。

6、包括x个内容, 所述x大于所述y, 且所述x和所述y均为正整数; 对所述y个内容进行聚类处理, 得到所述z个聚类中心点; 对于所述内容集合中的第i个内容, 计算所述第i个内容的内容特征向量与各个所述聚 类中心点的内容特征向量之间的相似度, 所述i为小于或等于所述x的正整数; 选择与所述第i个内容的内容特征向量之间的相似度最大的聚类中心点, 并将所述第i 个内容的标识添加至所述相似度最大的聚类中心点的聚类集合中。 6.一种内容搜索方法, 其特征在于, 所述方法包括: 获取目标用户帐号输入的搜索关键词; 获取所述目标用户帐号的用户特征向量; 根据所述用户特征向量, 从z个聚类中心点中选择n个目标中。

7、心点, 所述z个聚类中心点 权利要求书 1/2 页 2 CN 111582967 A 2 是从内容集合中选取的z个内容, 所述z为正整数, 所述n为小于或等于所述z的正整数; 从所述n个目标中心点的聚类集合中, 搜索获取与所述搜索关键词相匹配的r个内容, 其中, 每个所述目标中心点的聚类集合中包括至少一个内容, 所述r为正整数; 根据所述r个内容生成搜索结果。 7.一种内容搜索装置, 其特征在于, 所述装置包括: 关键词获取模块, 用于获取搜索关键词; 向量获取模块, 用于获取特征向量; 中心点选取模块, 用于根据所述特征向量, 从z个聚类中心点中选择n个目标中心点, 所 述z个聚类中心点是从。

8、内容集合中选取的z个内容, 所述z为正整数, 所述n为小于或等于所 述z的正整数; 内容匹配模块, 用于从所述n个目标中心点的聚类集合中, 搜索获取与所述搜索关键词 相匹配的r个内容, 其中, 每个所述目标中心点的聚类集合中包括至少一个内容, 所述r为正 整数; 结果生成模块, 用于根据所述r个内容生成搜索结果。 8.一种内容搜索装置, 其特征在于, 所述装置包括: 关键词获取模块, 用于获取目标用户帐号输入的搜索关键词; 向量获取模块, 用于获取所述目标用户帐号的用户特征向量; 中心点选取模块, 用于根据所述用户特征向量, 从z个聚类中心点中选择n个目标中心 点, 所述z个聚类中心点是从内容。

9、集合中选取的z个内容, 所述z为正整数, 所述n为小于或等 于所述z的正整数; 内容匹配模块, 用于从所述n个目标中心点的聚类集合中, 搜索获取与所述搜索关键词 相匹配的r个内容, 其中, 每个所述目标中心点的聚类集合中包括至少一个内容, 所述r为正 整数; 结果生成模块, 用于根据所述r个内容生成搜索结果。 9.一种计算机设备, 其特征在于, 所述计算机设备包括处理器和存储器, 所述存储器中 存储有计算机程序, 所述计算机程序由所述处理器加载并执行以实现如权利要求1至5任一 项所述的内容搜索方法, 或实现如权利要求6所述的内容搜索方法。 10.一种非临时性计算机可读存储介质, 其上存储有计算。

10、机程序, 其特征在于, 所述计 算机程序被处理器执行时实现如权利要求1至5任一项所述的内容搜索方法, 或实现如权利 要求6所述的内容搜索方法。 权利要求书 2/2 页 3 CN 111582967 A 3 内容搜索方法、 装置、 设备及存储介质 技术领域 0001 本申请实施例涉及互联网技术领域, 特别涉及一种内容搜索方法、 装置、 设备及存 储介质。 背景技术 0002 目前, 越来越多的商户在在线订单类应用程序中注册, 在在线订单类应用程序的 客户端中登录的用户可以通过输入搜索关键词找到满足需求的商户。 0003 相关技术对于搜索查询满足用户需求的商户部署了两个独立的检索系统, 其中一 个。

11、检索系统根据用户的搜索关键词, 从注册在应用程序的商户中检索与搜索关键词相对应 的商户作为搜索结果, 另外一个检索系统根据用户的特征信息对搜索结果进行过滤筛选, 从而得到满足用户偏好的搜索结果。 发明内容 0004 本申请实施例提供了一种内容搜索方法、 装置、 设备及存储介质。 所述技术方案如 下: 0005 一方面, 本申请实施例提供了一种内容搜索方法, 所述方法包括: 0006 获取搜索关键词; 0007 获取特征向量; 0008 根据所述特征向量, 从z个聚类中心点中选择n个目标中心点, 所述z个聚类中心点 是从内容集合中选取的z个内容, 所述z为正整数, 所述n为小于或等于所述z的正整。

12、数; 0009 从所述n个目标中心点的聚类集合中, 搜索获取与所述搜索关键词相匹配的r个内 容, 其中, 每个所述目标中心点的聚类集合中包括至少一个内容, 所述r为正整数; 0010 根据所述r个内容生成搜索结果。 0011 另一方面, 本申请实施例提供了一种内容搜索方法, 所述方法包括: 0012 获取目标用户帐号输入的搜索关键词; 0013 获取所述目标用户帐号的用户特征向量; 0014 根据所述用户特征向量, 从z个聚类中心点中选择n个目标中心点, 所述z个聚类中 心点是从内容集合中选取的z个内容, 所述z为正整数, 所述n为小于或等于所述z的正整数; 0015 从所述n个目标中心点的聚。

13、类集合中, 搜索获取与所述搜索关键词相匹配的r个内 容, 其中, 每个所述目标中心点的聚类集合中包括至少一个内容, 所述r为正整数; 0016 根据所述r个内容生成搜索结果。 0017 再一方面, 本申请实施例提供了一种内容搜索装置, 所述装置包括: 0018 关键词获取模块, 用于获取搜索关键词; 0019 向量获取模块, 用于获取特征向量; 0020 中心点选取模块, 用于根据所述特征向量, 从z个聚类中心点中选择n个目标中心 点, 所述z个聚类中心点是从内容集合中选取的z个内容, 所述z为正整数, 所述n为小于或等 说明书 1/12 页 4 CN 111582967 A 4 于所述z的正。

14、整数; 0021 内容匹配模块, 用于从所述n个目标中心点的聚类集合中, 搜索获取与所述搜索关 键词相匹配的r个内容, 其中, 每个所述目标中心点的聚类集合中包括至少一个内容, 所述r 为正整数; 0022 结果生成模块, 用于根据所述r个内容生成搜索结果。 0023 又一方面, 本申请实施例提供了一种内容搜索装置, 所述装置包括: 0024 关键词获取模块, 用于获取目标用户帐号输入的搜索关键词; 0025 向量获取模块, 用于获取所述目标用户帐号的用户特征向量; 0026 中心点选取模块, 用于根据所述用户特征向量, 从z个聚类中心点中选择n个目标 中心点, 所述z个聚类中心点是从内容集合。

15、中选取的z个内容, 所述z为正整数, 所述n为小于 或等于所述z的正整数; 0027 内容匹配模块, 用于从所述n个目标中心点的聚类集合中, 搜索获取与所述搜索关 键词相匹配的r个内容, 其中, 每个所述目标中心点的聚类集合中包括至少一个内容, 所述r 为正整数; 0028 结果生成模块, 用于根据所述r个内容生成搜索结果。 0029 还一方面, 本申请实施例提供了一种计算机设备, 所述计算机设备包括处理器和 存储器, 所述存储器中存储有计算机程序, 所述计算机程序由所述处理器加载并执行以实 现上述内容搜索方法。 0030 还一方面, 本申请实施例提供了一种非临时性计算机可读存储介质, 其上存。

16、储有 计算机程序, 所述计算机程序被处理器执行时实现上述内容搜索方法。 0031 还一方面, 提供了一种计算机程序产品, 当所述计算机程序产品在服务器上运行 时, 使得服务器执行上述内容搜索方法。 0032 本申请实施例提供的技术方案可以带来如下有益效果: 0033 通过根据特征向量从多个聚类中心点中选择至少一个目标中心点, 然后根据搜索 关键词从上述目标中心点的聚类集合中选择相匹配的内容, 最后根据选择的内容生成搜索 结果, 扩展了一种搜索查询的方式, 并且本申请实施例中多个聚类中心点是从内容集合中 选取的多个内容, 实现了从内容集合的海量内容中, 预先选择一些具有代表性的内容作为 聚类中心。

17、点, 然后在这些聚类中心点及其所在的聚类集合的基础上进行后续的搜索查询过 程, 提升了系统的处理速度, 减少了搜索查询过程的耗时。 附图说明 0034 为了更清楚地说明本申请实施例中的技术方案, 下面将对实施例描述中所需要使 用的附图作简单地介绍, 显而易见地, 下面描述中的附图仅仅是本申请的一些实施例, 对于 本领域普通技术人员来讲, 在不付出创造性劳动的前提下, 还可以根据这些附图获得其他 的附图。 0035 图1是本申请一个实施例提供的实施环境的示意图; 0036 图2是本申请一个实施例提供的内容搜索方法的流程图; 0037 图3是本申请另一个实施例提供的内容搜索方法的流程图; 0038。

18、 图4是本申请一个实施例提供的聚类集合生成过程的流程图; 说明书 2/12 页 5 CN 111582967 A 5 0039 图5是本申请一个实施例提供的聚类集合生成过程的示意图; 0040 图6是本申请又一个实施例提供的内容搜索方法的流程图; 0041 图7是本申请一个实施例提供的内容搜索装置的框图; 0042 图8是本申请另一个实施例提供的内容搜索装置的框图; 0043 图9是本申请又一个实施例提供的内容搜索装置的框图; 0044 图10是本申请一个实施例提供的计算机设备的框图。 具体实施方式 0045 为使本申请的目的、 技术方案和优点更加清楚, 下面将结合附图对本申请实施方 式作进一。

19、步地详细描述。 0046 请参考图1, 其示出了本申请一个实施例提供的实施环境的示意图。 该实施环境可 以包括: 终端10和服务器20。 0047 终端10可以是诸如手机、 平板电脑、 游戏主机、 电子书阅读器、 多媒体播放设备、 可 穿戴设备等电子设备。 终端10中可以安装目标应用程序的客户端, 该目标应用程序可以是 提供内容搜索服务的应用程序, 如外卖类应用程序的客户端、 购物类应用程序的客户端、 视 频类应用程序的客户端、 资讯类应用程序的客户端等。 示例性地, 当内容为商户时, 目标应 用程序可以是外卖类应用程序和购物类应用程序等。 0048 服务器20用于为终端10中的目标应用程序的。

20、客户端提供后台服务。 例如, 服务器 20可以是该目标应用程序的后台服务器。 服务器20可以是一台服务器, 也可以是由多台服 务器组成的服务器集群, 或者是一个云计算服务中心。 0049 终端10和服务器20之间可通过网络30进行互相通信。 该网络30可以是有线网络, 也可以是无线网络。 0050 本申请方法实施例中, 各步骤的执行主体可以是终端, 也可以服务器, 为了便于说 明, 在下述实施例中, 仅以各步骤由服务器来执行进行介绍说明, 但对此不构成限定。 0051 请参考图2, 其示出了本申请一个实施例提供的内容搜索方法的流程图。 该方法可 以包括如下几个步骤(201205): 0052 。

21、步骤201, 获取搜索关键词。 0053 搜索关键词是指从搜索内容中提取的关键词, 搜索内容是在应用程序的内容搜索 栏中输入的, 本申请实施例对搜索关键词的数量不作限定, 实际应用中可以综合内容准确 性与服务器处理开销这两方面的因素来确定搜索关键词的数量。 可选地, 为了加快服务器 的处理速度, 搜索关键词可以与内容搜索栏的输入内容相同。 例如, 在内容搜索栏中的输入 内容为 “健康营养粥” 时, 搜索关键词可以是 “健康营养粥” , 也可以是 “健康” 、“营养” 和 “粥” , 还可以是 “健康” 和 “营养粥” 。 0054 步骤202, 获取特征向量。 0055 特征向量用于指示特征信。

22、息, 特征信息是指在应用程序的客户端中注册所生成的 信息, 以及使用应用程序的过程中生成的信息。 可选地, 特征向量包含一个或多个元素, 每 个元素对应一个特征信息, 即特征信息的数量与特征向量中元素的数量相同。 0056 例如, 当特征信息包括年龄、 性别、 职业、 地区、 兴趣爱好、 历史订单数时, 特征向量 包含6个元素, 且这6个元素分别对应6个特征信息。 可选地, 为了减轻服务器的处理开销、 加 说明书 3/12 页 6 CN 111582967 A 6 快服务器的处理速度, 特征向量中的元素采用数值的形式表示。 例如, 对于特征向量中对应 性别这一特征信息的元素, 0表示性别为男,。

23、 1表示性别为女。 又例如, 对于特征向量中对应 地区这一特征信息的元素, 0表示北京市, 1表示上海市, 2表示广东省, 3表示江苏省, 4表示 四川省, 中国其它省份和直辖市以此类推; 或者, 0表示北京市朝阳区, 1表示北京市海淀区, 2表示北京市大兴区, 3表示北京市怀柔区, 4表示北京市平谷区, 北京市其它辖区以此类推。 0057 步骤203, 根据特征向量, 从z个聚类中心点中选择n个目标中心点。 0058 本申请实施例中, z个聚类中心点是从内容集合中选取的z个内容, z为正整数, 其 中, 内容集合中包括至少一个内容, 本申请实施例中, 内容集合中包括x个内容, x为正整数。 。

24、可选地, 为了便于服务器的计算与表示, 每个内容对应有一个内容特征向量, 该内容特征向 量用于指示内容的特征信息。 可选地, 内容特征向量包含一个或多个元素, 每个元素对应一 个特征信息, 即内容的特征信息的数量与内容特征向量中元素的数量相同。 0059 以外卖类应用程序为例, 在该外卖类应用程序上注册的商户提供内容搜索服务, 每个商户及其特征信息对应一条内容, 多条内容组成了内容集合, 其中, 商户的特征信息是 指商户在该外卖类应用程序中注册及使用所生成的信息, 包括商户的名称、 地址、 类别、 菜 单、 订单量和评价。 每个商户对应有一个内容特征向量, 该内容特征向量包含6个元素, 且这 。

25、6个元素分别对应商户的6个特征信息。 可选地, 为了减轻服务器的处理开销、 加快服务器的 处理速度, 内容特征向量中的元素采用数值的形式表示。 基于上述步骤202对用户特征向量 中元素的表示形式的介绍, 得到本步骤203中对内容特征向量中元素的表示形式的介绍, 此 处不再赘述。 0060 目标中心点是指根据特征向量从z个聚类中心点中选择的n个聚类中心点, n为小 于或等于z的正整数。 示例性地, 本申请实施例使用量化器从z个聚类中心点中选择n个目标 中心点, 可选地, 量化器在从z个聚类中心点中选择n个目标中心点之前, 会预先加载z个聚 类中心点, 并根据该z个聚类中心点构建K-D树(K-Di。

26、mensional, K维树), 然后根据查询向量 从K-D树中选择与查询向量相匹配的n个聚类中心点, 其中, 查询向量是指特征向量。 例如, 如图3所示, 使用量化器从z个聚类中心点中选择n个目标中心点的查询向量301是特征向 量。 0061 在一种可能的实施方式中, 上述步骤203包括: 分别计算特征向量与每个聚类中心 点的内容特征向量之间的相似度; 从z个聚类中心点中, 选择相似度符合条件的n个聚类中 心点作为n个目标中心点; 其中, 上述条件包括: 相似度按照从大到小的顺序排在前n位, 或 者相似度超过相似度阈值。 0062 相似度用于指示特征向量与聚类中心点的内容特征向量之间的相似程。

27、度, 可选 地, 相似度可以使用特征向量与内容特征向量之间的欧式距离计算, 也可以使用特征向量 与内容特征向量之间的余弦距离计算, 本申请实施例对此不作限定。 0063 相似度阈值可以是预先设置的, 也可以是根据相似度计算结果设置的, 本申请实 施例不作限定, 实际应用中可以结合结果准确性与对目标中心点数量的需求这两方面的因 素来确定相似度阈值的大小。 可选地, 在上述条件为相似度按照从大到小的顺序排在前n位 时, 目标中心点的数量n可以根据结果准确性与实际需求来预先确定。 0064 例如, 若有6个聚类中心点, 且特征向量与这6个聚类中心点的内容特征向量之间 的相似度分别为90、 80、 8。

28、5、 95、 20和98, 则在条件为相似度按照从大到小的顺 说明书 4/12 页 7 CN 111582967 A 7 序排在前3位时, 选择出的目标中心点分别为第六个、 第四个和第一个聚类中心点; 在条件 为相似度超过相似度阈值92时, 选择出的目标中心点分别为第六个和第四个聚类中心 点。 通过上述对目标中心点的选择方式, 可以在便于服务器选择的同时兼顾结果的准确性。 0065 步骤204, 从n个目标中心点的聚类集合中, 搜索获取与搜索关键词相匹配的r个内 容。 0066 每个聚类中心点(目标中心点)均对应有一个聚类集合, 该聚类集合中包括至少一 个内容, 即聚类集合中除了包括聚类中心点。

29、(目标中心点)之外, 还可以包括其它的内容。 服 务器选择出n个目标中心点后, 即在这n个目标中心点的聚类集合中, 搜索与搜索关键词相 匹配的r个内容, r为正整数。 本申请实施例中, 与搜索关键词相匹配, 既可以是指某条内容 的内容特征向量所表示的含义包括搜索关键词, 也可以是指某条内容的内容特征向量所表 示的含义与搜索关键词所表达的含义相似。 0067 本申请实施例使用量化器搜索获取与关键词相匹配的r个内容, 量化器在搜索获 取r个内容之前, 预先加载n个目标中心点的聚类集合, 然后根据搜索关键词从n个聚类集合 中搜索获取与关键词相匹配的r个内容, 其中, 查询向量是搜索关键词。 例如, 。

30、如图3所示, 量 化器是使用搜索关键词302从n个目标中心点的聚类集合中搜索获取r个内容的。 0068 在一种可能的实施方式中, 为了加快处理速度, 上述步骤204包括: 分别获取各个 目标中心点的倒排链, 目标中心点的倒排链中包括以目标中心点为聚类中心的至少一个内 容的标识; 根据各个目标中心点的倒排链, 从以目标中心点为聚类中心的至少一个内容中, 搜索获取与搜索关键词相匹配的r个内容。 内容的标识可以内容的序号或ID标识等, 本申请 实施例对此不作限定。 0069 示例性地, 上述根据各个目标中心点的倒排链, 从以目标中心点为聚类中心的至 少一个内容中, 搜索获取与搜索关键词相匹配的r个内。

31、容, 包括: 根据搜索关键词, 从内容集 合中获取与搜索关键词相匹配的多个内容; 根据该多个内容, 形成搜索关键词倒排链; 对搜 索关键词倒排链和各个目标中心点的倒排链中的文档进行合并处理, 得到r个内容。 其中, 每个倒排链中包含多个文档, 每个文档对应一条内容, 且每个文档中包括对应内容的标识。 可选地, 合并处理可以是取并集处理, 也可以是取交集处理, 或者是其它处理方式, 本申请 实施例对合并处理的具体方式不作限定。 例如, 如图3所示, 若有2个目标中心点, 记为中心 点a和中心点b, 每个中心点对应一条倒排链, 记为倒排链a和倒排链b, 倒排链a中包括文档 3、 文档6和文档9, 。

32、倒排链b中包括文档5、 文档10和文档12, 搜索关键词倒排链中包括文档3、 文档7和文档10, 则对搜索关键词倒排链和各个目标中心点的倒排链的合并处理303, 可以 是指将倒排链a和倒排链b中与搜索关键词倒排链中相同的文档对应的内容提取出来作为r 个内容, 即将文档3和文档10对应的内容提取出来作为r个内容。 0070 步骤205, 根据r个内容生成搜索结果。 0071 服务器搜索获取r个内容后, 即根据该r个内容生成搜索结果。 可选地, 搜索结果既 可以是r个内容, 也可以是从r个内容中选取出的部分内容, 本申请实施例对此不作限定。 可 选地, 服务器获取r个内容后, 可以对该r个内容进行。

33、一定的处理, 以生成搜索结果, 如进行 打分排序处理等。 0072 在一种可能的实施方式中, 为了使得搜索结果更加准确, 上述步骤205包括: 生成r 个内容的推荐分值, 推荐分值用于指示内容适合推荐的程度; 根据r个内容的推荐分值, 从r 说明书 5/12 页 8 CN 111582967 A 8 个内容中选择至少一个目标内容作为搜索结果。 服务器获取r个内容后, 可以根据一定的评 分标准生成这r个内容的推荐分值, 本申请实施例对评分标准的具体内容不作限定, 实际应 用中可以结合应用场景的不用具体设置, 以应用于外卖类应用程序为例, 每条内容对应一 个商户, 则评分标准可以包括: 商户的历史。

34、订单数、 商户的外卖评价、 商户的地理位置, 以及 商户所售商品的价格等。 可选地, 为了便于对r个内容的选择, 服务器生成这r个内容推荐分 值后, 可以根据推荐分值从高到低的顺序对这r个内容进行排序, 然后服务器可以选择推荐 分值排在前t位的内容作为目标内容, t为正整数。 可选地, 目标内容的数量也可以与r个内 容相同, 即可以将r个内容全部作为目标内容, 此时服务器在生成搜索结果的时候, 可以按 照r个内容的推荐分值从高到低对r个内容排序, 从而可以确保将推荐分值较高的内容最先 显示在客户端中。 0073 综上所述, 通过根据特征向量从多个聚类中心点中选择至少一个目标中心点, 然 后根据。

35、搜索关键词从上述目标中心点的聚类集合中选择相匹配的内容, 最后根据选择的内 容生成搜索结果, 扩展了一种搜索查询的方式, 并且本申请实施例中多个聚类中心点是从 内容集合中选取的多个内容, 实现了从内容集合的海量内容中, 预先选择一些具有代表性 的内容作为聚类中心点, 然后在这些聚类中心点及其所在的聚类集合的基础上进行后续的 搜索查询过程, 提升了系统的处理速度, 减少了搜索查询过程的耗时。 0074 另外, 本申请实施例提供的技术方案, 与搜索关键词相匹配的内容是基于倒排链 搜索获取的, 通过倒排链搜索获取可以加快搜索速度、 提升搜索效率。 0075 另外, 本申请实施例提供的技术方案中, 在。

36、根据多个内容生成搜索结果的过程中, 会生成这多个内容的推荐分值, 然后根据推荐分值从多个内容中选择目标内容作为搜索结 果, 实现了有效筛选多个内容, 将推荐分值较高的内容作为搜索结果, 使得搜索结果更加准 确。 0076 在一种可能的实施方式中, 请参考图4, 上述步骤201之前, 还包括如下几个步骤: 0077 步骤20A, 从内容集合中抽样选取y个内容, 内容集合中包括x个内容, x大于y, 且x 和y均为正整数。 0078 内容集合中包括x个内容, 实际应用中, x的取值可能很大, 如x的取值为2000万, 为 了减轻服务器的处理开销, 本申请实施例在进行聚类处理之前, 首先从内容集合中。

37、抽样选 取y个内容, 但若不考虑服务器的处理开销以及运算速度, 可以直接对内容集合中的x个内 容进行聚类处理, 本申请实施例对此不作限定。 0079 抽样选取出的内容数量y的取值既可以随机任意设置, 也可以根据内容集合中的 内容的数量和需要得到的聚类中心点的数量进行设置, 本申请实施例对此不作限定。 示例 性地, 若需要得到的聚类中心点的数量为z, 则y的计算公式如下所示: 0080 ymin(x, z256)。 0081 服务器从内容集合中抽样选取y个内容, 可选地, 为了加快抽样速度、 进一步减轻 服务器处理开销, 可以在HDFS(Hadoop Distributed File Syste。

38、m, 分布式文件系统)上, 采 取蓄水池抽样算法从内容集合中抽样选取y个内容, 且将抽样结果存放在HDFS上。 例如, 如 图5所示, 内容集合501中包括多条内容及其对应的内容特征向量, 然后在HDFS平台502上对 内容集合501进行蓄水池抽样, 以选取出y个内容。 0082 步骤20B, 对y个内容进行聚类处理, 得到z个聚类中心点。 说明书 6/12 页 9 CN 111582967 A 9 0083 为了将抽样选取出的y个内容进行分类或分组, 本申请实施例首先将y个内容进行 聚类处理得到z个聚类中心点, 然后基于这z个聚类中心点, 构建z个聚类集合。 可选地, 因为 每个内容均采用内。

39、容特征向量进行表示, 因此为了加快聚类速度、 进一步减轻服务器的处 理开销, 可以在GPU(Graphics Processing Unit, 图形处理器)上, 采取K-Means聚类算法 (k-means clustering algorithm, K均值聚类算法)对y个内容进行聚类处理, 得到z个聚类 中心点。 例如, 如图5所示, 在GPU平台503上对y个内容进行K-Means聚类, 得到z个聚类中心 点。 0084 聚类中心点的数量z的取值既可以随机任意设置, 也可以根据运行速度、 处理开销 等实际需求进行设置, 本申请实施例对此不作限定。 示例性地, 聚类中心点的数量z的计算 公式。

40、如下: 0085 0086 步骤20C, 对于内容集合中的第i个内容, 计算第i个内容的内容特征向量与各个聚 类中心点的内容特征向量之间的相似度, i为小于或等于x的正整数。 0087 得到z个聚类中心点后, 服务器即对内容集合中除聚类中心点外的每一条内容, 计 算该内容的内容特征向量分别与z个聚类中心点的内容特征向量之间的相似度, 即对于内 容特征向量中除聚类中心点外的每一条内容, 服务器需要计算z次相似度, 服务器总计需要 计算次相似度。 0088 步骤20D, 选择与第i个内容的内容特征向量之间的相似度最大的聚类中心点, 并 将第i个内容的标识添加至相似度最大的聚类中心点的聚类集合中。 。

41、0089 对于内容特征向量中除聚类中心点外的每一条内容, 服务器计算该内容的特征向 量分别与z个聚类中心点的内容特征向量之间的相似度之后, 根据这z个相似度结果, 选择 相似度最大的聚类中心点, 并将该内容的标识添加至选择出的相似度最大的聚类中心点的 聚类集合中, 其中, 每一条内容的标识可以为该内容的内容特征向量, 也可以为该内容的ID 标识等, 本申请实施例对此不作限定。 0090 可选地, z个聚类中心点对应的聚类集合存储在多个索引分片上, 其中, 索引分片 用于存储聚类集合, 索引分片的数量可以根据实际的需求和成本这两方面的因素决定。 例 如, 如图5所示, 索引分片504的数量为4个。

42、, 聚类集合的数量为z个, 这z个聚类集合可以通过 分布式索引构建服务存储在这4个索引分片504上。 本申请实施例中, z个集合既可以在每个 索引分片504上进行存储, 也可以分别存储在这4个索引分片504上, 如每个索引分片504上 存储个聚类集合, 当z个聚类集合分别存储在4个索引分片504上时, 每个索引分片504中存 储的聚类集合的数量既可以相同, 也可以不相同。 通过这种设置, 可以在多个索引分片上存 储聚类集合, 避免因为服务器故障搜索查询服务不能使用的情况, 且本申请实施例中聚类 集合可以分别存储在索引分片上, 可以减轻单个索引分片的存储压力, 降低单个索引分片 的处理开销。 0。

43、091 综上所述, 本申请实施例提供的技术方案, 通过从内容集合中抽样选取出一定数 量的内容, 然后对抽样选取出的内容进行聚类处理得到多个聚类中心点, 再计算内容集合 中的每一条内容与各个聚类中心点之间的相似度, 最后根据相似度将每一条内容都添加至 对应的聚类集合中, 实现了对内容集合中的每一条内容进行分组或分类, 得到多个聚类集 合。 并且, 本申请实施例提供的技术方案, 在进行聚类处理之前, 先从内容集合中抽样选取 说明书 7/12 页 10 CN 111582967 A 10 出一定数量的内容, 可以加快聚类处理速度, 降低处理开销。 另外, 本申请实施例的抽样过 程是在HDFS平台上采。

44、用蓄水池抽样算法进行的, 且聚类处理过程是在GPU上采用K-Means聚 类算法进行的, 可以进一步降低处理开销, 提升处理速度。 0092 请参考图6, 其示出了本申请一个实施例提供的内容搜索方法的流程图。 该方法可 以包括如下几个步骤(601605): 0093 步骤601, 获取目标用户帐号输入的搜索关键词。 0094 目标用户帐号是指目标应用程序的客户端中登录的用户帐号。 可选地, 目标应用 程序提供有内容搜索栏, 目标用户帐号对应的用户可以在该内容搜索栏中输入需要搜索的 内容, 搜索关键词是指从内容搜索栏中输入的搜索内容中提取的关键词, 本申请实施例对 搜索关键词的数量不作限定, 实。

45、际应用中可以综合内容准确性与服务器处理开销这两方面 的因素来确定搜索关键词的数量。 可选地, 为了加快服务器的处理速度, 搜索关键词可以与 目标用户帐号的输入内容相同。 0095 步骤602, 获取目标用户帐号的用户特征向量。 0096 用户特征向量用于指示用户帐号的特征信息, 特征信息是指用户帐号在目标应用 程序的客户端中注册所生成的信息, 以及使用目标应用程序的过程中生成的信息。 可选地, 用户特征向量包含一个或多个元素, 每个元素对应一个特征信息, 即用户帐号的特征信息 的数量与用户特征向量中元素的数量相同。 0097 步骤603, 根据用户特征向量, 从z个聚类中心点中选择n个目标中心。

46、点。 0098 本申请实施例中, z个聚类中心点是从内容集合中选取的z个内容, z为正整数, 其 中, 内容集合中包括至少一个内容, 本申请实施例中, 内容集合中包括x个内容, x为正整数。 可选地, 为了便于服务器的计算与表示, 每个个体对应有一个内容特征向量, 该内容特征向 量用于指示个体的特征信息。 可选地, 内容特征向量包含一个或多个元素, 每个元素对应一 个特征信息, 即个体的特征信息的数量与内容特征向量中元素的数量相同。 0099 目标中心点是指根据用户特征向量从z个聚类中心点中选择的n个聚类中心点, n 为小于或等于z的正整数。 示例性地, 本申请实施例使用量化器从z个聚类中心点。

47、中选择n个 目标中心点, 可选地, 量化器在从z个聚类中心点中选择n个目标中心点之前, 会预先加载z 个聚类中心点, 并根据该z个聚类中心点构建K-D树(K-Dimensional, K维树), 然后根据查询 向量从K-D树中选择与查询向量相匹配的n个聚类中心点, 其中, 查询向量是指用户特征向 量。 0100 步骤604, 从n个目标中心点的聚类集合中, 搜索获取与搜索关键词相匹配的r个内 容。 0101 每个聚类中心点(目标中心点)均对应有一个聚类集合, 该聚类集合中包括至少一 个内容, 即聚类集合中除了包括聚类中心点(目标中心点)之外, 还可以包括其它的内容。 服 务器选择出n个目标中心。

48、点后, 即在这n个目标中心点的聚类集合中, 搜索与目标用户帐号 输入的搜索关键词相匹配的r个内容, r为正整数。 本申请实施例中, 与搜索关键词相匹配既 可以是指某条内容的内容特征向量所表示的含义包括搜索关键词, 也可以是指某条内容的 内容特征向量所表示的含义与搜索关键词所表达的含义相似。 0102 本申请实施例使用量化器搜索获取与关键词相匹配的r个内容, 量化器在搜索获 取r个内容之前, 预先加载n个目标中心点的聚类集合, 然后根据搜索关键词从n个聚类集合 说明书 8/12 页 11 CN 111582967 A 11 中搜索获取与关键词相匹配的r个内容, 其中, 查询向量是搜索关键词。 0。

49、103 步骤605, 根据r个内容生成搜索结果。 0104 服务器搜索获取r个内容后, 即根据该r个内容生成搜索结果。 可选地, 搜索结果既 可以是r个内容, 也可以是从r个内容中选取出的部分内容, 本申请实施例对此不作限定。 可 选地, 服务器获取r个内容后, 可以对该r个内容进行一定的处理, 以生成搜索结果, 如进行 打分排序处理等。 0105 需要说明的一点是, 基于图2可选实施例的举例说明和扩展实施例, 可以得到此处 图6可选实施例的举例说明和扩展实施例, 详细介绍参见图2可选实施例, 此处不再赘述。 0106 综上所述, 通过根据目标用户帐号的用户特征向量从多个聚类中心点中选择至少 。

50、一个目标中心点, 然后根据目标用户帐号输入的搜索关键词从上述目标中心点的聚类集合 中选择相匹配的内容, 最后根据选择的内容生成搜索结果, 扩展了一种搜索查询的方式, 并 且本申请实施例中多个聚类中心点是从内容集合中选取的多个内容, 实现了从内容集合的 海量内容中, 预先选择一些具有代表性的内容作为聚类中心点, 然后在这些聚类中心点及 其所在的聚类集合的基础上进行后续的搜索查询过程, 提升了系统的处理速度, 减少了搜 索查询过程的耗时。 0107 另外, 本申请实施例提供的技术方案, 与搜索关键词相匹配的内容是基于倒排链 搜索获取的, 通过倒排链搜索获取可以加快搜索速度、 提升搜索效率。 010。

展开阅读全文
内容关键字: 内容 搜索 方法 装置 设备 存储 介质
关于本文
本文标题:内容搜索方法、装置、设备及存储介质.pdf
链接地址:https://www.zhuanlichaxun.net/pdf/11200773.html
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1