搜索系统的评估方法、装置、电子设备及可读存储介质.pdf

上传人:宁*** 文档编号:14199273 上传时间:2023-08-26 格式:PDF 页数:20 大小:608.75KB
收藏 版权申诉 举报 下载
搜索系统的评估方法、装置、电子设备及可读存储介质.pdf_第1页
第1页 / 共20页
搜索系统的评估方法、装置、电子设备及可读存储介质.pdf_第2页
第2页 / 共20页
搜索系统的评估方法、装置、电子设备及可读存储介质.pdf_第3页
第3页 / 共20页
文档描述:

《搜索系统的评估方法、装置、电子设备及可读存储介质.pdf》由会员分享,可在线阅读,更多相关《搜索系统的评估方法、装置、电子设备及可读存储介质.pdf(20页完成版)》请在专利查询网上搜索。

1、(19)国家知识产权局(12)发明专利申请(10)申请公布号 (43)申请公布日 (21)申请号 202310030602.0(22)申请日 2023.01.09(71)申请人 竹间智能科技(上海)有限公司地址 200030 上海市徐汇区宜山路700号B2幢楼18层整层(72)发明人 简仁贤卢露吴文杰(74)专利代理机构 北京润泽恒知识产权代理有限公司 11319专利代理师 苏培华(51)Int.Cl.G06F 16/953(2019.01)(54)发明名称搜索系统的评估方法、装置、电子设备及可读存储介质(57)摘要本发明实施例提供了一种搜索系统的评估方法、装置、电子设备及可读存储介质,方法通。

2、过获取第一搜索词以及第二搜索词;第一搜索词具有标准结果对象;基于第一搜索词以及第一搜索词的标准结果对象构建第一参照集,以及,基于第二搜索词、基于第二搜索词召回的M个备选结果对象和备选结果对象的相关性分值,构建第二参照集;M为不小于2的整数,相关性分值用于表征备选结果对象与第二搜索词的相关性;基于第一参照集和第二参照集,确定搜索系统的搜索质量参数,以对搜索系统进行评估。这样,基于参照集实现自动评估,在一定程度上节省人力。且由于无需获取所有搜索词的相关性分值,可以进一步减少搜索系统评估的工作量,确保搜索系统评估的效率。权利要求书2页 说明书14页 附图3页CN 116049528 A2023.05。

3、.02CN 116049528 A1.一种搜索系统的评估方法,其特征在于,所述方法包括:获取第一搜索词,以及获取第二搜索词;所述第一搜索词具有标准结果对象;基于所述第一搜索词以及所述第一搜索词的标准结果对象构建第一参照集,以及,基于所述第二搜索词、基于所述第二搜索词召回的M个备选结果对象和所述备选结果对象的相关性分值,构建第二参照集;所述M为不小于2的整数,所述相关性分值用于表征所述备选结果对象与所述第二搜索词的相关性;基于所述第一参照集和所述第二参照集,确定搜索系统的搜索质量参数,以对所述搜索系统进行评估。2.根据权利要求1所述方法,其特征在于,所述方法还包括:对于任一所述第二搜索词,基于指。

4、定的相关性评估维度,确定所述第二搜索词的备选结果对象与所述第二搜索词在所述相关性评估维度下对应的评估分值;所述相关性评估维度包括结果对象与搜索词的相关度以及辅助评估维度,所述辅助评估维度包括结果对象的来源可靠度、发布有效度、结果对象的内容与搜索词的匹配度以及匹配操作的便捷度中的至少一种;根据所述相关性评估维度下对应的评估分值,确定所述备选结果对象的相关性分值。3.根据权利要求2所述方法,其特征在于,所述基于指定的相关性评估维度,确定所述第二搜索词的备选结果对象与所述第二搜索词在所述相关性评估维度下对应的评估分值,包括:对于任一所述备选结果对象,获取所述备选结果对象与所述第二搜索词的相关度分值;。

5、获取所述备选结果对象的提供方,并基于所述提供方确定所述备选结果对象的来源可靠度分值;获取所述备选结果对象的发布时间,基于所述发布时间与当前时间的时间差,确定所述备选结果对象的发布有效度分值;基于所述备选结果对象中的指定内容与所述第二搜索词的编辑距离和覆盖比例,确定所述备选结果对象与所述第二搜索词的匹配度分值;基于所述备选结果对象中各个部分的内容与所述第二搜索词的关联性,确定对所述备选结果对象与所述第二搜索词进行匹配操作的便捷度分值。4.根据权利要求2所述方法,其特征在于,所述方法还包括:对所述搜索系统进行优化;所述基于所述第一参照集和所述第二参照集,确定搜索系统的搜索质量参数之前,所述方法还包。

6、括:获取优化后的所述搜索系统为所述第二搜索词召回的N个参照结果对象;所述N不大于所述M;在所述N个参照结果对象中存在目标结果对象的情况下,确定所述目标结果对象的相关性得分,并将所述目标结果对象以及所述目标结果对象的相关性得分添加至所述第二参照集中;所述目标结果对象为不属于所述M个备选结果对象的结果对象。5.根据权利要求4所述方法,其特征在于,所述根据所述相关性评估维度下对应的评估分值,确定所述备选结果对象的相关性分值之后,所述方法还包括:将所述第二搜索词、所述备选结果对象以及所述备选结果对象的相关性分值作为训练权利要求书1/2 页2CN 116049528 A2数据,对待训练的相关性分值确定模。

7、型进行训练,得到目标相关性分值确定模型;所述确定所述目标结果对象的相关性得分,包括:将所述目标结果对象以及所述第二搜索词作为所述目标相关性分值确定模型的输入,将所述目标相关性分值确定模型的输出确定为所述目标结果对象的相关性得分。6.根据权利要求1所述方法,其特征在于,所述获取第一搜索词,包括:针对预设的搜索词类型,从所述搜索系统的搜索日志中获取历史搜索词,作为备选搜索词;获取为所述备选搜索词召回的搜索结果中的结果对象;基于所述搜索结果中的结果对象,确定所述备选搜索词是否存在标准结果对象;在存在的情况下,将所述备选搜索词确定为所述第一搜索词。7.根据权利要求1所述方法,其特征在于,所述基于所述第。

8、一参照集和所述第二参照集,确定搜索系统的搜索质量参数,包括:分别获取所述搜索系统为所述第一参照集中第一搜索词召回的第一结果对象以及为所述第二参照集中第二搜索词召回的第二结果对象;根据所述第一结果对象以及所述第一参照集中的标准结果对象,为所述搜索系统生成第一搜索质量参数;根据所述第二结果对象以及所述第二参照集中的备选结果对象以及备选结果对象的相关性分值,为所述搜索系统生成第二搜索质量参数;基于所述第一搜索质量参数以及所述第二搜索质量参数,确定所述搜索质量参数。8.一种搜索系统的评估装置,其特征在于,所述装置包括:第一获取模块,用于获取第一搜索词,以及获取第二搜索词;所述第一搜索词具有标准结果对象。

9、;构建模块,用于基于所述第一搜索词以及所述第一搜索词的标准结果对象构建第一参照集,以及,基于所述第二搜索词、基于所述第二搜索词召回的M个备选结果对象和所述备选结果对象的相关性分值,构建第二参照集;所述M为不小于2的整数,所述相关性分值用于表征所述备选结果对象与所述第二搜索词的相关性;第一确定模块,用于基于所述第一参照集和所述第二参照集,确定搜索系统的搜索质量参数,以对所述搜索系统进行评估。9.一种电子设备,其特征在于,包括:处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求17中一个或多个所述的搜索系统的评估方法。10.一。

10、种可读存储介质,其特征在于,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行权利要求17中一个或多个所述的搜索系统的评估方法。权利要求书2/2 页3CN 116049528 A3搜索系统的评估方法、装置、电子设备及可读存储介质技术领域0001本发明属于网络技术领域,特别是涉及一种搜索系统的评估方法、装置、电子设备及可读存储介质。背景技术0002随着网络技术的不断发展,各种搜索平台、搜索系统也越来越多,对搜索系统的搜索质量的要求也越来越高,因此需要及时监控搜索系统的搜索质量,以及时进行改进。0003现有技术中,对搜索系统的评估通常是人工根据搜索系统召回的搜索结果判断搜索结果与。

11、搜索词的相关性,进而对搜索系统进行评估。但是,这种方式需要耗费极大的人力,因此评估效率较差。发明内容0004本发明提供一种搜索系统的评估方法、装置、电子设备及可读存储介质,以便解决现有技术中的问题。0005为了解决上述技术问题,本发明是这样实现的:0006第一方面,本发明提供一种搜索系统的评估方法,所述方法包括:0007获取第一搜索词,以及获取第二搜索词;所述第一搜索词具有标准结果对象;0008基于所述第一搜索词以及所述第一搜索词的标准结果对象构建第一参照集,以及,基于所述第二搜索词、基于所述第二搜索词召回的M个备选结果对象和所述备选结果对象的相关性分值,构建第二参照集;所述M为不小于2的整数。

12、,所述相关性分值用于表征所述备选结果对象与所述第二搜索词的相关性;0009基于所述第一参照集和所述第二参照集,确定搜索系统的搜索质量参数,以对所述搜索系统进行评估。0010第二方面,本发明提供一种搜索系统的评估装置,所述装置包括:0011第一获取模块,用于获取第一搜索词,以及获取第二搜索词;所述第一搜索词具有标准结果对象;0012构建模块,用于基于所述第一搜索词以及所述第一搜索词的标准结果对象构建第一参照集,以及,基于所述第二搜索词、基于所述第二搜索词召回的M个备选结果对象和所述备选结果对象的相关性分值,构建第二参照集;所述M为不小于2的整数,所述相关性分值用于表征所述备选结果对象与所述第二搜。

13、索词的相关性;0013第一确定模块,用于基于所述第一参照集和所述第二参照集,确定搜索系统的搜索质量参数,以对所述搜索系统进行评估。0014第三方面,本发明提供一种电子设备,包括:处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现上述搜索系统的评估方法。0015第四方面,本发明提供一种可读存储介质,当所述存储介质中的指令由电子设备说明书1/14 页4CN 116049528 A4的处理器执行时,使得电子设备能够执行上述搜索系统的评估方法。0016在本发明实施例中,通过获取第一搜索词,以及获取第二搜索词;所述第一搜索词具有标准结果对象;。

14、基于所述第一搜索词以及所述第一搜索词的标准结果对象构建第一参照集,以及,基于所述第二搜索词、基于所述第二搜索词召回的M个备选结果对象和所述备选结果对象的相关性分值,构建第二参照集;所述M为不小于2的整数,所述相关性分值用于表征所述备选结果对象与所述第二搜索词的相关性;基于所述第一参照集和所述第二参照集,确定搜索系统的搜索质量参数,以对所述搜索系统进行评估。这样,采用有标准结果对象和无标准结果对象的两种搜索词构建参数评估时的参照集,基于参照集实现自动评估,进而一定程度上可以节省人力,提高评估效率。且由于仅需获取无标准结果对象的相关性分值,无需获取所有搜索词的相关性分值,因此,可以进一步减少搜索系。

15、统评估的工作量,从而进一步确保搜索系统评估的效率。附图说明0017为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。0018图1是本发明实施例提供的一种搜索系统的评估方法的步骤流程图;0019图2是本发明实施例提供的一种搜索系统的评估具体示例的流程图;0020图3是本发明实施例提供的一种搜索系统的评估装置的结构图;0021图4是本发明实施例提供的一种电子设备的结构图。具体实施方式0022下面将。

16、结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。0023图1是本发明实施例提供的一种搜索系统的评估方法的步骤流程图,如图1所示,该方法可以包括:0024步骤101、获取第一搜索词,以及获取第二搜索词;所述第一搜索词具有标准结果对象。0025其中,搜索词也可以称为搜索语句(query),用户可以在搜索平台或搜索系统中,通过输入不同的搜索词来查找目标对象。上述第一搜索词指的是具有标准结果对象的搜索词。

17、,也就是具有明确的查找对象的搜索词,例如,当用户在搜索平台中输入搜索词为“A集团2022年度交易总额”时,由于该搜索词的搜索意图的范围很明确,可以认为该搜索词具有标准结果对象。相应地,上述第二搜索词指的是不具有标准结果对象的搜索词。0026可选的,上述第一搜索词和第二搜索词可以从搜索系统的历史搜索词中获取,也可以通过接收用户的输入来获取。其中,上述搜索系统的历史搜索词指的是搜索系统的搜索日志中所包含的历史搜索词,该搜索系统可以为通用搜索系统,也可以为垂直领域搜索说明书2/14 页5CN 116049528 A5系统。0027具体的,当从历史搜索词中获取时,上述获取第一搜索词、第二搜索词的操作,。

18、可以是调取搜索系统的搜索日志,从全部的历史搜索词中随机抽取一批预设数量的搜索词集合,并通过判定各搜索词的搜索意图范围,将上述搜索词集合分为第一搜索词集合和第二搜索词集合,上述预设数量可以根据需求自行设定。其中,上述判定各搜索词的搜索意图范围可以通过接收用户的输入来进行,或者,也可以通过意图识别模型(例如传统机器学习算法SVM、基于深度学习算法LSTM等)来进行,本发明实施例对此不作限制。0028步骤102、基于所述第一搜索词以及所述第一搜索词的标准结果对象构建第一参照集,以及,基于所述第二搜索词、基于所述第二搜索词召回的M个备选结果对象和所述备选结果对象的相关性分值,构建第二参照集;所述M为不。

19、小于2的整数,所述相关性分值用于表征所述备选结果对象与所述第二搜索词的相关性。0029其中,上述第一搜索词的标准结果对象指的是通过在搜索系统输入上述第一搜索词,所召回的明确目标文档,以第一搜索词为上述“A集团2022年度交易总额”为例,所召回的 A集团2022年度交易总额 文档即为标准结果对象。其中,上述第二搜索词召回的M个备选结果对象指的是通过在搜索系统输入上述第二搜索词,所召回的前M个目标文档,由于第二搜索词所召回的目标文档数量通常不小于2,因此上述M的值可以根据所召回的文档数量自行确定,通常情况下,可以使M为10,当所召回的文档数量小于10时,可以将实际召回的文档数量作为M的值。0030。

20、其中,上述第一参照集中包括了上述第一搜索词以及各第一搜索词所对应的明确目标文档,相应地,上述第二参照集中包括了上述第二搜索词以及各第二搜索词所对应的前M个备选结果对象,此外,在构建第二参照集时,还可以获取各第二搜索词与所对应的前M个备选结果对象的相关性分值,相关性分值用于表征各第二搜索词与所对应的各备选结果对象之间的相关性或者相关程度,相关程度可以与相关性分值呈正比,例如,可以采用5分制,0表示不相关,14表示相关,且4表示的相关程度最高。0031具体的,上述获取相关性分值的操作可以通过接收用户的输入来获取,也可以通过相关性判定模型来获取,本发明实施例对此不作限制。0032步骤103、基于所述。

21、第一参照集和所述第二参照集,确定搜索系统的搜索质量参数,以对所述搜索系统进行评估。0033其中,上述搜索质量参数用于表征该搜索系统的搜索质量,对于上述第一参照集来说,搜索系统的搜索质量指的是基于上述第一搜索词所对应的标准结果对象是否被召回且排在第一位,对于上述第二参照集来说,搜索系统的搜索质量指的是该搜索系统基于上述第二搜索词所召回的结果对象是否按照相关性由高到低进行排序,即,相关性最高的备选结果对象是否排在第一位。0034具体的,上述确定搜索质量参数的操作可以通过预设的评估方法进行确定,例如,PN、DCGN、NDCGN方法等,其中,P指的是精度(Precision),DCG指的是累积收益(D。

22、iscounted Cumulative Gain),NDCG指的是标准化累积收益(Normalized Discounted Cumulative Gain),N指的是结果对象的数量。0035综上所述,本发明实施例提供的搜索系统的评估方法,通过获取第一搜索词以及第二搜索词;所述第一搜索词具有标准结果对象;基于所述第一搜索词以及所述第一搜索说明书3/14 页6CN 116049528 A6词的标准结果对象构建第一参照集,以及,基于所述第二搜索词、基于所述第二搜索词召回的M个备选结果对象和所述备选结果对象的相关性分值,构建第二参照集;所述M为不小于2的整数,所述相关性分值用于表征所述备选结果对象。

23、与所述第二搜索词的相关性;基于所述第一参照集和所述第二参照集,确定搜索系统的搜索质量参数,以对所述搜索系统进行评估。这样,采用有标准结果对象和无标准结果对象的两种搜索词构建参数评估时的参照集,基于参照集实现自动评估,进而一定程度上可以节省人力,提高评估效率。且由于仅需获取无标准结果对象的相关性分值,无需获取所有搜索词的相关性分值,因此,可以进一步减少搜索系统评估的工作量,从而进一步确保搜索系统评估的效率。0036可选的,本发明实施例中还可以包括下述步骤:0037步骤S21、对于任一所述第二搜索词,基于指定的相关性评估维度,确定所述第二搜索词的备选结果对象与所述第二搜索词在所述相关性评估维度下对。

24、应的评估分值;所述相关性评估维度包括结果对象与搜索词的相关度以及辅助评估维度,所述辅助评估维度包括结果对象的来源可靠度、发布有效度、结果对象的内容与搜索词的匹配度以及匹配操作的便捷度中的至少一种。0038其中,上述指定的相关性评估维度可以为预先设置的参考维度,可以作为参考以确定上述第二搜索词与各备选结果对象的相关性分值,可以包括相关度以及辅助评估维度。0039其中,上述相关度也可以理解为需求度,用以表征搜索词与备选结果对象的主题是否相关以及具体的相关程度,例如,可以采用10分制,0表示不相关,19表示相关,且9表示的相关程度最高。具体的,可以将搜索词与对应的结果对象显示给用户,并接收用户的输入。

25、信息,从而基于上述输入信息确定上述相关度,也可以是基于相似度算法,计算备选结果对象的主题与搜索词的相似度,基于相似度的具体数值确定上述相关度,其中,相似度与相关度呈正比。0040其中,上述辅助评估维度还包括了结果对象的来源可靠度、发布有效度、结果对象的内容与搜索词的匹配度以及匹配操作的便捷度中的至少一种。上述来源可靠度用以表征备选结果对象的来源是否权威,例如,当备选结果对象的发布方为专业网站类时,可以认为该备选结果对象的可靠度最高,当备选结果对象的发布方为普通用户类时,可以认为该备选结果对象的可靠度较低。具体的,可以通过获取备选结果对象的发布方,并判断该发布方的类别,根据预设的发布方类别与来源。

26、可靠度对应关系,查找上述来源可靠度。0041上述发布有效度也可以理解为备选结果对象的时效度,即,备选结果对象的发布时间与当前时间的接近程度,发布时间与当前时间越相近,则上述发布有效度最高。具体的,可以通过获取备选结果对象的发布时间,在发布时间与当前时间差值不超过6个月时,可以确定上述发布有效度最高,在发布时间与当前时间差值超过6个月不超过12个月时,可以确定上述发布有效度中等,当发布时间与当前时间差值超过12个月时,可以确定上述发布有效度最差。0042上述结果对象的内容与搜索词的匹配度也可以称为匹配特征,可以分为匹配比例和编辑距离两部分进行判断。0043其中,匹配比例可以包括搜索词在备选结果对。

27、象的标题中的占比,例如,当搜索词为“A市旅游指南”,备选结果对象的标题为“A市博物馆旅游指南”,则上述匹配比例为67。说明书4/14 页7CN 116049528 A7上述匹配比例还可以包括备选结果对象的标题中最长连续匹配词与搜索词的比例,以上述搜索词为“A市旅游指南”,备选结果对象的标题为“A市博物馆旅游指南”为例,其中,备选结果对象的标题中最长连续匹配词为“旅游指南”,则上述匹配比例为67。可选的,当备选结果对象的标题中不包括搜索词时,可以进一步判断备选结果对象的摘要部分或正文部分与搜索词的比例,具体确定方法与上述确定标题与搜索词的比例的方法类似,此处不再赘述。0044其中,上述编辑距离指。

28、的是备选结果对象的标题与搜索词的编辑距离,可以理解为修改程度,示例的,以上述搜索词为“A市旅游指南”,备选结果对象的标题为“A市博物馆旅游指南”为例,若使标题与搜索词完全匹配,则需要删除标题中的“博物馆”三个字,则上述编辑距离即为3个字。其中,编辑操作还可以包括插入、替换。可以理解的,上述编辑距离越小,则匹配程度越高。具体的,可以通过预设的编辑距离算法(例如,Levenshtein Distance算法)来确定上述编辑距离。进一步的,在得到上述编辑距离后,可以对其进行归一化处理,以与上述匹配比例相结合得到最终的匹配度。0045上述匹配操作的便捷度指的是判断相关性的便捷程度,具体的,可以将上述备。

29、选结果对象分为标题、关键字前后两行以及全文三个部分。当通过备选结果对象的标题即可确定相关程度时,可以认为便捷度最高,当通过标题无法确定,可以进一步通过备选结果对象中关键字的前后两行去判断,此时便捷度中等,当通过标题以及关键字前后两行均无法确定时,可以通过备选结果对象的全文进行确定,此时便捷度最差。0046步骤S22、根据所述相关性评估维度下对应的评估分值,确定所述备选结果对象的相关性分值。0047其中,上述各相关性评估维度下对应的评估分值与最终的相关性分值均呈正比。0048具体的,基于步骤S21得到相关度后,可以根据相关度的具体分值进一步确定辅助评估维度的分值。例如,以上述相关度分值为10分制。

30、为例,当得到相关度的评估分值为59时,可以进一步获取结果对象的内容与搜索词的匹配度以及匹配操作的便捷度。当得到相关度的评估分值小于5时,可以进一步获取结果对象的来源可靠度和发布有效度。也就是说,可以根据相关度评估分值的具体范围,确定需要选择的辅助评估维度,在相关度足够高时,可以无需对所有的辅助评估维度都进行判断。0049具体的,在得到上述相关性评估维度下对应的评估分值后,可以根据预设加权系数得到备选对象最终的相关性分值,或者,也可以将上述相关性评估维度下对应的评估分值输出并显示,以接收用户的输入,得到备选对象最终的相关性分值。0050本发明实施例中,通过对于任一所述第二搜索词,基于指定的相关性。

31、评估维度,确定所述第二搜索词的备选结果对象与所述第二搜索词在所述相关性评估维度下对应的评估分值;所述相关性评估维度包括结果对象与搜索词的相关度以及辅助评估维度,所述辅助评估维度包括结果对象的来源可靠度、发布有效度、结果对象的内容与搜索词的匹配度以及匹配操作的便捷度中的至少一种;根据所述相关性评估维度下对应的评估分值,确定所述备选结果对象的相关性分值。这样,通过设置相关性评估维度,可以为确定备选结果对象的相关性分值提供参考,降低了确定相关性分值的主观性,提高了确定相关性分值的准确率。0051可选的,上述基于指定的相关性评估维度,确定所述第二搜索词的备选结果对象与所述第二搜索词在所述相关性评估维度。

32、下对应的评估分值的操作,本发明实施例具体可说明书5/14 页8CN 116049528 A8以包括下述步骤:0052步骤S31、对于任一所述备选结果对象,获取所述备选结果对象与所述第二搜索词的相关度分值。0053其中,上述相关度也可以理解为需求度,用以表征搜索词与备选结果对象的主题是否相关以及具体的相关程度,例如,可以采用10分制,0表示不相关,19表示相关,且9表示的相关程度最高。具体的,可以将搜索词与对应的结果对象显示给用户,并接收用户的输入信息,从而基于上述输入信息确定上述相关度,也可以是基于相似度算法,计算备选结果对象的主题与搜索词的相似度,基于相似度的具体数值确定上述相关度,其中,相。

33、似度与相关度呈正比。0054步骤S32、获取所述备选结果对象的提供方,并基于所述提供方确定所述备选结果对象的来源可靠度分值。0055其中,上述来源可靠度用以表征备选结果对象的来源是否权威,例如,当备选结果对象的发布方为专业网站类时,可以认为该备选结果对象的可靠度最高,当备选结果对象的发布方为普通用户类时,可以认为该备选结果对象的可靠度较低。具体的,可以通过获取备选结果对象的发布方,并判断该发布方的类别,根据预设的发布方类别与来源可靠度对应关系,查找上述来源可靠度。0056步骤S33、获取所述备选结果对象的发布时间,基于所述发布时间与当前时间的时间差,确定所述备选结果对象的发布有效度分值。005。

34、7上述发布有效度也可以理解为备选结果对象的时效度,即,备选结果对象的发布时间与当前时间的接近程度,发布时间与当前时间越相近,则上述发布有效度最高。具体的,可以通过获取备选结果对象的发布时间,在发布时间与当前时间差值不超过6个月时,可以确定上述发布有效度最高,在发布时间与当前时间差值超过6个月不超过12个月时,可以确定上述发布有效度中等,当发布时间与当前时间差值超过12个月时,可以确定上述发布有效度最差。0058步骤S34、基于所述备选结果对象中的指定内容与所述第二搜索词的编辑距离和覆盖比例,确定所述备选结果对象与所述第二搜索词的匹配度分值。0059其中,上述覆盖比例可以包括搜索词在备选结果对象。

35、的标题中的占比,例如,当搜索词为“A市旅游指南”,备选结果对象的标题为“A市博物馆旅游指南”,则上述匹配比例为67。上述覆盖比例还可以包括备选结果对象的标题中最长连续匹配词与搜索词的比例,以上述搜索词为“A市旅游指南”,备选结果对象的标题为“A市博物馆旅游指南”为例,其中,备选结果对象的标题中最长连续匹配词为“旅游指南”,则上述匹配比例为67。可选的,当备选结果对象的标题中不包括搜索词时,可以进一步判断备选结果对象的摘要部分或正文部分与搜索词的比例,具体确定方法与上述确定标题与搜索词的比例的方法类似,此处不再赘述。0060其中,上述编辑距离指的是备选结果对象的标题与搜索词的编辑距离,可以理解为。

36、修改程度,示例的,以上述搜索词为“A市旅游指南”,备选结果对象的标题为“A市博物馆旅游指南”为例,若使标题与搜索词完全匹配,则需要删除标题中的“博物馆”三个字,则上述编辑距离即为3个字。其中,编辑操作还可以包括插入、替换。可以理解的,上述编辑距离越小,则匹配程度越高。具体的,可以通过预设的编辑距离算法(例如,Levenshtein 说明书6/14 页9CN 116049528 A9Distance算法)来确定上述编辑距离。进一步的,在得到上述编辑距离后,可以对其进行归一化处理,以与上述匹配比例相结合得到最终的匹配度。0061步骤S35、基于所述备选结果对象中各个部分的内容与所述第二搜索词的关联。

37、性,确定对所述备选结果对象与所述第二搜索词进行匹配操作的便捷度分值。0062上述匹配操作的便捷度指的是判断相关性的便捷程度,具体的,可以将上述备选结果对象分为标题、关键字前后两行以及全文三个部分。当通过备选结果对象的标题即可确定相关程度时,可以认为便捷度最高,当通过标题无法确定,可以进一步通过备选结果对象中关键字的前后两行去判断,此时便捷度中等,当通过标题以及关键字前后两行均无法确定时,可以通过备选结果对象的全文进行确定,此时便捷度最差。0063本发明实施例中,通过对于任一所述备选结果对象,获取所述备选结果对象与所述第二搜索的相关度分值;获取所述备选结果对象的提供方,并基于所述提供方确定所述备。

38、选结果对象的来源可靠度分值;获取所述备选结果对象的发布时间,基于所述发布时间与当前时间的时间差,确定所述备选结果对象的发布有效度分值;基于所述备选结果对象中的指定内容与所述第二搜索词的编辑距离和覆盖比例,确定所述备选结果对象与所述第二搜索词的匹配度分值;基于所述备选结果对象中各个部分的内容与所述第二搜索词的关联性,确定对所述备选结果对象与所述第二搜索词进行匹配操作的便捷度分值。这样,可以为确定相关性评估维度下对应的评估分值提供参考,进一步降低确定相关性分值的主观性,提高确定相关性分值的准确率。0064可选的,本发明实施例具体还可以包括对所述搜索系统进行优化;上述基于所述第一参照集和所述第二参照。

39、集,确定搜索系统的搜索质量参数的操作之前,本发明实施例还可以包括:0065步骤S41、获取优化后的所述搜索系统为所述第二搜索词召回的N个参照结果对象;所述N不大于所述M。0066其中,上述对搜索系统进行优化指的是当搜索系统的搜索质量不满足要求时,对搜索系统进行的改进,也可以是对搜索系统的日常维护或更新。具体的,上述优化操作可以是对搜索系统所使用的数据库的更新,也可以是对所使用的搜索算法的更新等等。0067步骤S42、在所述N个参照结果对象中存在目标结果对象的情况下,确定所述目标结果对象的相关性得分,并将所述目标结果对象以及所述目标结果对象的相关性得分添加至所述第二参照集中;所述目标结果对象为不。

40、属于所述M个备选结果对象的结果对象。0068具体的,在对搜索系统进行优化后,可以基于优化后的搜索系统获取上述各第二搜索词的召回对象,并选取其中的前N个召回对象,判断这N个召回对象是否都包含在上述第二参照集中。其中,上述目标结果对象指的是不包含在上述第二参照集中的召回对象,也就是不属于上述M个备选结果对象的召回对象。0069在上述N个召回对象均属于上述M个备选结果对象时,表明第二参照集中包含的具有相关性得分的备选结果对象已经涵盖了与第二搜索词具有相关性的所有对象,此时无需对第二参照集进行更新。在上述N个召回对象中存在不属于上述M个备选结果对象的召回对象时,表明第二参照集中所包含的备选结果对象还未。

41、涵盖与第二搜索词具有相关性的所有对象,此时需要针对上述目标结果对象,确定其与第二搜索词的相关性得分,并将该目标结果对象与相关性得分添加至上述第二参照集中,完成对第二参照集的迭代。其中,上述确定说明书7/14 页10CN 116049528 A10目标结果对象的相关性得分的操作可以参照上述步骤S21S22。0070本发明实施例中,通过对所述搜索系统进行优化;获取优化后的所述搜索系统为所述第二搜索词召回的N个参照结果对象;所述N不大于所述M;在所述N个参照结果对象中存在目标结果对象的情况下,确定所述目标结果对象的相关性得分,并将所述目标结果对象以及所述目标结果对象的相关性得分添加至所述第二参照集中。

42、;所述目标结果对象为不属于所述M个备选结果对象的结果对象。这样,可以在搜索系统的运营过程中,对第二参照集进行不断迭代,无需基于搜索系统的更新而重新生成第二参照集,从而可以实现第二参照集的可复用,降低搜索系统的评估成本。0071可选的,上述根据所述相关性评估维度下对应的评估分值,确定所述备选结果对象的相关性分值的操作之后,本发明实施例还可以包括下述步骤:0072步骤S51、将所述第二搜索词、所述备选结果对象以及所述备选结果对象的相关性分值作为训练数据,对待训练的相关性分值确定模型进行训练,得到目标相关性分值确定模型。0073其中,上述待训练的相关性分值确定模型是用于对备选结果对象进行自动打分评估。

43、的模型,可以为机器学习模型(例如,相关分析、回归分析等模型)。0074具体的,可以将上述第二参照集作为训练样本,对上述待训练的相关性分值确定模型进行训练,具体的,可以将第二搜索词与对应的备选结果对象作为该模型的输入值,基于该模型的输出分值与上述备选结果对象的相关性分值计算损失值,基于该损失值对该模型进行优化,如此反复直至该模型收敛,即可将训练后的模型作为目标相关性分值确定模型。0075上述确定所述目标结果对象的相关性得分的操作,具体可以包括:0076步骤S52、将所述目标结果对象以及所述第二搜索词作为所述目标相关性分值确定模型的输入,将所述目标相关性分值确定模型的输出确定为所述目标结果对象的相。

44、关性得分。0077其中,在基于上述第二参照集对模型进行训练,得到上述目标相关性分值确定模型后,上述步骤S42中确定目标结果对象的相关性得分的操作可以基于该模型进行,可以将目标结果对象以及上述第二搜索词输入至该模型,并通过读取该模型的输出即可得到上述目标结果对象的相关性得分,无需再判断目标结果对象的相关度以及辅助评估维度下的得分。0078进一步地,在训练得到上述目标相关性分值确定模型后,后续需要再次对搜索系统评估时,针对再次获取的第二搜索词以及基于第二搜索词召回的M个备选结果对象,可以使用该模型确定备选结果对象的相关性分值。0079可选的,基于上述目标相关性分值确定模型得到目标结果对象的相关性得。

45、分后,还可以基于上述目标结果对象的相关度以及辅助评估维度下的得分对该模型输出的分值进行校订,以进一步提高相关性分值的准确率。0080可选的,上述相关性分值确定模型的模型系数是基于所述相关性评估维度设置的,进而还可以基于上述目标相关性分值确定模型,通过挖掘算法获取最佳模型系数,以进一步提高相关性分值的准确率。0081本发明实施例中,通过将所述第二搜索词、所述备选结果对象以及所述备选结果说明书8/14 页11CN 116049528 A11对象的相关性分值作为训练数据,对待训练的相关性分值确定模型进行训练,得到目标相关性分值确定模型;所述确定所述目标结果对象的相关性得分,包括:将所述目标结果对象以。

46、及所述第二搜索词作为所述目标相关性分值确定模型的输入,将所述目标相关性分值确定模型的输出确定为所述目标结果对象的相关性得分。这样,可以基于所构建的第二参照集对相关性分值确定模型进行训练,进而可以基于该模型直接得到相关性分值,可以进一步减少确定相关性分值的时间,提高搜索系统评估的效率。0082可选的,上述所述获取第一搜索词的操作,本发明实施例具体可以包括:0083步骤S61、针对预设的搜索词类型,从所述搜索系统的搜索日志中获取历史搜索词,作为备选搜索词。0084其中,上述预设的搜索词类型可以基于需求自行设置,例如,当搜索系统属于垂直领域时,可以将该搜索系统所属的领域类型作为上述预设的搜索词类型,。

47、当搜索系统属于通用领域时,可以选取搜索频率较高的多个领域作为上述预设的搜索词类型。0085具体的,可以调取搜索系统的搜索日志,基于上述预设的搜索词类型,从中选取各类型下搜索频率较高的搜索词作为备选搜索词。0086步骤S62、获取为所述备选搜索词召回的搜索结果中的结果对象。0087步骤S63、基于所述搜索结果中的结果对象,确定所述备选搜索词是否存在标准结果对象。0088步骤S64、在存在的情况下,将所述备选搜索词确定为所述第一搜索词。0089具体的,可以基于该搜索系统对上述备选搜索词进行搜索,获取若干个召回对象,将上述若干个召回对象输出并显示给用户,其中,所显示给用户的还包括了各召回对象对应的预。

48、设控件,接收用户对预设控件的触发操作,将用户触发的预设控件所对应的召回对象确定为备选召回对象。0090具体的,还可以设置预设时长,当在该预设时长内用户所触发的预设控件数量为1时,可以认为上述备选搜索词存在标准结果对象,并将该备选搜索词确定为第一搜索词。相应地,当在该预设时长内用户所触发的预设控件数量大于1时,认为上述备选搜索词不存在标准结果对象,可以将该备选搜索词确定为第二搜索词。0091本发明实施例中,通过针对预设的搜索词类型,从所述搜索系统的搜索日志中获取历史搜索词,作为备选搜索词;获取为所述备选搜索词召回的搜索结果中的结果对象;基于所述搜索结果中的结果对象,确定所述备选搜索词是否存在标准。

49、结果对象;在存在的情况下,将所述备选搜索词确定为所述第一搜索词。这样,可以直接基于搜索系统的搜索日志确定第一搜索词和第二搜索词,无需从外部获取,可以降低构建参照集的时间成本,进一步提高搜索系统的评估效率。0092可选的,上述基于所述第一参照集和所述第二参照集,确定所述搜索系统的搜索质量参数的操作,本发明实施例具体可以包括下述步骤:0093步骤S71、分别获取所述搜索系统为所述第一参照集中第一搜索词召回的第一结果对象以及为所述第二参照集中第二搜索词召回的第二结果对象。0094步骤S72、根据所述第一结果对象以及所述第一参照集中的标准结果对象,为所述搜索系统生成第一搜索质量参数。0095步骤S73。

50、、根据所述第二结果对象以及所述第二参照集中的备选结果对象以及备说明书9/14 页12CN 116049528 A12选结果对象的相关性分值,为所述搜索系统生成第二搜索质量参数。0096其中,上述搜索系统可以为未优化的系统,也可以是优化后的搜索系统,上述优化后的搜索系统指的是经过更新或维护后的搜索系统。可以理解的,当搜索系统经过一次更新或改进后,需要对当前的搜索系统的搜索质量进行再一次评估,以确定更新后的搜索系统是否满足搜索要求。因此可以基于上述构建的第一参照集和第二参照集中的搜索词,确定当前搜索系统所召回的召回对象。其中,上述第一搜索质量参数用以表征当前的搜索系统针对第一搜索词的搜索质量,上述。

展开阅读全文
内容关键字: 搜索 系统 评估 方法 装置 电子设备 可读 存储 介质
关于本文
本文标题:搜索系统的评估方法、装置、电子设备及可读存储介质.pdf
链接地址:https://www.zhuanlichaxun.net/pdf/14199273.html
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1