书签 分享 收藏 举报 版权申诉 / 17

搜索方法及装置.pdf

  • 上传人:g****
  • 文档编号:2239816
  • 上传时间:2018-08-03
  • 格式:PDF
  • 页数:17
  • 大小:1.19MB
  • 摘要
    申请专利号:

    CN201510245979.3

    申请日:

    2015.05.14

    公开号:

    CN104881446A

    公开日:

    2015.09.02

    当前法律状态:

    实审

    有效性:

    审中

    法律详情:

    实质审查的生效IPC(主分类):G06F 17/30申请日:20150514|||公开

    IPC分类号:

    G06F17/30

    主分类号:

    G06F17/30

    申请人:

    百度在线网络技术(北京)有限公司

    发明人:

    陈庆轩; 王山雨; 温泉; 王潜; 李开宇; 白露

    地址:

    100085北京市海淀区上地十街10号百度大厦

    优先权:

    专利代理机构:

    北京鸿德海业知识产权代理事务所(普通合伙)11412

    代理人:

    袁媛

    PDF完整版下载: PDF下载
    内容摘要

    本发明提供一种搜索方法及装置。本发明实施例通过获得与所获取的搜索关键词匹配的候选聚合问题,以作为目标聚合问题,进而获得所述目标聚合问题所对应的观点数据,使得能够输出所述目标聚合问题所对应的所述观点数据,由于原始的资源库中的资源不再都是相互独立的单一内容,而是包含了经过聚合的观点类问题和这些问题所对应的观点数据,使得每个搜索结果不再是单一内容,能够基本满足用户真正的搜索意图,因此,能够避免现有技术中由于用户通过应用反复进行搜索而导致的增加应用与搜索引擎之间的数据交互的问题,从而降低了搜索引擎的处理负担。

    权利要求书

    1.  一种搜索方法,其特征在于,包括:
    获取搜索关键词;
    获得与所述搜索关键词匹配的候选聚合问题,以作为目标聚合问题;
    获得所述目标聚合问题所对应的观点数据;
    输出所述目标聚合问题所对应的所述观点数据。

    2.
      根据权利要求1所述的方法,其特征在于,所述观点数据包括至少一个观点和所述至少一个观点中每个观点的统计数据中的至少一项。

    3.
      根据权利要求2所述的方法,其特征在于,所述至少一个观点包括第一倾向性观点和第二倾向性观点。

    4.
      根据权利要求2所述的方法,其特征在于,所述每个观点的统计数据,包括下列数据中的至少一项:
    每个观点的属性信息;
    每个观点在所述目标聚合问题所对应的观点类问题的答案中的出现情况;以及
    每个观点在所述目标聚合问题所对应的观点类问题的答案中的出现情况统计图。

    5.
      根据权利要求1所述的方法,其特征在于,所述获得与所述搜索关键词匹配的候选聚合问题,以作为目标聚合问题之前,还包括:
    对资源库中问题进行识别,以获得观点类问题;
    对所述观点类问题进行基于语义的聚合处理,以获得至少一个候选聚合问题;
    根据所述至少一个候选聚合问题中每个候选聚合问题所对应的观点类问题的答案,获得所述每个候选聚合问题所对应的观点数据。

    6.
      根据权利要求5所述的方法,其特征在于,根据所述至少一个候选聚合问题中每个候选聚合问题所对应的观点类问题的答案,获得所述每个候选 聚合问题所对应的观点数据,包括:
    根据所述至少一个候选聚合问题中每个候选聚合问题所对应的观点类问题的答案,获得所述每个候选聚合问题所对应的至少一个候选倾向性词汇或短语;
    对所述至少一个候选倾向性词汇或短语进行识别处理,以获得所述观点数据中所包括的观点。

    7.
      根据权利要求1~6任一权利要求所述的方法,其特征在于,所述输出所述目标聚合问题所对应的所述观点数据,包括:
    以结构化形式,输出所述目标聚合问题所对应的所述观点数据。

    8.
      一种搜索装置,其特征在于,包括:
    获取单元,用于获取搜索关键词;
    匹配单元,用于获得与所述搜索关键词匹配的候选聚合问题,以作为目标聚合问题;
    所述匹配单元,还用于获得所述目标聚合问题所对应的观点数据;
    输出单元,用于输出所述目标聚合问题所对应的所述观点数据。

    9.
      根据权利要求8所述的装置,其特征在于,所述观点数据包括至少一个观点和所述至少一个观点中每个观点的统计数据中的至少一项。

    10.
      根据权利要求9所述的装置,其特征在于,所述至少一个观点包括第一倾向性观点和第二倾向性观点。

    11.
      根据权利要求9所述的装置,其特征在于,所述每个观点的统计数据,包括下列数据中的至少一项:
    每个观点的属性信息;
    每个观点在所述目标聚合问题所对应的观点类问题的答案中的出现情况;以及
    每个观点在所述目标聚合问题所对应的观点类问题的答案中的出现情况统计图。

    12.
      根据权利要求8所述的装置,其特征在于,所述装置还包括挖掘单 元,用于
    对资源库中问题进行识别,以获得观点类问题;
    对所述观点类问题进行基于语义的聚合处理,以获得至少一个候选聚合问题;以及
    根据所述至少一个候选聚合问题中每个候选聚合问题所对应的观点类问题的答案,获得所述每个候选聚合问题所对应的观点数据。

    13.
      根据权利要求12所述的装置,其特征在于,所述挖掘单元,具体用于
    根据所述至少一个候选聚合问题中每个候选聚合问题所对应的观点类问题的答案,获得所述每个候选聚合问题所对应的至少一个候选倾向性词汇或短语;以及
    对所述至少一个候选倾向性词汇或短语进行识别处理,以获得所述观点数据中所包括的观点。

    14.
      根据权利要求8~13任一权利要求所述的装置,其特征在于,所述输出单元,具体用于
    以结构化形式,输出所述目标聚合问题所对应的所述观点数据。

    说明书

    搜索方法及装置
    技术领域
    本发明涉及搜索技术,尤其涉及一种搜索方法及装置。
    背景技术
    搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供搜索服务,将用户搜索相关的信息展示给用户的系统。如何利用搜索服务最大限度满足用户需求,对于互联网企业而言,是一个重要的课题。用户在搜索引擎对应应用中的搜索框中,输入搜索关键词,由应用将搜索关键词,发送给搜索引擎。搜索引擎则根据搜索关键词,在数据库中进行搜索,以获得与搜索关键词匹配的资源例如,网页或文档等,以作为若干个搜索结果,并返回给应用进行输出。
    然而,如果用户想要通过搜索关键词获得具有结构化特点的丰富内容,由于原始的资源库中的资源都是相互独立的单一内容,使得每个搜索结果也是单一内容,可能无法满足用户真正的搜索意图,使得用户需要通过应用反复进行搜索,才能够获得所需要的内容,这样,会增加应用与搜索引擎之间的数据交互,从而导致了搜索引擎的处理负担的增加。
    发明内容
    本发明的多个方面提供一种搜索方法及装置,用以降低搜索引擎的处理负担。
    本发明的一方面,提供一种搜索方法,包括:
    获取搜索关键词;
    获得与所述搜索关键词匹配的候选聚合问题,以作为目标聚合问题;
    获得所述目标聚合问题所对应的观点数据;
    输出所述目标聚合问题所对应的所述观点数据。
    如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述观点数据包括至少一个观点和所述至少一个观点中每个观点的统计数据中的至少一项。
    如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述至少一个观点包括第一倾向性观点和第二倾向性观点。
    如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述每个观点的统计数据,包括下列数据中的至少一项:
    每个观点的属性信息;
    每个观点在所述目标聚合问题所对应的观点类问题的答案中的出现情况;以及
    每个观点在所述目标聚合问题所对应的观点类问题的答案中的出现情况统计图。
    如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述获得与所述搜索关键词匹配的候选聚合问题,以作为目标聚合问题之前,还包括:
    对资源库中问题进行识别,以获得观点类问题;
    对所述观点类问题进行基于语义的聚合处理,以获得至少一个候选聚合问题;
    根据所述至少一个候选聚合问题中每个候选聚合问题所对应的观点类问 题的答案,获得所述每个候选聚合问题所对应的观点数据。
    如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,根据所述至少一个候选聚合问题中每个候选聚合问题所对应的观点类问题的答案,获得所述每个候选聚合问题所对应的观点数据,包括:
    根据所述至少一个候选聚合问题中每个候选聚合问题所对应的观点类问题的答案,获得所述每个候选聚合问题所对应的至少一个候选倾向性词汇或短语;
    对所述至少一个候选倾向性词汇或短语进行识别处理,以获得所述观点数据中所包括的观点。
    如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述输出所述目标聚合问题所对应的所述观点数据,包括:
    以结构化形式,输出所述目标聚合问题所对应的所述观点数据。
    本发明的另一方面,提供一种搜索装置,包括:
    获取单元,用于获取搜索关键词;
    匹配单元,用于获得与所述搜索关键词匹配的候选聚合问题,以作为目标聚合问题;
    所述匹配单元,还用于获得所述目标聚合问题所对应的观点数据;
    输出单元,用于输出所述目标聚合问题所对应的所述观点数据。
    如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述观点数据包括至少一个观点和所述至少一个观点中每个观点的统计数据中的至少一项。
    如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所 述至少一个观点包括第一倾向性观点和第二倾向性观点。
    如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述每个观点的统计数据,包括下列数据中的至少一项:
    每个观点的属性信息;
    每个观点在所述目标聚合问题所对应的观点类问题的答案中的出现情况;以及
    每个观点在所述目标聚合问题所对应的观点类问题的答案中的出现情况统计图。
    如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述装置还包括挖掘单元,用于
    对资源库中问题进行识别,以获得观点类问题;
    对所述观点类问题进行基于语义的聚合处理,以获得至少一个候选聚合问题;以及
    根据所述至少一个候选聚合问题中每个候选聚合问题所对应的观点类问题的答案,获得所述每个候选聚合问题所对应的观点数据。
    如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述挖掘单元,具体用于
    根据所述至少一个候选聚合问题中每个候选聚合问题所对应的观点类问题的答案,获得所述每个候选聚合问题所对应的至少一个候选倾向性词汇或短语;以及
    对所述至少一个候选倾向性词汇或短语进行识别处理,以获得所述观点数据中所包括的观点。
    如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所 述输出单元,具体用于
    以结构化形式,输出所述目标聚合问题所对应的所述观点数据。
    如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述至少一个观点包括第一倾向性观点和第二倾向性观点。
    由上述技术方案可知,本发明实施例通过获得与所获取的搜索关键词匹配的候选聚合问题,以作为目标聚合问题,进而获得所述目标聚合问题所对应的观点数据,使得能够输出所述目标聚合问题所对应的所述观点数据,由于原始的资源库中的资源不再都是相互独立的单一内容,而是包含了经过聚合的观点类问题和这些问题所对应的观点数据,使得每个搜索结果不再是单一内容,能够基本满足用户真正的搜索意图,因此,能够避免现有技术中由于用户通过应用反复进行搜索而导致的增加应用与搜索引擎之间的数据交互的问题,从而降低了搜索引擎的处理负担。
    另外,采用本发明提供的技术方案,由于原始的资源库中的资源不再都是相互独立的单一内容,而是包含了经过聚合的观点类问题和这些问题所对应的观点数据,使得每个搜索结果不再是单一内容,能够基本满足用户真正的搜索意图,因此,能够有效提高搜索结果的有效性。
    另外,采用本发明提供的技术方案,由于原始的资源库中的资源不再都是相互独立的单一内容,而是包含了经过聚合的观点类问题和这些问题所对应的观点数据,使得每个搜索结果不再是单一内容,能够基本满足用户真正的搜索意图,因此,能够有效提高搜索的效率。
    另外,采用本发明提供的技术方案,通过以结构化形式,输出搜索结果即所述目标聚合问题所对应的所述观点数据,能够使得搜索结果的展现效果 具有重点突出且内容清晰的特点,从而有效地提升了用户体验。
    附图说明
    为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
    图1为本发明一实施例提供的搜索方法的流程示意图;
    图2为图1对应的实施例中搜索结果的展现示意图;
    图3为本发明另一实施例提供的搜索装置的结构示意图;
    图4为本发明另一实施例提供的搜索装置的结构示意图。
    具体实施方式
    为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例,都属于本发明保护的范围。
    需要说明的是,本发明实施例中所涉及的终端可以包括但不限于手机、个人数字助理(Personal Digital Assistant,PDA)、无线手持设备、平板电脑(Tablet Computer)、个人电脑(Personal Computer,PC)、MP3播放器、MP4播放器、可穿戴设备(例如,智能眼镜、智能手表、智能手环等)等。
    另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A 和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
    图1为本发明一实施例提供的搜索方法的流程示意图,如图1所示。
    101、获取搜索关键词。
    102、获得与所述搜索关键词匹配的候选聚合问题,以作为目标聚合问题。
    103、获得所述目标聚合问题所对应的观点数据。
    104、输出所述目标聚合问题所对应的所述观点数据。
    需要说明的是,101~104的执行主体的部分或全部可以为位于本地终端的应用,或者还可以为设置在位于本地终端的应用中的插件或软件开发工具包(Software Development Kit,SDK)等功能单元,或者还可以为位于网络侧服务器中的搜索引擎,或者还可以为位于网络侧的分布式系统,本实施例对此不进行特别限定。
    可以理解的是,所述应用可以是安装在终端上的本地程序(nativeApp),或者还可以是终端上的浏览器的一个网页程序(webApp),本实施例对此不进行限定。
    这样,通过获得与所获取的搜索关键词匹配的候选聚合问题,以作为目标聚合问题,进而获得所述目标聚合问题所对应的观点数据,使得能够输出所述目标聚合问题所对应的所述观点数据,由于原始的资源库中的资源不再都是相互独立的单一内容,而是包含了经过聚合的观点类问题和这些问题所对应的观点数据,使得每个搜索结果不再是单一内容,能够基本满足用户真正的搜索意图,因此,能够避免现有技术中由于用户通过应用反复进行搜索而导致的增加应用与搜索引擎之间的数据交互的问题,从而降低了搜索引擎的处理负担。
    可选地,在本实施例的一个可能的实现方式中,在101中,具体可以采集用户所提供的所述搜索关键词,可以通过用户所触发的搜索命令实现。具体可以采用下述两种方式触发搜索命令:
    方式一:
    用户可以在当前应用所展现的页面上所输入所述搜索关键词,然后,通过点击该页面上的搜索按钮,例如,百度等普通的大搜索系统所提供的百度一下按钮或百度知道等垂直搜索系统所提供的搜索答案按钮等,以触发搜索命令,该搜索命令中包含所述搜索关键词。其中,用户输入所述搜索关键词的数量可以为一个,或者还可以为几个,其顺序可以为任意顺序,本实施例对此不进行特别限定。这样,在接收到该搜索命令之后,则可以解析出其中所包含的所述搜索关键词。
    方式二:
    采用异步加载技术例如,Ajax异步加载或Jsonp异步加载等,实时获取用户在当前应用所展现的页面上所输入的输入内容,为了与搜索关键词进行区分,此时的输入内容可以称为是输入关键词。其中,用户输入所述搜索关键词的数量可以为一个,或者还可以为几个,其顺序可以为任意顺序,本实施例对此不进行特别限定。这样,在接收到该搜索命令之后,则可以解析出其中所包含的所述搜索关键词。具体地,具体可以提供Ajax接口或Jsonp接口等接口,这些接口可以使用Java、超级文本预处理(Hypertext Preprocessor,PHP)语言等语言进行编写,其具体的调用可以使用Jquery,或者原生的JavaScript等语言进行编写。
    可选地,在本实施例的一个可能的实现方式中,在102中,具体可以利用基于语义的匹配方式,获得与所述搜索关键词匹配的候选聚合问题,以作为目标聚合问题。
    在一个具体的实现过程中,具体可以计算搜索关键词与资源库中的候选聚合问题之间的语义距离,然后,再根据语义距离,获得二者的语义相似度。详细描述具体可以参见现有技术中文本之间的语义相似度的相关内容,此处不再赘述。若所获得的语义相似度满足预先设置的相似度条件,例如,大于或等于相似度阈值等,则可以将该候选聚合问题作为目标聚合问题。
    可选地,在本实施例的一个可能的实现方式中,在103中,所获得的所述观点数据可以包括但不限于至少一个观点和所述至少一个观点中每个观点 的统计数据中的至少一项,本实施例对此不进行特别限定。
    这样,由于原始的资源库中的资源不再都是相互独立的单一内容,而是包含了经过聚合的观点类问题和这些问题所对应的若干个观点,及其统计数据,使得每个搜索结果不再是单一内容,能够基本满足用户真正的搜索意图。
    具体地,所获得的所述每个观点的统计数据,可以包括但不限于下列数据中的至少一项:
    每个观点的属性信息;
    每个观点在所述目标聚合问题所对应的观点类问题的答案中的出现情况;以及
    每个观点在所述目标聚合问题所对应的观点类问题的答案中的出现情况统计图。
    在一个具体的实现过程中,每个观点的属性信息,可以用于描述每个观点的倾向性类型。例如,积极类型或消极类型等。
    在另一个具体的实现过程中,每个观点在所述目标聚合问题所对应的观点类问题的答案中的出现情况,可以用于描述每个观点在其对应的答案中所出现的出现情况。其中,所谓的出现情况,可以为出现比值,或者还可以为出现次数,本实施例对此不进行特别限定。
    需要说明的是,每个观点在同一个答案中的出现情况的统计可以按照需要进行灵活设置,可以该观点每出现一次,统计为一次,或者还可以只要该观点出现一次,不管该观点还出现了几次,都统计为一次,本实施例对此不进行特别限定。
    在另一个具体的实现过程中,每个观点在所述目标聚合问题所对应的观点类问题的答案中的出现情况统计图,可以用于描述每个观点在其对应的答案中所出现的出现情况统计图。其中,所谓的出现情况,可以为出现比值,或者还可以为出现次数,本实施例对此不进行特别限定。
    需要说明的是,每个观点在同一个答案中的出现情况的统计可以按照需要进行灵活设置,可以该观点每出现一次,统计为一次,或者还可以只要该 观点出现一次,不管该观点还出现了几次,都统计为一次,本实施例对此不进行特别限定。
    可选地,在本实施例的一个可能的实现方式中,在103之前,还可以进一步包括挖掘操作。具体地,具体可以对资源库中问题进行识别,以获得观点类问题,进而,对所述观点类问题进行基于语义的聚合处理,以获得至少一个候选聚合问题。然后,则可以根据所述至少一个候选聚合问题中每个候选聚合问题所对应的观点类问题的答案,获得所述每个候选聚合问题所对应的观点数据。
    具体地,具体可以多种方式,对资源库中问题进行识别,以获得观点类问题。所谓的资源库,其中所包含的资源,可以是预先在互联网中,利用网页爬虫技术,所采集的若干个网页或者问答对(即问题-答案资源对)。
    在一个具体的实现过程中,具体可以利用问题模板,对资源库中问题进行识别,以获得观点类问题。
    所谓的问题模版,指的是包含关键词与语法结构的句子结构定义。其中所述的关键词通常具有强烈的疑问倾向。
    以下面这个问题模板为例:“NP+是+吗”,其中,NP,代表名词短语,该问题模版表示问题中含有“是+吗”这样的关键字,同时在“是+吗”之前包含名词短语,当一个符合上述问题模板的问题出现时,该问题就被识别为观点类问题。
    例如,“秦始皇是吕不韦的儿子吗”这样一个问题,由于符合上述问题模版,该问题就被识别为观点类问题。除了名词短语,还可以在句子中通过短语或动词短语等语法结构对问题模版中除关键字以外的部分进行限定,在此不再特别赘述。
    问题模版中的关键词具有很强的疑问倾向,这是由于问题模版的关键词提取是对数据库中的优质提问的问题进行统计分析后得到的,例如,可以将数据库中得到较多用户回答的提问或在提问生成后在较短时间内得到用户回答的提问提取出来,将这些提问的问题进行分词后统计,通过每个词在一个 问题中单独出现的次数、与其他词共同出现的次数,可以计算每个词在一个问题中单独出现的概率和每个词与其他词在一个问题中共同出现的概率,这样就可以选择单独出现概率高或共同出现概率高的词作为问题模版的关键词。通过对上述提取的包含关键词的问题进行语法结构的分析,即可以得到完整的问题模版。
    在另一个具体的实现过程中,具体可以利用分类器,对资源库中问题进行识别,以获得观点类问题。例如,所述分类器的特征参数可以包括但不限于如下参数中的一个或多个:
    问题所包含的词、问题所包含的词及其词性、问题长度、问题所属类型、问题是否包含指定类型的实体词、以及问题是否包含指定类型的属性词。
    具体地,具体可以采用预先指定的训练样本集,进行训练,以构建分类器,用以识别出观点类问题。
    需要说明的是,训练样本集中所包含的训练样本,可以为经过标注的已知样本,这样,可以直接利用这些已知样本进行训练,以构建分类器;或者还可以一部分为经过标注的已知样本,另一部分为没有经过标注的未知样本,那么,则可以先利用已知样本进行训练,以构建初始分类器,然后,再利用初始分类器对未知样本进行评测,以获得分类结果,进而则可以根据未知样本的分类结果,对未知样本进行标注,以形成已知样本,作为新增加的已知样本,利用新增加的已知样本,以及原始的已知样本重新进行训练,以构建新的分类器,直到所构建的分类器或已知样本满足分类器的截止条件为止,如分类准确率大于或等于预先设置的准确率阈值或已知样本的数量大于或等于预先设置的数量阈值等,本实施例对此不进行特别限定。
    在另一个具体的实现过程中,具体可以利用问题模板和分类器,对资源库中问题进行识别,以获得观点类问题。例如,问题模版具体可以包括但不限于WHERE(地点类)问题模板、HOW(方法类)问题模板、WHY(原因类)问题模板、TIME(时间类)问题模板、SCOPE(范围类)问题模板、CODE(号码类)问题模板、ADV(广告类)问题模板、PRICE(价格类)问 题模板和TERM(无明确疑问需求类)问题模板等类型的问题模板。具体可以先利用问题模板,对资源库中问题进行过滤,以将明显不是观点类问题的其他问题过滤掉,例如,可以将WHY问题模板所对应的问题等过滤掉,剩下可能是观点类问题的一些问题。然后,再利用分类器,对剩下的可能是观点类问题的一些问题进行识别,以获得观点类问题。这样,由于过滤掉了大部分问题模板所对应的问题,只剩下小部分问题模板所对应的问题,因此,可以减轻训练分类器所使用的训练样本集中样本的收集难度。
    具体地,在对所述观点类问题进行基于语义的聚合处理的过程中,具体可以计算两两观点类问题之间的语义距离,然后,再根据语义距离,获得二者的语义相似度。详细描述具体可以参见现有技术中文本之间的语义相似度的相关内容,此处不再赘述。若所获得的语义相似度满足预先设置的相似度条件,例如,大于或等于相似度阈值等,则可以将所对应的两个观点类问题聚合为一个分组。若所获得的语义相似度不满足预先设置的相似度条件,例如,小于相似度阈值等,则不再将所对应的两个观点类问题聚合为一个分组。接着,再根据每个分组中所有的观点类问题,获得代表该分组的一个统一的问题,即候选聚合问题。例如,具体可以选择该分组中任意一个观点类问题,作为该分组所对应的候选聚合问题。
    需要说明的是,问题可以包括标题和内容,有些问题的标题和内容相同,有些问题的标题和内容不同,这个取决于输入问题的用户的提问习惯。此处,参与进行语义相似度计算的问题即“观点类问题”,可以为问题的标题,或者还可以为问题的标题和内容,或者还可以为问题的内容,本实施例对此不进行特别限定。那么,所获得的代表分组的一个统一的问题即“候选聚合问题”,可以为问题的标题,或者还可以为问题的标题和内容,或者还可以为问题的内容,本实施例对此不进行特别限定。
    具体地,在获得每个分组所对应的候选聚合问题之后,具体可以根据所述至少一个候选聚合问题中每个候选聚合问题所对应的观点类问题的答案,获得所述每个候选聚合问题所对应的至少一个候选倾向性词汇或短语。然后, 再对所述至少一个候选倾向性词汇或短语进行识别处理,以获得所述观点数据中所包括的观点。
    在一个具体的实现过程中,具体可以利用预先指定的具体可以利用预先指定的词典数据,对每个候选聚合问题所对应的观点类问题的答案进行识别处理,以获得所述每个候选聚合问题所对应的至少一个候选倾向性词汇或短语。
    具体地,所述词典数据可以为褒贬词典的数据,或者还可以为强倾向性词典的数据,或者还可以为形容词词典的数据,或者还可以为转折词词典的数据,本实施例对此不进行特别限定。
    例如,所述褒贬词典的数据,具体可以从知网(HowNet)中抽取出来的,例如,哀兵必败等,大约为2600个词汇或短语。
    或者,再例如,所述强倾向性词典的数据,具体可以由开发人员进行整理,例如,不能等,大约180个词汇或短语。
    或者,再例如,所述形容词词典的数据,主要是用于分析答案中未在所述褒贬词典和强倾向性词典中,并且能够表示一定的倾向性含义的词汇或短语,例如,整齐、清楚或分明等。
    或者,再例如,所述转折词词典,主要是用于分析答案中未在所述褒贬词典和强倾向性词典中,并且能够表示一定的转折的词汇或短语,例如,但是等。
    在另一个具体的实现过程中,具体可以利用预先指定的特定结构数据,例如,双重肯定结构数据、双重否定结构数据、否定肯定结构数据或肯定否定结构数据等,对相邻的候选倾向性词汇或短语进行识别处理,以获得一个新的候选倾向性词汇或短语。例如,对“不是”和“不能”这两个相邻的候选倾向性词汇或短语,获得“能”这个新的候选倾向性词汇或短语。
    在另一个具体的实现过程中,具体可以利用N-Gram算法,例如,利用基于词典数据或特定结构数据所获得的倾向性词汇或短语即一元的Uni-Gram词汇或短语,关联出与其相邻的词汇或短语,例如,与其相邻的二元的Bi-Gram 词汇(如不能处理)或短语和与其相邻的三元的Tri-Gram词汇或短语中的至少一项,以作为新的候选倾向性词汇或短语。
    在另一个具体的实现过程中,具体可以利用预先指定的Q-A关键词汇或短语数据,对每个候选聚合问题所对应的观点类问题的答案进行识别处理,以获得所述每个候选聚合问题所对应的至少一个候选倾向性词汇或短语。
    具体地,所述Q-A关键词汇或短语数据,主要是用于分析答案中未在所述褒贬词典和强倾向性词典中,并且能够在特定的语境下表示一定倾向性含义的词汇或短语。
    例如:Q:会计证好吗?A:挺好的~~!我突袭了两个月就考出来了……;其中,动词“考”,就是在该语境下表示一定倾向性含义的词汇。
    或者,再例如,Q:宫外孕严重么?A:当然严重孩子大了会把输卵管涨破就会大出血弄不好会出人命哦;其中,形容词“严重”,就是在该语境下表示一定倾向性含义的词汇。
    在另一个具体的实现过程中,在获得所述每个候选聚合问题所对应的至少一个候选倾向性词汇或短语之后,具体可以根据这些候选倾向性词汇或短语所在答案中所在分句中的位置,利用分类规则,对这些候选倾向性词汇或短语进行识别,以获得这些候选倾向性词汇或短语所对应的倾向性的观点。例如,对候选倾向性词汇或短语所在答案中所在分句中的位置,进行log型的加权计算,以获得一个权值,进而根据权值,获得这些候选倾向性词汇或短语所对应的倾向性的观点。
    在另一个具体的实现过程中,在获得所述每个候选聚合问题所对应的至少一个候选倾向性词汇或短语之后,具体可以利用分类器,对这些候选倾向性词汇或短语进行识别,以获得这些候选倾向性词汇或短语所对应的倾向性的观点。
    具体地,具体可以采用预先指定的训练样本集,进行训练,以构建分类器,用以识别出候选倾向性词汇或短语所对应的倾向性的观点。
    需要说明的是,训练样本集中所包含的训练样本,可以为经过标注的已 知样本,这样,可以直接利用这些已知样本进行训练,以构建分类器;或者还可以一部分为经过标注的已知样本,另一部分为没有经过标注的未知样本,那么,则可以先利用已知样本进行训练,以构建初始分类器,然后,再利用初始分类器对未知样本进行评测,以获得分类结果,进而则可以根据未知样本的分类结果,对未知样本进行标注,以形成已知样本,作为新增加的已知样本,利用新增加的已知样本,以及原始的已知样本重新进行训练,以构建新的分类器,直到所构建的分类器或已知样本满足分类器的截止条件为止,如分类准确率大于或等于预先设置的准确率阈值或已知样本的数量大于或等于预先设置的数量阈值等,本实施例对此不进行特别限定。
    本实施例中,训练样本的来源可以分为两种,一种是pm标注的训练样本,有1000条左右,针对这种偏短的文本,训练样本规模有些过少,针对这种情况,利用众测投放的方式进行了标注,截取标注结果一致性100%的训练样本进行补充,最终利用10000条训练样本。
    可选地,在本实施例的一个可能的实现方式中,在103中,所获得的所述至少一个观点可以包括第一倾向性观点和第二倾向性观点。例如,是和不是;或者,再例如,可以和不可以;或者,再例如,难或不难。
    可选地,在本实施例的一个可能的实现方式中,在104中,具体可以以结构化形式,输出所述目标聚合问题所对应的所述观点数据,以实现搜索结果的展现。
    如图2所示,图2中所示为,搜索关键词为“秦始皇是不是吕不韦的儿子”,采用本发明所提供的技术方案所输出的搜索结果。其中,
    在展现区域21中,所输出的为与搜索关键词匹配的目标聚合问题;
    在展现区域22中,所输出的为该目标聚合问题所对应的两个观点,即是和不是;以及
    在展现区域23中,所输出的为每个观点的统计数据。
    这样,通过以结构化形式,输出搜索结果即所述目标聚合问题所对应的所述观点数据,能够使得搜索结果的展现效果具有重点突出且内容清晰的特 点,从而有效地提升了用户体验。
    可以理解的是,一般来说,由于页面中所指定的搜索结果的展现区域有限,在一屏之内无法完整显示全部的搜索结果,则可以将所述搜索结果中的一部分内容,进行折叠展现处理,或者还可以进一步在所述页面中设置一滚动条,以使得用户拖动滚动条,以配合展现区域进行滚动显示,本实施例对此不进行特别限定。
    可选地,在挖掘操作的过程中,在获得了至少一个观点之后,还可以进一步对这些观点所在答案进行排序,以获得经过排序的包含这些观点的答案。进而,在103中,则可以进一步获得包含这些观点的答案,以及在104中,进一步输出包含这些观点的答案。
    具体地,具体可以利用如下信息中的至少一项,作为排序因子,对这些观点所在的答案进行排序:
    观点所在答案的质量参数;
    观点所在答案的倾向性参数;以及
    观点所在答案的语义相关性。
    其中,
    所述观点所在答案的质量参数,用于描述观点所在答案的质量,具体可以根据答案的文本的质量得分,以及答案所对应的用户的用户得分中的至少一项,获得。
    所述观点所在答案的倾向性参数,用于描述观点所在答案的倾向性强度,具体可以根据倾向性判定得分、答案中是否包含转折词汇或短语、以及答案中是否包含明显的强倾向性的词汇或短语中的至少一项,获得。
    所述观点所在答案的语义相关性,用于描述观点与该观点所在答案之间的语义相关程度。具体可以采用现有的文本语义相关性的计算方法,详细描述可以参见现有技术中的相关内容,此处不再赘述。
    具体地,具体可以根据排序需求,选择所对应的排序策略,以及该排序策略所需要的排序因子,或者进一步再获得排序因子所对应的权值,进而, 则可以利用所选择的排序因子及其权值,对这些观点所在答案进行排序。
    本实施例中,通过获得与所获取的搜索关键词匹配的候选聚合问题,以作为目标聚合问题,进而获得所述目标聚合问题所对应的观点数据,使得能够输出所述目标聚合问题所对应的所述观点数据,由于原始的资源库中的资源不再都是相互独立的单一内容,而是包含了经过聚合的观点类问题和这些问题所对应的观点数据,使得每个搜索结果不再是单一内容,能够基本满足用户真正的搜索意图,因此,能够避免现有技术中由于用户通过应用反复进行搜索而导致的增加应用与搜索引擎之间的数据交互的问题,从而降低了搜索引擎的处理负担。
    另外,采用本发明提供的技术方案,由于原始的资源库中的资源不再都是相互独立的单一内容,而是包含了经过聚合的观点类问题和这些问题所对应的观点数据,使得每个搜索结果不再是单一内容,能够基本满足用户真正的搜索意图,因此,能够有效提高搜索结果的有效性。
    另外,采用本发明提供的技术方案,由于原始的资源库中的资源不再都是相互独立的单一内容,而是包含了经过聚合的观点类问题和这些问题所对应的观点数据,使得每个搜索结果不再是单一内容,能够基本满足用户真正的搜索意图,因此,能够有效提高搜索的效率。
    另外,采用本发明提供的技术方案,通过以结构化形式,输出搜索结果即所述目标聚合问题所对应的所述观点数据,能够使得搜索结果的展现效果具有重点突出且内容清晰的特点,从而有效地提升了用户体验。
    需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
    在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
    图3为本发明另一实施例提供的搜索装置的结构示意图,如图3所示。本实施例的搜索装置可以包括获取单元31、匹配单元32和输出单元33。其中,获取单元31,用于获取搜索关键词;匹配单元32,用于获得与所述搜索关键词匹配的候选聚合问题,以作为目标聚合问题;所述匹配单元32,还用于获得所述目标聚合问题所对应的观点数据;输出单元33,用于输出所述目标聚合问题所对应的所述观点数据。
    需要说明的是,本实施例所提供的搜索装置的部分或全部可以为位于本地终端的应用,或者还可以为设置在位于本地终端的应用中的插件或软件开发工具包(Software Development Kit,SDK)等功能单元,或者还可以为位于网络侧服务器中的搜索引擎,或者还可以为位于网络侧的分布式系统,本实施例对此不进行特别限定。
    可以理解的是,所述应用可以是安装在终端上的本地程序(nativeApp),或者还可以是终端上的浏览器的一个网页程序(webApp),本实施例对此不进行限定。
    可选地,在本实施例的一个可能的实现方式中,所述匹配单元32,所获得的所述观点数据可以包括但不限于至少一个观点和所述至少一个观点中每个观点的统计数据中的至少一项,本实施例对此不进行特别限定。
    在一个具体的实现过程中,所述匹配单元32所获得的所述每个观点的统计数据,可以包括但不限于下列数据中的至少一项:
    每个观点的属性信息;
    每个观点在所述目标聚合问题所对应的观点类问题的答案中的出现情况;以及
    每个观点在所述目标聚合问题所对应的观点类问题的答案中的出现情况统计图。
    可选地,在本实施例的一个可能的实现方式中,如图4所示,本实施例所提供的搜索装置还可以进一步包括挖掘单元41,用于对资源库中问题进行识别,以获得观点类问题;对所述观点类问题进行基于语义的聚合处理,以 获得至少一个候选聚合问题;以及根据所述至少一个候选聚合问题中每个候选聚合问题所对应的观点类问题的答案,获得所述每个候选聚合问题所对应的观点数据。
    在一个具体的实现过程中,所述挖掘单元41,具体可以用于根据所述至少一个候选聚合问题中每个候选聚合问题所对应的观点类问题的答案,获得所述每个候选聚合问题所对应的至少一个候选倾向性词汇或短语;以及对所述至少一个候选倾向性词汇或短语进行识别处理,以获得所述观点数据中所包括的观点。
    可选地,在本实施例的一个可能的实现方式中,所述匹配单元32所获得的所述至少一个观点可以包括但不限于第一倾向性观点和第二倾向性观点,本实施例对此不进行特别限定。
    可选地,在本实施例的一个可能的实现方式中,所述输出单元33,具体可以用于以结构化形式,输出所述目标聚合问题所对应的所述观点数据。
    需要说明的是,图1对应的实施例中方法,可以由本实施例提供的搜索装置实现。详细描述可以参见图1对应的实施例中的相关内容,此处不再赘述。
    本实施例中,通过匹配单元获得与获取单元所获取的搜索关键词匹配的候选聚合问题,以作为目标聚合问题,进而获得所述目标聚合问题所对应的观点数据,使得输出单元能够输出所述目标聚合问题所对应的所述观点数据,由于原始的资源库中的资源不再都是相互独立的单一内容,而是包含了经过聚合的观点类问题和这些问题所对应的观点数据,使得每个搜索结果不再是单一内容,能够基本满足用户真正的搜索意图,因此,能够避免现有技术中由于用户通过应用反复进行搜索而导致的增加应用与搜索引擎之间的数据交互的问题,从而降低了搜索引擎的处理负担。
    另外,采用本发明提供的技术方案,由于原始的资源库中的资源不再都是相互独立的单一内容,而是包含了经过聚合的观点类问题和这些问题所对应的观点数据,使得每个搜索结果不再是单一内容,能够基本满足用户真正 的搜索意图,因此,能够有效提高搜索结果的有效性。
    另外,采用本发明提供的技术方案,由于原始的资源库中的资源不再都是相互独立的单一内容,而是包含了经过聚合的观点类问题和这些问题所对应的观点数据,使得每个搜索结果不再是单一内容,能够基本满足用户真正的搜索意图,因此,能够有效提高搜索的效率。
    另外,采用本发明提供的技术方案,通过以结构化形式,输出搜索结果即所述目标聚合问题所对应的所述观点数据,能够使得搜索结果的展现效果具有重点突出且内容清晰的特点,从而有效地提升了用户体验。
    所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
    在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
    所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
    另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
    上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机 可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
    最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

    关 键  词:
    搜索 方法 装置
      专利查询网所有文档均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    0条评论

    还可以输入200字符

    暂无评论,赶快抢占沙发吧。

    关于本文
    本文标题:搜索方法及装置.pdf
    链接地址:https://www.zhuanlichaxun.net/p-2239816.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
    经营许可证编号:粤ICP备2021068784号-1