书签 分享 收藏 举报 版权申诉 / 27

查询词分类方法和装置.pdf

  • 上传人:e2
  • 文档编号:1896810
  • 上传时间:2018-07-23
  • 格式:PDF
  • 页数:27
  • 大小:2.39MB
  • 摘要
    申请专利号:

    CN201310392966.X

    申请日:

    2013.09.02

    公开号:

    CN104424296A

    公开日:

    2015.03.18

    当前法律状态:

    实审

    有效性:

    审中

    法律详情:

    实质审查的生效IPC(主分类):G06F17/30申请日:20130902|||公开

    IPC分类号:

    G06F17/30

    主分类号:

    G06F17/30

    申请人:

    阿里巴巴集团控股有限公司

    发明人:

    丘鹏; 史可可

    地址:

    英属开曼群岛大开曼资本大厦一座四层847号邮箱

    优先权:

    专利代理机构:

    北京润泽恒知识产权代理有限公司11319

    代理人:

    兰淑铎

    PDF完整版下载: PDF下载
    内容摘要

    本发明提供了一种查询词分类方法和装置,其中,查询词分类方法包括:获取输入的查询词,生成所述查询词对应的叶子行业类目分布向量,其中,所述叶子行业类目分布向量包含了所述查询词对应的至少一个叶子节点的行业类目,各级节点的各个行业类目均对应一个类目词向量,每个所述类目词向量中包括多个类目词;根据所述查询词对应的各个叶子节点的行业类目的类目词向量,确定所述查询词所属的叶子节点的行业类目;根据确定的所述叶子节点的行业类目,按照预先设置的各级行业类目映射关系,确定所述查询词所在的行业类目。通过本发明,使得行业查询结果更为精准,查询效率也更高。

    权利要求书

    权利要求书
    1.  一种查询词分类方法,其特征在于,包括:
    获取输入的查询词,生成所述查询词对应的叶子行业类目分布向量,其中,所述叶子行业类目分布向量包含了所述查询词对应的至少一个叶子节点的行业类目,各级节点的各个行业类目均对应一个类目词向量,每个所述类目词向量中包括多个类目词;
    根据所述查询词对应的各个叶子节点的行业类目的类目词向量,确定所述查询词所属的叶子节点的行业类目;
    根据确定的所述叶子节点的行业类目,按照预先设置的各级行业类目映射关系,确定所述查询词所在的行业类目。

    2.  根据权利要求1所述的方法,其特征在于,所述每个类目词向量中包括的每个类目词均设置有权重;
    在所述根据确定的所述叶子节点的行业类目,按照预先设置的各级行业类目映射关系,确定所述查询词所在的行业类目的步骤之后,还包括:
    判断所述查询词所在的行业类目是否满足设定标准;
    若满足,则将所述查询词分类到确定的所述行业类目;若不满足,则使用第一识别规则和/或第二识别规则确定所述查询词所在的行业类目,其中,所述第一识别规则用于根据除所述叶子行业类目分布向量中的叶子节点的行业类目外的、其它叶子节点的行业类目,确定所述查询词所在的行业类目;所述第二识别规则用于根据所述查询词在各个行业类目中的权重,确定所述查询词所在的行业类目。

    3.  根据权利要求2所述的方法,其特征在于,所述使用第一识别规则和/或第二识别规则确定所述查询词所在的行业类目的步骤包括:
    根据所述查询词、和除所述叶子行业类目分布向量中的叶子节点的行业类目外的、其它叶子节点的行业类目的类目词向量,确定所述查询词所在的行业类目;
    和/或,
    根据各个行业类目对应的类目词向量,自根节点的行业类目至叶子节点的行业类目,逐级确定所述查询词在各个行业类目中的权重是否大于或等于 第一设定阈值,将大于或等于所述设定阈值的权重对应的行业类目确定为所述查询词所在的行业类目。

    4.  根据权利要求2或3所述的方法,其特征在于,所述根据所述查询词对应的各个叶子节点的行业类目的类目词向量,确定所述查询词所属的叶子节点的行业类目的步骤包括:
    对所述查询词进行预处理,生成至少一个查询关键词;
    使用所述至少一个查询关键词匹配所述各个叶子节点的行业类目的类目词向量;
    根据匹配成功的所述各个叶子节点的行业类目的类目词向量的权重,确定所述各个叶子节点的行业类目对应于所述查询词的权重;
    将权重最高的所述叶子节点的行业类目确定为所述查询词所属的叶子节点的行业类目。

    5.  根据权利要求4所述的方法,其特征在于,所述根据确定的所述叶子节点的行业类目,按照预先设置的各级行业类目映射关系,确定所述查询词所在的行业类目的步骤包括:
    根据所述预先设置的各级行业类目映射关系,确定所述叶子节点的行业类目对应的上一级行业类目;
    获取所述叶子节点的行业类目对应的上一级行业类目对应于所述查询词的权重;
    判断所述上一级行业类目对应于所述查询词的权重是否超过第二设定阈值的权重;
    若是,则将权重超过所述第二设定阈值的上一级行业类目确定为所述查询词所在的行业类目;若否,则继续向上查找,直至查找到权重超过所述第二设定阈值的行业类目,或者,直至根节点的行业类目。

    6.  根据权利要求1所述的方法,其特征在于,所述查询词与所述叶子节点的行业类目的对应关系通过以下方式生成:
    获取用户的搜索点击信息,其中,所述搜索点击信息包括:用户输入的查询词信息、和用户根据查询结果点击的商品信息;
    根据所述搜索点击信息,以及商品与商品所属类目的对应关系,获取所述查询词与所述叶子节点的行业类目的对应关系。

    7.  根据权利要求6所述的方法,其特征在于,
    所述获取用户的搜索点击信息的步骤包括:获取用户搜索点击日志,其中,所述用户搜索点击日志中包含了多个所述用户的搜索点击信息,所述搜索点击信息包括:用户输入的查询词信息、用户根据查询结果点击的商品信息、和商品所属类目信息;
    所述根据所述搜索点击信息,以及商品与商品所属类目的对应关系,获取所述查询词与所述叶子节点的行业类目的对应关系的步骤包括:对所述用户搜索点击日志中的搜索点击信息进行统计分析,获取所述查询词信息与所述商品信息之间的对应关系,以及所述商品信息与所述商品所属类目信息之间的对应关系;根据所述查询词信息与所述商品信息之间的对应关系,以及所述商品信息与所述商品所属类目信息之间的对应关系,生成所述查询词与所述叶子节点的行业类目的对应关系。

    8.  根据权利要求6所述的方法,其特征在于,所述根据所述搜索点击信息,以及商品与商品所属类目的对应关系,获取所述查询词与所述叶子节点的行业类目的对应关系的步骤包括:
    从商品信息标题中获取商品信息和商品所属类目信息,确定所述商品信息和所述商品所属类目信息的对应关系;根据所述搜索点击信息,以及所述商品信息和所述商品所属类目信息的对应关系,获取所述查询词与所述叶子节点的行业类目的对应关系。

    9.  根据权利要求6至8任一项所述的方法,其特征在于,所述获取输入的查询词,生成所述查询词对应的叶子行业类目分布向量的步骤包括:
    获取输入的查询词,根据所述查询词与所述叶子节点的行业类目的对应关系,确定所述查询词对应的、满足设定规则的至少一个叶子节点的行业类目;
    使用确定的所述叶子节点的行业类目,生成所述查询词对应的叶子行业类目分布向量。

    10.  根据权利要求2所述的方法,其特征在于,还包括:
    根据所述查询词与各个类目词向量中的类目词的匹配结果,对照人工标注的训练数据,对所述各个类目词向量中的类目词的权重进行调整。

    11.  根据权利要求2所述的方法,其特征在于,所述判断所述查询词所在的行业类目是否满足设定标准的步骤包括:
    判断所述查询词所在的行业类目的召回数是否满足第三设定阈值,和/或,判断所述查询词所在的行业类目的点击数是否满足第四设定阈值。

    12.  一种查询词分类装置,其特征在于,包括:
    第一生成模块,用于获取输入的查询词,生成所述查询词对应的叶子行业类目分布向量,其中,所述叶子行业类目分布向量包含了所述查询词对应的至少一个叶子节点的行业类目,各级节点的各个行业类目均对应一个类目词向量,每个所述类目词向量中包括多个类目词;
    确定模块,用于根据所述查询词对应的各个叶子节点的行业类目的类目词向量,确定所述查询词所属的叶子节点的行业类目;
    第一分类模块,用于根据确定的所述叶子节点的行业类目,按照预先设置的各级行业类目映射关系,确定所述查询词所在的行业类目。

    13.  根据权利要求12所述的装置,其特征在于,所述每个类目词向量中包括的每个类目词均设置有权重;
    所述装置还包括:第二分类模块,用于在所述第一分类模块根据确定的所述叶子节点的行业类目,按照预先设置的各级行业类目映射关系,确定所述查询词所在的行业类目之后,判断所述查询词所在的行业类目是否满足设定标准;若满足,则将所述查询词分类到确定的所述行业类目;若不满足,则使用第一识别规则和/或第二识别规则确定所述查询词所在的行业类目,其中,所述第一识别规则用于根据除所述叶子行业类目分布向量中的叶子节点的行业类目外的、其它叶子节点的行业类目,确定所述查询词所在的行业类目;所述第二识别规则用于根据所述查询词在各个行业类目中的权重,确定所述查询词所在的行业类目。

    14.  根据权利要求13所述的装置,其特征在于,所述第二分类模块在 使用第一识别规则和/或第二识别规则确定所述查询词所在的行业类目时:
    根据所述查询词、和除所述叶子行业类目分布向量中的叶子节点的行业类目外的、其它叶子节点的行业类目的类目词向量,确定所述查询词所在的行业类目;
    和/或,
    根据各个行业类目对应的类目词向量,自根节点的行业类目至叶子节点的行业类目,逐级确定所述查询词在各个行业类目中的权重是否大于或等于第一设定阈值,将大于或等于所述设定阈值的权重对应的行业类目确定为所述查询词所在的行业类目。

    15.  根据权利要求13或14所述的装置,其特征在于,所述确定模块包括:
    生成模块,用于对所述查询词进行预处理,生成至少一个查询关键词;
    匹配模块,用于使用所述至少一个查询关键词匹配所述各个叶子节点的行业类目的类目词向量;
    权重模块,用于根据匹配成功的所述各个叶子节点的行业类目的类目词向量的权重,确定所述各个叶子节点的行业类目对应于所述查询词的权重;
    叶子节点确定模块,用于将权重最高的所述叶子节点的行业类目确定为所述查询词所属的叶子节点的行业类目。

    16.  根据权利要求15所述的装置,其特征在于,所述第一分类模块包括:
    上级类目模块,用于根据所述预先设置的各级行业类目映射关系,确定所述叶子节点的行业类目对应的上一级行业类目;
    上级权重模块,用于获取所述叶子节点的行业类目对应的上一级行业类目对应于所述查询词的权重;
    判断模块,用于判断所述上一级行业类目对应于所述查询词的权重是否超过第二设定阈值的权重;
    执行模块,用于若所述判断模块的判断结果为是,则将权重超过所述第二设定阈值的上一级行业类目确定为所述查询词所在的行业类目;若所述判 断模块的判断结果为否,则继续向上查找,直至查找到权重超过所述第二设定阈值的行业类目,或者,直至根节点的行业类目。

    17.  根据权利要求12所述的装置,其特征在于,还包括:
    对应关系生成模块,用于生成所述查询词与所述叶子节点的行业类目的对应关系,包括:获取用户的搜索点击信息,其中,所述搜索点击信息包括:用户输入的查询词信息、和用户根据查询结果点击的商品信息;根据所述搜索点击信息,以及商品与商品所属类目的对应关系,获取所述查询词与所述叶子节点的行业类目的对应关系。

    18.  根据权利要求17所述的装置,其特征在于,
    所述对应关系生成模块在获取用户的搜索点击信息时:获取用户搜索点击日志,其中,所述用户搜索点击日志中包含了多个所述用户的搜索点击信息,所述搜索点击信息包括:用户输入的查询词信息、用户根据查询结果点击的商品信息、和商品所属类目信息;所述对应关系生成模块在根据所述搜索点击信息,以及商品与商品所属类目的对应关系,获取所述查询词与所述叶子节点的行业类目的对应关系时:对所述用户搜索点击日志中的搜索点击信息进行统计分析,获取所述查询词信息与所述商品信息之间的对应关系,以及所述商品信息与所述商品所属类目信息之间的对应关系;根据所述查询词信息与所述商品信息之间的对应关系,以及所述商品信息与所述商品所属类目信息之间的对应关系,生成所述查询词与所述叶子节点的行业类目的对应关系。

    19.  根据权利要求17所述的装置,其特征在于,所述对应关系生成模块在根据所述搜索点击信息,以及商品与商品所属类目的对应关系,获取所述查询词与所述叶子节点的行业类目的对应关系时:
    从商品信息标题中获取商品信息和商品所属类目信息,确定所述商品信息和所述商品所属类目信息的对应关系;根据所述搜索点击信息,以及所述商品信息和所述商品所属类目信息的对应关系,获取所述查询词与所述叶子节点的行业类目的对应关系。

    20.  根据权利要求13所述的装置,其特征在于,所述第二分类模块在 判断所述查询词所在的行业类目是否满足设定标准时:判断所述查询词所在的行业类目的召回数是否满足第三设定阈值,和/或,判断所述查询词所在的行业类目的点击数是否满足第四设定阈值。

    说明书

    说明书查询词分类方法和装置
    技术领域
    本发明涉及计算机技术领域,特别是涉及一种查询词分类方法和装置。
    背景技术
    电子商务是利用计算机技术、网络技术和远程通信技术,实现电子化、数字化和网络化的整个商务过程。随着电子商务的发展,越来越多的电子商务专业化网站应运而生。在如今的电子商务专业化网站中,如何进行行业化垂直细分是B2B(Business To Business)市场的工作重点。
    然而,一方面,用户出于习惯,往往不会主动地链接到行业市场页面,导致行业市场页面因用户流量小,业务发展不起来,无法进行有效地行业搜索;另一方面,现有使用的搜索引擎技术,在用户输入查询词时,只会返回该查询词对应的直接结果,而不会进行行业划分,如,用户输入“酒精”时,则直接返回与“酒精”相关的内容,而不会根据“酒精”这个查询词做相关的行业划分处理,从而无法区别出用户想要查询的是医用酒精、食用酒精,还是工业用酒精,需要用户进行进一步地区分和准确查询,导致查询不准确,查询效率低。
    可见,现有技术无法根据用户的查询词确定用户需要查询的行业,导致无法进行有效地行业查询,查询不够准确,查询效率低。
    发明内容
    本发明提供了一种查询词分类方法和装置,以解决现有技术无法根据用户的查询词确定用户需要查询的行业,导致无法进行有效地行业查询,查询不够准确,查询效率低的问题。
    为了解决上述问题,本发明公开了一种查询词分类方法,包括:获取输入的查询词,生成所述查询词对应的叶子行业类目分布向量,其中,所述叶子行业类目分布向量包含了所述查询词对应的至少一个叶子节点的行业类目,各级节点的各个行业类目均对应一个类目词向量,每个所述类目词向量 中包括多个类目词;根据所述查询词对应的各个叶子节点的行业类目的类目词向量,确定所述查询词所属的叶子节点的行业类目;根据确定的所述叶子节点的行业类目,按照预先设置的各级行业类目映射关系,确定所述查询词所在的行业类目。
    为了解决上述问题,本发明还公开了一种查询词分类装置,包括:第一生成模块,用于获取输入的查询词,生成所述查询词对应的叶子行业类目分布向量,其中,所述叶子行业类目分布向量包含了所述查询词对应的至少一个叶子节点的行业类目,各级节点的各个行业类目均对应一个类目词向量,每个所述类目词向量中包括多个类目词;确定模块,用于根据所述查询词对应的各个叶子节点的行业类目的类目词向量,确定所述查询词所属的叶子节点的行业类目;第一分类模块,用于根据确定的所述叶子节点的行业类目,按照预先设置的各级行业类目映射关系,确定所述查询词所在的行业类目。
    与现有技术相比,本发明具有以下优点:
    本发明通过生成与查询词对应的叶子行业类目分布向量,该叶子行业类目分布向量中包括了一个或多个查询词对应的叶子节点的行业类目,各级各个行业类目都具有包括多个类目词的类目词向量;根据查询词与叶子节点的行业类目的类目词向量的关系,先确定查询词所属的准确的叶子节点的行业类目;进而根据预先设置的各级行业类目映射关系,以确定查询词所在的行业类目。其中,各级行业类目映射关系从高到低分为多个层次,最底层的是叶子节点的行业类目,最顶层的则是根节点的行业类目,叶子节点的行业类目和根节点的行业类目之间可能存在一或多个中间层次节点的行业类目,也可能不存在这样的中间节点的行业类目。在准确确定了查询词应当所属的叶子节点的行业类目后,根据该行业类目映射关系,可以采用任意适当方式确定查询词所在的行业类目;进而,将查询词分类到确定的相应行业类目。通过本发明,可以根据查询词确定用户需要查询的行业,进而给出该行业内对应于查询词的信息供用户进行准确的行业内查询,实现了有效地行业查询,并且也提高了用户的查询效率和搜索体验;同时,从叶子节点既开始准确定位查询词的行业类目,使得行业查询结果更为精准,查询效率也更高。
    附图说明
    图1是根据本发明实施例一的一种查询词分类方法的步骤流程图;
    图2是根据本发明实施例二的一种查询词分类方法的步骤流程图;
    图3是根据本发明实施例三的一种查询词分类方法的步骤流程图;
    图4是图3所示实施例中的一种生成查询词与行业叶子类目对应关系的流程示意图;
    图5是图3所示实施例中的一种各级行业类目映射关系的示意图;
    图6是图3所示实施例的一种具体实现流程图;
    图7是根据本发明实施例四的一种查询词分类装置的结构框图;
    图8是根据本发明实施例五的一种使用查询词分类装置进行行业化识别的系统架构示意图;
    图9是图8所示实施例中的一种行业化搜索套头示意图。
    具体实施方式
    为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
    实施例一
    参照图1,示出了根据本发明实施例一的一种查询词分类方法的步骤流程图。
    本实施例的查询词分类方法包括以下步骤:
    步骤S102:获取输入的查询词,生成查询词对应的叶子行业类目分布向量。
    其中,查询词对应的叶子行业类目分布向量包含了该查询词对应的至少一个叶子节点的行业类目。行业类目可能有多级节点,每级节点可能有多个行业类目,各级节点的各个行业类目均对应一个类目词向量,每个类目词向量中包括多个类目词。
    多级行业类目中,当多级行业类目以树形结构展现时,该树形结构的叶子节点为最低级的节点,该级节点的行业类目即为叶子节点的行业类目。一个查询词可能对应一个叶子节点的行业类目,也可能对应多个叶子节点的行 业类目,该一个或多个叶子节点的行业类目组成查询词对应的叶子行业类目分布向量。
    在确定查询词对应的叶子节点的行业类目时,可以由本领域技术人员根据实际情况,参照现有查询词处理方式,对用户输入的查询词进行处理并对应到相应的叶子节点的行业类目。当然,如果用户输入的查询词比较规范,则可以直接对应到相应的叶子节点的行业类目,而无须对查询词进行处理。
    步骤S104:根据查询词对应的各个叶子节点的行业类目的类目词向量,确定查询词所属的叶子节点的行业类目。
    如前所述,一个查询词可能对应多个叶子节点的行业类目,将查询词准确地对应到一个或设定的少数几个叶子节点的行业类目上,一方面增加了行业查询和分类的准确性,另一方面也可以因为后续查询和分类数据量的减少而提高行业查询和分类的效率。
    本实施例中,将查询词与各个叶子节点的行业类目的类目词向量中的类目词进行相应的匹配和处理操作,可以准确确定查询词应当属于的叶子节点的行业类目。如根据查询词与类目词向量的匹配度或相似度确定查询词所属的叶子节点的行业类目,或者,对类目词向量中的类目词设置权重,通过与查询词匹配的类目词的权重,确定查询词所属的叶子节点的行业类目等等。
    步骤S106:根据确定的叶子节点的行业类目,按照预先设置的各级行业类目映射关系,确定查询词所在的行业类目。
    行业类目可能具有多级,每级之间都有对应关系,各级之间的对应关系形成了各级行业类目的映射关系。
    对于叶子行业类目分布向量中的每一个叶子节点的行业类目,其都有对应的一级或多级的上级行业类目。在确定了查询词所属的叶子节点的行业类目后,可以根据该叶子节点的行业类目对应的上级行业类目,确定查询词所在的行业类目,如当确定了查询词所属的叶子节点的行业类目为“连衣裙”后,“连衣裙”这一行业类目对应的直接上级行业类目为“女装”,而“女装”这一行业类目的上级行业类目为“服装”。因此,当用户输入的查询词为“白色连衣裙”时,若确定其所属的叶子节点的行业类目应当为“连衣裙”时, 则一种可能的方式如默认对应到根节点的行业类目,则可确定“白色连衣裙”所在的行业类目为“服装”。当然,不限于此,在实际应用中,本领域技术人员还可以根据实际情况制定适当的规则,以确定查询词所在的行业类目,如,通过设定与性别有关的规则,确定“白色连衣裙”所在的行业类目为“女装”等。
    通过本实施例,生成与查询词对应的叶子行业类目分布向量,该叶子行业类目分布向量中包括了一个或多个查询词对应的叶子节点的行业类目,各级各个行业类目都具有包括多个类目词的类目词向量;根据查询词与叶子节点的行业类目的类目词向量的关系,先确定查询词所属的准确的叶子节点的行业类目;进而根据预先设置的各级行业类目映射关系,以确定查询词所在的行业类目。其中,各级行业类目映射关系从高到低分为多个层次,最底层的是叶子节点的行业类目,最顶层的则是根节点的行业类目,叶子节点的行业类目和根节点的行业类目之间可能存在一或多个中间层次节点的行业类目,也可能不存在这样的中间节点的行业类目。在准确确定了查询词应当所属的叶子节点的行业类目后,根据该行业类目映射关系,可以采用任意适当方式确定查询词所在的行业类目;进而,将查询词分类到确定的相应行业类目。通过本实施例,可以根据查询词确定用户需要查询的行业,进而给出该行业内对应于查询词的信息供用户进行准确的行业内查询,实现了有效地行业查询,并且也提高了用户的查询效率和搜索体验;同时,从叶子节点既开始准确定位查询词的行业类目,使得行业查询结果更为精准,查询效率也更高。
    实施例二
    参照图2,示出了根据本发明实施例二的一种查询词分类方法的步骤流程图。
    本实施例的查询词分类方法包括以下步骤:
    步骤S202:生成查询词与叶子节点的行业类目的对应关系。
    查询词与叶子节点的行业类目的对应关系可以通过以下方式生成:获取用户的搜索点击信息,其中,搜索点击信息包括:用户输入的查询词信息、 和用户根据查询结果点击的商品信息;根据搜索点击信息,以及商品与商品所属类目的对应关系,获取查询词与行业叶子类目的对应关系。
    在具体实现时,可以采用以下方式至少之一,生成查询词与叶子节点的行业类目的对应关系。
    方式一,获取用户搜索点击日志,其中,用户搜索点击日志中包含了多个用户的搜索点击信息,该搜索点击信息包括:用户输入的查询词信息、用户根据查询结果点击的商品信息、和商品所属类目信息;对用户搜索点击日志中的搜索点击信息进行统计分析,获取查询词信息与商品信息之间的对应关系,以及商品信息与商品所属类目信息之间的对应关系;根据查询词信息与商品信息之间的对应关系,以及商品信息与商品所属类目信息之间的对应关系,生成查询词与行业叶子类目的对应关系。
    方式二,获取用户的搜索点击信息,其中,搜索点击信息包括:用户输入的查询词信息、和用户根据查询结果点击的商品信息;从商品信息标题中获取商品信息和商品所属类目信息,确定商品信息和商品所属类目信息的对应关系;根据搜索点击信息,以及商品信息和商品所属类目信息的对应关系,获取查询词与行业叶子类目的对应关系。
    需要说明的是,查询词与叶子节点的行业类目的对应关系可以由本发明实施者实现,也可以由第三方提供,如通过第三方生成工具生成,或者,通过访问第三方存储数据实现。
    步骤S204:获取输入的查询词,根据查询词与叶子节点的行业类目的对应关系,确定查询词对应的、满足设定规则的至少一个叶子节点的行业类目;使用确定的叶子节点的行业类目,生成查询词对应的叶子行业类目分布向量。
    其中,设定规则可以由本领域技术人员根据实际情况适当设置,以从对应于查询词的多个叶子节点的行业类目中选择一个或多个或全部的行业类目。
    可见,叶子行业类目分布向量中包含了查询词对应的至少一个叶子节点的行业类目,而对于所有级别节点和所有行业类目来说,各级节点的各个行 业类目均对应有一个类目词向量,每个类目词向量中包括多个类目词。优选地,每个类目词向量中的每个类目词均可设置权重。
    如,当用户输入“韩版雪纺裙”时,系统根据建立的查询词与叶子节点的行业类目的对应关系,将其对应到“连衣裙”、“库存女装”、“公主裙”和“日韩女装”四个叶子节点的行业类目。每个行业类目对应有一个类目词向量,如,“连衣裙”类目下有“连衣裙”“裙子”“雪纺裙”“韩版”等类目词组成对应于“连衣裙”的类目词向量;“库存女装”类目下有“库存女装”、“女装”、“裙子”、“连衣裙”、“雪纺裙”、“女上衣”、“女裤”、“女套装”等类目词组成对应于“库存女装”的类目词向量;“公主裙”类目下有“公主裙”、“连衣裙”、“裙子”、“雪纺裙”等类目词组成对应于“公主裙”的类目词向量;“日韩女装”类目下有“日韩女装”、“裙子”、“连衣裙”、“雪纺裙”等类目词组成对应于“日韩女装”的类目词向量,这些各个行业类目对应的类目词向量通过大数据统计方法建立和生成。由上,与“韩版雪纺裙”对应的叶子节点的行业类目分布向量可以为{连衣裙、库存女装、公主裙、日韩女装}。
    优选地,类目词向量中的各个类目词还可以设置权重,如{连衣裙,0.5;裙子,0.3;雪纺裙,0.6;韩版,0.2}等。通过设置权重,可以使行业类目更有针对性和倾向性,更符合用户通常的习惯,从而能够更快地确定查询词对应的行业类目。
    另外,查询词可以是用户使用搜索引擎时,在搜索框内填写表明自己意图的词条。但需要说明的是,不限于搜索框输入的方式,其它输入方式,如点击相应的条目、链接等,均包括在本发明“输入”的范围内。步骤S206:根据查询词对应的各个叶子节点的行业类目的类目词向量,确定查询词所属的叶子节点的行业类目。
    一种方式是,对查询词进行预处理,将其预处理为至少一个查询关键词,然后,将这些查询关键词与行业类目的类目词向量中的类目词匹配,根据匹配程度确定查询词所属的叶子节点的行业类目。如,将“韩版雪纺裙”预处理为“韩版”和“雪纺裙”两个查询关键词,经匹配后发现,“韩版”和“雪 纺裙”与“连衣裙”对应的类目词向量中的类目词匹配度最高,即将“连衣裙”确定为“韩版雪纺裙”所属的叶子节点的行业类目。
    优选地,在类目词具有权重时,一种可行方式是:对查询词进行预处理,生成至少一个查询关键词;使用所述至少一个查询关键词匹配各个叶子节点的行业类目的类目词向量;根据匹配成功的各个叶子节点的行业类目的类目词向量的权重,确定各个叶子节点的行业类目对应于该查询词的权重;将权重最高的叶子节点的行业类目确定为查询词所属的叶子节点的行业类目。仍以“韩版雪纺裙”为例,假设:“连衣裙”对应的类目词向量的各类目词权重为{连衣裙,0.8;裙子,0.3;雪纺裙,0.6;韩版,0.2};“库存女装”的类目词向量的各类目词权重为{库存女装,0.9;女装,0.8;裙子,0.6;连衣裙,0.6;雪纺裙,0.3;女上衣,0.4;女裤,0.2;女套装,0.3};“公主裙”的类目词向量的各类目词权重为{公主裙,0.9;连衣裙,0.7;裙子,0.5;雪纺裙,0.4};“日韩女装”的类目词向量的各类目词权重为{日韩女装,0.9;裙子,0.8;连衣裙,0.8;雪纺裙,0.6}。以最简单的权重相加为例,将“韩版雪纺裙”预处理为“韩版”和“雪纺裙”后,与各个叶子节点的行业类目的类目词向量进行匹配,结果为:“连衣裙”{雪纺裙,0.6;韩版,0.2},“库存女装”{雪纺裙,0.3},“公主裙”{雪纺裙,0.4},“日韩女装”{雪纺裙,0.6},则经过加权后,“连衣裙”对应于“韩版雪纺裙”的权重为0.8,“库存女装”对应于“韩版雪纺裙”的权重为0.3,“公主裙”对应于“韩版雪纺裙”的权重为0.4,“日韩女装”对应于“韩版雪纺裙”的权重为0.6。经过加权比较,可以将权重最高的行业类目即“连衣裙”确定为“韩版雪纺裙”所属的叶子节点的行业类目。需要说明的是,以上对权重的处理仅为简单的示例性说明,在实际应用中,本领域技术人员可以根据实际需要对获得的各类目词的权重进行各种形式的权重处理,以满足需求,本发明对此不作限制。
    步骤S208:根据确定的叶子节点的行业类目,按照预先设置的各级行业类目映射关系,确定查询词所在的行业类目。
    一种最简单的方式是,沿着该叶子节点的行业类目逐级向上,直到满足设定条件的行业类目。
    一种较优选的方式是,根据预先设置的各级行业类目映射关系,确定叶子节点的行业类目对应的上一级行业类目;获取叶子节点的行业类目对应的上一级行业类目对应于查询词的权重;判断上一级行业类目对应于查询词的权重是否超过第二设定阈值的权重;若是,则将权重超过第二设定阈值的上一级行业类目确定为查询词所在的行业类目;若否,则继续向上查找,直至查找到权重超过第二设定阈值的行业类目,或者,直至根节点的行业类目。其中,获取上级行业类目对应于查询词的权重的方式可以采用与步骤S206中确定叶子节点的行业类目对应于查询词的权重相同的方式;第二设定阈值由本领域技术人员根据实际需要适当设定,本发明对此不作限制。
    再一种方式为,根据查询词与各个行业类目的类目名的匹配程度,进行绝对值加权;根据绝对值加权的结果,和预先设置的各级行业类目映射关系,确定查询词所在的行业类目。
    例如,用户输入的查询词为“工业酒精”,则可能会返回相关类目“工业酒精”、“医用酒精”、“食用酒精”。而原来分类的特征主要是查询词与类目的统计映射关系,以及查询词与类目的文本相关性(查询词与类目的文本相关性是指首先对类目下的所有商品用户填写的标题\属性进行中文分词及词性标注,统计得到类目到中文分词Term向量的映射。一种文本相关性的计算方法是计算查询词的中文分词向量与类目下中文分词向量之间的余弦相似度。),而没有考虑到查询词与类目名的匹配程度。如:“工业酒精”查询词是与“工业酒精”类目完全匹配的,而“医用酒精”、“食用酒精”只有部分匹配,因此,可以对“工业酒精”类目增加较多的权值,而部分匹配的“医用酒精”、“食用酒精”增加适当少一些的权值。
    一种增加权值的公式如下:
    ContextWeight=FactorContext*2*/SameTW(SumQW+SumCW)
    其中,SameTW表示查询词与类目名分词的相同部分的TermWeight权重和;SumQW表示查询词分词TermWeight总权重和;SumCW表示类目名分词TermWeight总权重和;FactorContext表示查询词与类目名匹配的绝对值的权重,该参数会根据查询词与类目的匹配程度,被参数调节系统最优化 算法效果过程修改。
    另一种方式为,获取查询词的中文分词标注信息;根据预先设置的各级行业类目映射关系,和查询词的中文分词标注信息,按照设定规则确定查询词所在的行业类目。
    例如,本实施例中的系统使用了基于电子商务中文词库的分词工具AliWS,以及词性标注工具TermWeight。AliWS中文分词工具可以将查询词、商品的标题分词,比如查询词“雪纺连衣裙”可以分成“雪纺/连衣裙“。TermWeight可以对分词词性标注,依照上一个例子,“雪纺(修饰词)/连衣裙(产品词)”。通过中文分词及词性标注,可以分析出用户的主要意图,比如可以识别出查询词所带有的产品词,主要的修饰词,以及地域区划词、产品型号等信息。对商品标题、属性等商品信息分词,可以优化算法模型,提高用户意图到想要的商品的匹配及精准度;同时TermWeight会对各个分词的重要程度赋权,比如“雪纺连衣裙”中,“连衣裙”是产品核心词,表明用户搜索商品的主要意图,更为重要,则设定”连衣裙“权重为150(此为假设,实际权重大小根据项目效果需求变化),“雪纺”权重为60。
    再一种方式为,计算行业类目的熵值;根据熵值,以及预先设置的各级行业类目映射关系,确定查询词所在的行业类目。
    熵值为各级行业类目的信息熵,不同的查询词有不同的类目覆盖范围。例如:“服装”对应行业类目的熵值>“男装”对应行业类目的熵值>“男式牛仔裤”对应行业类目的熵值。因此,可以根据各层行业类目的熵值,作为查询词识别到第几个层级的特征。
    另外,需要说明的是,各级行业类目映射关系可以由本发明实施者实现,也可以由第三方提供,如通过第三方生成工具生成,或者,通过访问第三方存储数据实现。
    当经过上述步骤S202-208,确定的查询词所在的行业类目满足需求时,则可以将查询词直接分类到确定的行业类目。而若不能满足需求时,比如行业类目的权重小于第二设定阈值,则可以采用下述补充方案继续进行查询词所在行业类目的确定。
    步骤S210:判断确定的查询词所在的行业类目是否满足设定标准,若满足,则将查询词分类到确定的行业类目,执行步骤S214;若不满足,则执行步骤S212。
    其中,设定标准由本领域技术人员根据实际情况适当设置,本发明对此不作限制。
    优选地,可以通过判断查询词所在的行业类目的召回数是否满足第三设定阈值,和/或,判断查询词所在的行业类目的点击数是否满足第四设定阈值,来判断确定的查询词所在的行业类目是否满足设定标准。其中,第三设定阈值和第四设定阈值可以由本领域技术人员根据实际情况适当设置,本发明对此不作限制。
    步骤S212:使用第一识别规则和/或第二识别规则确定查询词所在的行业类目,执行步骤S214。
    其中,第一识别规则用于根据除叶子行业类目分布向量中的叶子节点的行业类目外的、其它叶子节点的行业类目,确定查询词所在的行业类目;第二识别规则用于根据查询词在各个行业类目中的权重,确定查询词所在的行业类目。
    优选地,使用第一识别规则确定查询词所在的行业类目时,可以根据查询词、和除叶子行业类目分布向量中的叶子节点的行业类目外的、其它叶子节点的行业类目的类目词向量,确定查询词所在的行业类目。
    仍以“韩版雪纺裙”为例,假设除{连衣裙、库存女装、公主裙、日韩女装}外,同时,“外贸裙”类目中“韩版”、“雪纺裙”类目词的权重较大,但是因为某些原因未被系统先中,未出现在前面的叶子行业类目向量中。当确定的最终的行业类目不能满足需求时,则可以使用第一识别规则,如设定一个识别阈值,以帮助“外贸裙”类目在查询词“韩版雪纺裙”的叶子行业类目向量中召回。进而,以“外贸裙”为确定的叶子节点的行业类目,根据预先设置的各级行业类目映射关系,最终确定查询词所在的行业类目。
    优选地,使用第二识别规则确定查询词所在的行业类目时,可以根据各个行业类目对应的类目词向量,自根节点的行业类目至叶子节点的行业类目, 逐级确定查询词在各个行业类目中的权重是否大于或等于第一设定阈值,将大于或等于设定阈值的权重对应的行业类目确定为查询词所在的行业类目。
    仍以“韩版雪纺裙”为例,在使用第二识别规则时,先建立行业类目下词的关系,比如二级行业类目“女装”下“韩版”、“雪纺裙”的权重较二级行业“男装”、“童装”大。使用贝叶斯分类器,确定查询词为“韩版雪纺裙”时,分别识别到“女装”、“男装”、“童装”的概率。设定一个识别阈值,使得查询词与行业类目的概率大于这个阈值时,构建一座“桥”,认为查询词是识别到这个行业类目的,避免了自下向上时,因为点击偏置导致识别错误的问题。比如,根节点的行业类目为“服装”,根节点下的二级节点的行业类目分别为“女装”、“男装”和“童装”,使用贝叶斯分类器,确定查询词为“韩版雪纺裙”时,识别到“服装”、“女装”、“男装”、“童装”的概率分别0.6,0.9,0.2,0.3。设定识别差值为0.8,则当用户输入“韩版雪纺裙”时,自根结点向下查找,查找至概率为0.9的“女装”时,认为其满足条件,“韩版雪纺裙”所在的行业类目应当为“女装”。再比如,由于网站的女装offer比较多,网站的交易、点击数据主要集中到女装上。比如“短袖T恤”使用步骤S202-208的过程需要先识别成叶子节点和行业类目“女式短袖T恤”,再通过各级行业类目的映射关系,才能最终识别为“服装”。而通过前面搭建的查询词到行业类目的“桥”,“短袖T恤”可直接跳过叶子节点和行业类目,识别到一级行业类目“服装上”,从而避免了类目偏置问题。
    此外,在类目词设置有权重时,还可以根据查询词与各个类目词向量中的类目词的匹配结果,对照人工标注的训练数据,对各个类目词向量中的类目词的权重进行调整,以使类目词的权重更能反映实际的分类结果,进而使得后续查询词分类更为准确。
    步骤S214:使用设定的行业化搜索套头或者设定的行业化搜索结果展示模板,显示查询词所在的行业类目下的查询结果。
    本步骤为可选步骤,在某些应用中并不需要显示查询结果。
    但通过设定的行业化搜索套头或者设定的行业化搜索结果展示模板显示查询结果,在提供用户准确的行业内查询的同时,也促进行业市场页面的 发展。
    通过本实施例,根据查询词确定用户需要查询的行业,实现了有效地行业查询,并且也提高了用户的查询效率和搜索体验;同时,从叶子节点既开始准确定位查询词的行业类目,使得行业查询结果更为精准,查询效率也更高
    实施例三
    参照图3,示出了根据本发明实施例三的一种查询词分类方法的步骤流程图。
    本实施例的查询词分类方法包括以下步骤:
    步骤S302:生成并保存查询词与叶子节点的行业类目的对应关系。
    一种方式是,通过用户搜索点击日志中的搜索点击信息生成并保存查询词与叶子节点的行业类目的对应关系。这种方式下,在搜索页面的前端需要有打点记录点击行为的设置,如,可以直接在点击商品信息、类目导航的URL中增加一个参数表示此为用户搜索点击。前端搜索页面可获得该页面的用户信息、查询词信息、商品信息以及商品所属类目信息。最后,将这些信息组合成格式规范的数据,保存在数据仓库中,作为用户搜索点击日志。其中,格式规范可以由本领域技术人员根据使用的数据库等存储设置适应性设置,以使信息能够正常存储到数据仓库中。对于海量数据的用户搜索点击日志,可以使用分布式计算系统来保存大规模的用户搜索点击日志数据,以确保计算任务能按时完成。
    然后,使用存储的用户搜索点击日志,将所有用户查询后点击过的OfferId(商品标识(商品信息中的一种信息))与网站的Offer(商品供应)信息表(Offer信息表中含有Offer的展示叶子类目和发布叶子类目)连接,通过Offer信息表可以获得商品标识指示的商品所属的类目,进而统计Offer表获得查询词到叶子节点的行业类目的映射关系。按照该种方式生成的映射关系也称为根据点击特征生成的映射关系。
    另一种方式是,通过用户的搜索点击信息和商品信息标题,生成并保存查询词与叶子节点的行业类目的对应关系。如,以阿里巴巴网站为例,可以 通过阿里巴巴中文分词标准系统挖掘Offer标题中产品、属性等重要词语及对应权重,建立行业类目到Term(产品、属性等)的映射关系,进而根据搜索点击信息建立查询词到行业类目的映射关系。按照该种方式生成的映射关系也称为根据文本相关性特征生成的映射关系。
    一种使用上述两种方式生成查询词与叶子节点的行业类目对应关系的流程如图4所示,包括:网站前端页面接收多个用户的搜索或点击输入后,生成搜索点击数据;然后,将该搜索点击数据保存至数据仓库;分布式计算系统从数据仓库中获取用户的搜索点击数据后,使用多个计算节点(图中示例为3个)进行处理,生成查询词分类数据,也即,查询词与叶子节点的行业类目的对应关系的数据;进而,建立字典索引线上服务,以便于后续使用和查找。
    步骤S304:生成并保存各级行业类目映射关系。
    对于电子商务的行业类目建设,可以使用一个树形结构生成并保存各级行业类目映射关系,也可以称为行业类目树。称最底层类目为叶子节点的行业类目,从上数起第几层就几级类目,一级类目是顶层类目即根节点的行业类目。一种电子商务的行业类目树如图5所示,从图5中可见,该行业类目树共三层,包括:顶层类目:“服装”;二级类目:“女装”、“男装”和“童装”;底层行业类目对应于“女装”的是:“连衣裙、女式毛衣、雪纺裙”,对应于“男装”的是“男式牛仔裤、男式衬衫”,对应于“童装”的是“童背带裤和童裙”。也即,“连衣裙、女式毛衣、雪纺裙”向上映射到“女装”,“男式牛仔裤、男式衬衫”向上映射到“男装”,“童背带裤和童裙”向上映射到“童装”;而“女装”、“男装”和“童装”均向上映射到“服装”。
    商品所属的行业类目是多层的,这份数据可以由专业的网站运营人员维护。行业类目树是稳定的,添加、删除与修改类目信息需要统一的操作管理。
    通过行业类目树,可以确定具体商品的行业类目归属行业的对应关系。其中,对于一些模糊、有争议的行业类目归属问题,可以运用基于用户在类目浏览商品时点击的商品信息的数据,统计确定出类目所归属的行业。
    另外,行业类目树中的各个类目均具有类目词向量,各个类目词向量中 的类目词均可设置权重。
    步骤S306:对查询词进行分类。
    本实施例中,查询词分类实现为通过若干特征及分类算法,获得带权重的类目分布的过程。
    一种对查询词进行分类的实现流程如图6所示,包括:
    步骤S3062:输入查询词。
    本实施例中,可以通过网站前端的WEB页面输入查询词,通过HTTP方式调用后台服务器端的相应功能模块,进行后续的查询词分类操作。如,通过HTTP方式调用部署在阿里巴巴的Query Process平台上的行业化识别算法模块实现后续的查询词分类操作。
    步骤S3064:确定与查询词匹配的类目词向量中的类目词。
    步骤S3066:生成查询词对应的叶子行业类目分布向量。
    本实施例中,点击统计结果采用“查询词->叶子行业类目分布”的方式,各叶子行业类目分布向量中各叶子节点行业类目的权重为类目词权重之和。
    步骤S3068:确定查询词所属的叶子节点的行业类目,按照行业类目树向上映射。
    步骤S30610:确定查询词所在的行业类目。
    对于查询词最后需要确定到那一级行业类目上,可以采用两种基本方式:方式一,基于在查询词中文分词标注的结果基础上,通过设定规则确定;方式二,通过各层的行业类目权重向量输入到参数调节模块,确定查询词能否在当前层置信。
    例如,根据中文词性标注的结果,调节类目、行业的权重。比如“女式T恤”中包含了性别词“女式”,因此在最后的类目、行业权重会对与查询词不相容的“男装”相关类目降权重。
    此外,还可以采用以下方式,如:
    方式三,根据查询词到行业类目的点击熵值确定,即:计算查询词对应的叶子行业类目分布向量的熵值,作为识别行业类目层级的一个特征;根据该熵值确定查询词所在的行业类目。
    方式四,根据查询词与行业类目名文本相关权重确定,即:对查询词对应的叶子行业类目分类向量进行绝对值加权,增加查询词与行业类目在名字面上的匹配度;根据加权结果确定查询词所在的行业类目。
    方式五,针对低频查询词确定所在行业类目的方式,如下:
    低频查询词是指在过去一段时间内(如180天),点击小于设定次数如20次的查询词。
    在用户使用搜索引擎时,经常会用到一些未在用户搜索点击日志中出现过的查询词,因此少了用户点击的分类基础特征。并且,搜索点击次数少于设定次数的查询词(如20次),对于单纯的点击分类并不能完全置信。比如,某个用户搜索“韩国东大门长款修身连衣裙”,在搜索点击日志中记录了该用户点击了3次到“波西米亚长裙”的Offer,如果只使用此点击数据作为分类特征,而不对查询词进行拓展,会减少许多的正确类目召回。因此,需要对原查询词进行变换。
    以下是两种对查询词变换的示例算法:
    算法一:KNN Query,即KNN(K-Nearest Neighbor)查询词算法,是K最近邻分类,被分类对象在训练数据集中的K个最近的已分类邻居,用来指导被分类对象的分类。可以通过用户对Offer的搜索点击日志,建立出查询词到Term的倒排,使用原查询词的分词向量与其他查询词向量余弦距离作为邻近分类数据集。然后,综合原查询词相邻的设定个数,如前十个查询词分类结果,作为原查询词的分类结果。进而,根据该分类结果在行业类目树中映射,确定查询词所在的行业类目。
    其中,Term表示中文分词,在将查询词进行分词后获得多个Term的带权重、词性的向量。邻近分类数据集是一个中文分词Term到与其相关、出现过用户搜索点击行为的查询词向量的对应关系。这个邻近分类数据集的向量也是带权重的。
    算法二:缩词变换,如,使用自然语言处理中文分词二方库TermWeight,给定各个分词权重,去掉权重最小的分词,判断变换后的查询词是否是高频词。若是,则以此变换后的查询词分类结果作为原查询词的分类结果;否则 继续去掉下一个权重最小的分词,重复此步骤直至分词数为1。进而,根据该分类结果在行业类目树中映射,确定查询词所在的行业类目。
    其中,查询词的中文分词向量是带根据分词的重要程度赋予权重的,当用户输入的一个查询词在过去没有搜索点击行为,则会逐一去掉权重最小的分词,组合成新的查询词。这个去词过程一直持续到组合出的新查询词在用户搜索点击中出现(也就是有对应的类目向量)。然后使用新查询词对应的类目向量作为这个用户输入查询词的类目向量。
    需要说明的是,以上两种变换算法仅为示例性说明,在实际应用中,本领域技术人员还可以根据实际情况采用其它适当的变换算法。
    方式六,采用自然语言处理,如,使用阿里巴巴中文分词工具AliWS分词及TermWeight属性标注、赋权。比如,对查询词分词后,可以KNN、缩词变换等方法变换,在保证算法效果前提下,变换到数据密集的查询词,增加查询词分类的准确性。进而,确定该数据密集的查询词所在的行业类目。
    本实施例中,采用具体化后的方式一,确定查询词所在的行业类目。也即,将查询词中文分词标注的结果具体化为查询词对应的叶子节点的行业类目映射的一或多级上级行业类目;将设定规则具体化为判断映射后的各级行业类目中是否有权重超过设定阈值(也称为峰值)的权重的行业类目,若有,则将该行业类目确定为查询词所在的行业类目;否则,则使用其它适当规则确定查询词所在的行业类目,如判断是否存在行业类目熵小于设定的熵阈值的行业类目,或者,判断是否存在权重最大的类目与第二个类目权重差大于规定权重差阈值的行业类目,或者,一直映射到根行业类目等。其中,上述各阈值可以由本领域技术人员根据实际情况适当设置。
    其中,查询词对应的类目向量是已经根据权值排序过的。第二个类目即使权值第二大的类目,使用第一个类目的权值与第二个类目的权值的差,可以判断第一个类目是否为峰值类目(差足够大)。
    采用具体化后的方式一后,本实施例中的本步骤为判断查询词在映射的各级行业类目中是否有权重超过峰值权重的类目,若有,则将该类目确定为查询词所在的行业类目;若没有,则采用设定的其它规则,如上述根据熵阈 值或权重差阈值确定行业类目的规则,或者一直映射到根行业类目的规则,确定查询词所在的行业类目。
    步骤S30612:根据查询词所在的行业类目,确定多层类目结构,输出查询结果。
    查询结果的输出可以采用查询词识别到多层行业类目的分布和表示置信于第几层行业类目的整数,如,返回四层类目:叶子节点的行业类目、二级节点的行业类目、一级节点的行业类目、BU(Business Unit)。
    在上述查询词分类的基础上,还可以使用参数调节,如使用参数调节模块,调节查询词分类各个特征可能对分类结果的影响,优化算法的效果。
    以下,具体说明参数调节的实现。
    参数调节需要3个前提条件:(1)需要与真实搜索引擎相似分布的人工标注查询词分类数据;(2)可以自动修正分类参数配置项的自动化程序;(3)可以处理线性回归问题的机器学习算法模块。
    其中,
    关于人工标注查询词分类数据,运营人员可以提供专业的分类数据,以使查询词的抽样符合预测目标也就是真实空间的分布。如,可以通过历史的搜索流量日志,以搜索次数作为权重,随机选取1000条样本数据,以满足机器学习的抽样要符合真实空间前提。先通过人工方式将每个查询词所属各个层级的类目标注分类,比如,查询词“公主裙”,从上往下分类为“消费品-服装-女装-连衣裙”。
    根据查询词分类的业务需求,可以将参数调节的问题分为两类:第一种参数调节问题,是对于每一层的类目分布(比如“公主裙”在点击日志统计上会关联到一个带权重类目分布向量——“连衣裙”、“雪纺裙”、“蕾丝裙”等),需要调配多个线性特征(线性特征是指特征之间两两不相关)的比例权重,以达到算法效果上的最优。使用线性回归可以解决此类数学问题。第二种参数调节问题,是调节各个层级类目的识别阈值CateThre,以确定查询词具体识别到了该层峰值类目。
    对于第一种参数调节问题,
    自动化程序会根据查询词分类结果,对照人工标注的训练数据,计算出本次的参数调节的评分,评分为重准确率的F均值(即以下公式中γ值适当的大于1),根据业务的需求γ会进行相应的调节(人为的经验判断,是偏向召回率还是偏向准确率,一般一种业务需求中γ不会变化,因此不属于参数学习中机器学习的过程)。
    其中,F均值公式如下:
    Fγ=(1+γ).precision(γ2.precision)+recall]]>
    上述F均值公式中各参数含义如下:
    Precision:表示本系统将查询词分配到正确类目及层级的准确率——分类正确样本数/总样本数;
    Recall:表示本系统对样本进行分类的召回率——存在分类结果的样本数(识别到类目或者某个行业)/总样本数
    γ:γ为1时,准确率和召回率对F均值影响权重相同。γ越大,准确率影响F均值的权重就越大。本系统注重分类的准确率,因此γ为一个大于1的值。
    在计算过程中,对于参数调节输出的一套特征权重,都可以获取出在训练样本下,这套特征权重的准确率和召回率,而最终保留F均值最大时的那套参数。
    以下对使用线性回归解决第一种参数调节问题进行说明。
    线性回归的定义为:
    Yi=β0+β1Xi1+β2Xi2+…+βpXip,+εi,i=1,...,n
    给一个随机样本(Yi,Xi1,...,Xip),,=1,...,n,一个线性回归模型假设回归子Yi和回归量Xi1,...,Xip之间的关系可能是不完美的。加入一个误差项εi(也是一个随机变量)来捕获除了Xi1,...,Xip之外任何对Yi的影响。所以一个多变量线性回归模型表示为以上形式。区分随机变量和这些变量的观测值是很重要的。通常来说,观测值或数据(以小写字母表记)包括了n个值(yi,xi1,...,xip),i=1,...,n.
    有p+1个参数p0,...,βp需要决定,为了估计这些参数,使用矩阵Y=Xβ+ε表记是很有用的。
    其中,Y是一个包括了观测值Y1,...,Yn的列向量,ε包括了未观测的随机成份ε1,...,εn以及回归量的观测值矩阵X:
    使用矩阵表示X为:

    X通常包括一个常数项。
    如果X列之间存在线性相关,那麽参数向量β就不能以最小二乘法估计除非β被限制,比如要求它的一些元素之和为0。
    回归分析的最初目的是估计模型的参数以便达到对数据的最佳拟合。在决定一个最佳拟合的不同标准之中,最小二乘法是非常优越的。这种估计可以表示为:
    β^=(XTX)-1XTy]]>
    通过代码工程化实现一个自动学习的程序。Xi为上述的第i个特征,βi为第i个特征的权重,Y为一个组合参数的评估结果F均值向量(上式中的)。
    对于第二种参数调节问题,
    第二种参数调节问题,是调节各个层级类目的识别阈值CateThre,以确定查询词具体识别到了该层峰值类目。识别顺序自底向上,首先判断叶子类目,然后到二级,一级,最后是BU。比如查询词“公主裙”得到了叶子行业类目分布向量及权重为[“连衣裙”:0.5,“雪纺裙”:0.2,“蕾丝裙”:0.2,“花边裙”:0.1],给定的识别峰值叶子节点的行业类目阈值LeafCateThre=0.4,因此识别到了行业类目“连衣裙”,根据行业类目树往上一级找,给定峰值二级类目SecondCateThre=0.5,识别到了“女装”。
    因此,每一层的峰值类目阈值CateThre对最终的算法效果有很大的影响。可以使用枚举的方法,逼近最佳的算法效果。根据经验,CateThre的阈值范围在[0.3,0.7]范围内。在此范围内,每次枚举步长为0.01,得到40个不同的CateThre。在本实施例的查询词分类系统中,拥有4层类目:LeafCate,SecondCate,FirstCate,BUCate。组合得到40*40*40*40=2560000个峰值类目参数配置。使用分布式计算平台,很快地计算出所有的参数配置组合,选取评估F均值最大的一个组合,保留到线上使用。
    根据以上描述的参数调节,经过多次迭代,可以得到一套在样本空间中最优化的算法参数配置。
    可见,通过上述参数调节,在分类模型存在多个参数时,通过调整参数的值,使得模型更接近数据的实际分布,达到算法最优效果。
    步骤S308:使用设定的行业化搜索套头或行业化搜索结果展示模板展示查询词分类结果。
    当使用行业化搜索套头展示查询词分类结果时,当搜索页面获取到查询词所在的行业类目信息后,调用不同行业的搜索套头模板,并且以精确的方式选中菜单栏上的导航类目。比如,用户在搜索连衣裙后,搜索页面会将其跳转到“服装服饰”市场搜索页面。并且选中“女装”,将其下面的叶子类目打开,且搜索结果也只会出现“服装服饰–女装”类目下的商品信息。
    因为套头出现在页面中的关键位置,且有筛选搜索结果的作用,因此行业化识别要求很高的准确率,以避免对用户体验坏的影响。
    当使用行业化搜索结果展示模板展示查询词分类结果时,可以对搜索结果List展示方式控制,对于不同行业的搜索结果,用户的关注点一般是不一样的。比如,服装类商品搜索结果,用户更倾向于浏览图片。因此,使用大图方式展示搜索结果,会有更好的搜索体验。而工业品行业用户更关注属性、价格和产地,则显示产品的相关属性、价格和产地。
    通过本实施例,实现了在电子商务中,使用查询词分类及行业类目树、类目行业映射使搜索行业化;在查询词对应多层类目中,使用中文分词标注及参数调节模块来确定查询词具体归属到哪一层类目;使用行业信息应用到 行业化搜索套头、行业化搜索结果展示方式等应用。本实施例提供了规定类目树及行业映射格式的标准,可以方便地拓展到其他的类目树上。对于多种类目树、及不同业务对查询词分类的不同要求,提供了参数调节模块线性调配多个相互竞争特征的权重,让机器自动学习出一套适应于多种要求的参数,实现了算法代码的高重用性。
    实施例四
    参照图7,示出了根据本发明实施例四的一种查询词分类装置的结构框图。
    本实施例的查询词分类装置包括:第一生成模块402,用于获取输入的查询词,生成查询词对应的叶子行业类目分布向量,其中,叶子行业类目分布向量包含了查询词对应的至少一个叶子节点的行业类目,各级节点的各个行业类目均对应一个类目词向量,每个类目词向量中包括多个类目词;确定模块404,用于根据查询词对应的各个叶子节点的行业类目的类目词向量,确定查询词所属的叶子节点的行业类目;第一分类模块406,用于根据确定的叶子节点的行业类目,按照预先设置的各级行业类目映射关系,确定查询词所在的行业类目。
    优选地,每个类目词向量中包括的每个类目词均设置有权重;本实施例的查询词分类装置还包括:第二分类模块408,用于在第一分类模块406根据确定的叶子节点的行业类目,按照预先设置的各级行业类目映射关系,确定查询词所在的行业类目之后,判断查询词所在的行业类目是否满足设定标准;若满足,则将查询词分类到确定的行业类目;若不满足,则使用第一识别规则和/或第二识别规则确定查询词所在的行业类目,其中,第一识别规则用于根据除叶子行业类目分布向量中的叶子节点的行业类目外的、其它叶子节点的行业类目,确定查询词所在的行业类目;第二识别规则用于根据查询词在各个行业类目中的权重,确定查询词所在的行业类目。
    优选地,第二分类模块408在使用第一识别规则和/或第二识别规则确定查询词所在的行业类目时:根据查询词、和除叶子行业类目分布向量中的叶子节点的行业类目外的、其它叶子节点的行业类目的类目词向量,确定查 询词所在的行业类目;和/或,根据各个行业类目对应的类目词向量,自根节点的行业类目至叶子节点的行业类目,逐级确定查询词在各个行业类目中的权重是否大于或等于第一设定阈值,将大于或等于设定阈值的权重对应的行业类目确定为查询词所在的行业类目。
    优选地,确定模块404包括:生成模块4042,用于对查询词进行预处理,生成至少一个查询关键词;匹配模块4044,用于使用至少一个查询关键词匹配各个叶子节点的行业类目的类目词向量;权重模块4046,用于根据匹配成功的各个叶子节点的行业类目的类目词向量的权重,确定各个叶子节点的行业类目对应于查询词的权重;叶子节点确定模块4048,用于将权重最高的叶子节点的行业类目确定为查询词所属的叶子节点的行业类目。
    优选地,第一分类模块406包括:上级类目模块4062,用于根据预先设置的各级行业类目映射关系,确定叶子节点的行业类目对应的上一级行业类目;上级权重模块4064,用于获取叶子节点的行业类目对应的上一级行业类目对应于查询词的权重;判断模块4066,用于判断上一级行业类目对应于查询词的权重是否超过第二设定阈值的权重;执行模块4068,用于若判断模块4066的判断结果为是,则将权重超过第二设定阈值的上一级行业类目确定为查询词所在的行业类目;若判断模块4066的判断结果为否,则继续向上查找,直至查找到权重超过第二设定阈值的行业类目,或者,直至根节点的行业类目。
    优选地,本实施例的查询词分类装置还包括:对应关系生成模块410,用于生成查询词与叶子节点的行业类目的对应关系,包括:获取用户的搜索点击信息,其中,搜索点击信息包括:用户输入的查询词信息、和用户根据查询结果点击的商品信息;根据搜索点击信息,以及商品与商品所属类目的对应关系,获取查询词与叶子节点的行业类目的对应关系。
    优选地,对应关系生成模块410在获取用户的搜索点击信息时:获取用户搜索点击日志,其中,用户搜索点击日志中包含了多个用户的搜索点击信息,搜索点击信息包括:用户输入的查询词信息、用户根据查询结果点击的商品信息、和商品所属类目信息;对应关系生成模块410在根据所述搜索点 击信息,以及商品与商品所属类目的对应关系,获取所述查询词与所述叶子节点的行业类目的对应关系时:对用户搜索点击日志中的搜索点击信息进行统计分析,获取查询词信息与商品信息之间的对应关系,以及商品信息与商品所属类目信息之间的对应关系;根据查询词信息与商品信息之间的对应关系,以及商品信息与商品所属类目信息之间的对应关系,生成查询词与叶子节点的行业类目的对应关系。
    优选地,对应关系生成模块410在根据搜索点击信息,以及商品与商品所属类目的对应关系,获取查询词与叶子节点的行业类目的对应关系时:从商品信息标题中获取商品信息和商品所属类目信息,确定商品信息和商品所属类目信息的对应关系;根据搜索点击信息,以及商品信息和商品所属类目信息的对应关系,获取查询词与叶子节点的行业类目的对应关系。
    优选地,第一生成模块402,用于获取输入的查询词,根据查询词与叶子节点的行业类目的对应关系,确定查询词对应的、满足设定规则的至少一个叶子节点的行业类目;使用确定的叶子节点的行业类目,生成查询词对应的叶子行业类目分布向量。
    优选地,本实施例的查询词分类装置还包括:调整模块412,用于根据查询词与各个类目词向量中的类目词的匹配结果,对照人工标注的训练数据,对各个类目词向量中的类目词的权重进行调整。
    优选地,第二分类模块408在判断查询词所在的行业类目是否满足设定标准时:判断查询词所在的行业类目的召回数是否满足第三设定阈值,和/或,判断查询词所在的行业类目的点击数是否满足第四设定阈值。
    本实施例的查询词分类装置用于实现前述多个方法实施例中相应的查询词分类方法,并具有相应的方法实施例的有益效果,在此不再赘述。
    实施例五
    参照图8,示出了根据本发明实施例五的一种使用查询词分类装置进行行业化识别的系统架构示意图。
    本实施例的使用查询词分类装置进行行业化识别的系统架构主要包括::网页搜索前端SearchWeb、查询词分析平台Query Process、和行业化网页模 块。
    其中,查询词分析平台Query Process中设置有行业化识别模块(具有实施例四中的查询词分类装置的所有功能),使行业化识别作为一个模块在平台上供调用服务。行业化网页模块提供的行业化网页(包括行业化搜索套头和/或设定的行业化搜索结果展示模板)与传统的电子商务网页有所不同,搜索页面展示方式更为专业,对于行业需求也能快速响应。
    对于一次用户搜索,首先由SearchWeb获得查询词信息,然后调用Query Process平台的行业化识别模块。行业化识别模块会根据前文提到的查询词分类数据计算出相关的行业类目及查询词所属行业,也即查询词所在的行业类目,然后返回给SearchWeb。之后,SearchWeb会将查询词行业化数据作为一个搜索参数,调用搜索引擎及行业化网页模块。搜索引擎和行业化网页模块会根据下游的需求,使用行业化参数完成一系列的应用。
    比如,行业化网页会引出行业化搜索套头页面。如图9所示。此时,SearchWeb获取到行业信息后,调用不同行业的搜索套头模板,并且以精确的方式选中菜单栏上的导航类目。比如,图9中,若用户搜索连衣裙后,SearchWeb会将其跳转到“服装服饰”市场搜索页面。并且,选中“女装”,将其下面的叶子类目打开,且搜索结果也只会出现“服装服饰–女装”类目下的商品信息。因为套头出现在页面中的关键位置,且有筛选搜索结果的作用,因此行业化识别要求很高的准确率,以避免对用户体验坏的影响。
    再比如,行业化网页会引出搜索结果List展示方式展示查询结果。对于不同行业的搜索结果,用户的关注点一般是不一样的。比如,服装类商品搜索结果,用户更倾向于浏览图片,因此使用大图方式展示搜索结果,会有更好的搜索体验。而工业品行业用户更关注属性、价格和产地,则显示商品的相关属性、价格和产地信息,会有更好的搜索体验。
    通过本实施例,实现了对用户输入的查询词的行业化识别,可以根据查询词确定用户需要查询的行业,进而给出该行业内对应于查询词的信息供用户进行准确的行业内查询,提高了用户的搜索体验;同时,这种方式也可以有效促进行业市场页面的发展。
    通过本发明的方案,可以在一次用户搜索时,把识别到的行业信息提供给网页前端及搜索引擎排序端,以确定商品信息列表页、搜索页顶部导航的展示方式,以及作为搜索引擎排序的一个特征。通过对用户在搜索框输入的查询词分类,将用户引导到对应的行业市场。本发明实施例中提供的一种方案,可以基于搜索日志点击图数据的查询词层级分类的结构,并设计出一种算法,可以对所有查询词根据点击数据计算出对应的叶子行业类目分布向量,然后使用电子商务网站行业类目结构数据,将查询词划分到正确的行业市场。并且,本发明还提供了规定类目树及行业映射格式的标准,可以方便地拓展到其他的类目树上。对于多种类目树、及不同业务对查询词分类的不同要求,提供了参数调节模块线性调配多个相互竞争特征的权重,让机器自动学习出一套适应于多种要求的参数,实现算法代码的高重用性。
    通过本发明,实现了在电子商务中,使用查询词分类及类目树、类目行业映射实现搜索行业化;在查询词对应多层类目中,使用中文分词标注及参数调节模块来确定查询词具体归属到哪一层类目;使用行业信息应用到行业化搜索套头、行业化搜索结果展示方式等应用。但不限于此,本领技术人员还可以根据本发明实施例中的描述,采用相应的等同或替代方式,实现本发明的方案,如,可以使用其它低准确率的查询词分类;不使用行业类目树数据及类目行业映射,而是对每个叶子行业类目在行业页面等应用中确定其展示方式等;使用搜索类目导航的返回类目等。
    其中,查询词分类即Query Classification,即本系统的算法基础,为计算机专业术语,表示获取查询词到已标识类别(本系统为电子商务的类目)的过程。同时分到每个类别上是带权重(可以理解为概率)的。
    本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置和系统实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
    本发明实施例可用于众多通用或专用的计算系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
    本发明实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明实施例,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。在一个典型的配置中,所述计算机设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非持续性地电脑可读媒体(transitory media),如调制的数据信号和载波。
    以上对本发明所提供的一种查询词分类方法和装置进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的 说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

    关 键  词:
    查询 分类 方法 装置
      专利查询网所有文档均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    0条评论

    还可以输入200字符

    暂无评论,赶快抢占沙发吧。

    关于本文
    本文标题:查询词分类方法和装置.pdf
    链接地址:https://www.zhuanlichaxun.net/p-1896810.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
    经营许可证编号:粤ICP备2021068784号-1