《查询词分类方法和装置.pdf》由会员分享,可在线阅读,更多相关《查询词分类方法和装置.pdf(27页完整版)》请在专利查询网上搜索。
1、(10)申请公布号 (43)申请公布日 (21)申请号 201310392966.X(22)申请日 2013.09.02G06F 17/30(2006.01)(71)申请人阿里巴巴集团控股有限公司地址英属开曼群岛大开曼资本大厦一座四层847号邮箱(72)发明人丘鹏 史可可(74)专利代理机构北京润泽恒知识产权代理有限公司 11319代理人兰淑铎(54) 发明名称查询词分类方法和装置(57) 摘要本发明提供了一种查询词分类方法和装置,其中,查询词分类方法包括:获取输入的查询词,生成所述查询词对应的叶子行业类目分布向量,其中,所述叶子行业类目分布向量包含了所述查询词对应的至少一个叶子节点的行业类目。
2、,各级节点的各个行业类目均对应一个类目词向量,每个所述类目词向量中包括多个类目词;根据所述查询词对应的各个叶子节点的行业类目的类目词向量,确定所述查询词所属的叶子节点的行业类目;根据确定的所述叶子节点的行业类目,按照预先设置的各级行业类目映射关系,确定所述查询词所在的行业类目。通过本发明,使得行业查询结果更为精准,查询效率也更高。(51)Int.Cl.(19)中华人民共和国国家知识产权局(12)发明专利申请权利要求书4页 说明书17页 附图5页(10)申请公布号 CN 104424296 A(43)申请公布日 2015.03.18CN 104424296 A1/4页21.一种查询词分类方法,其。
3、特征在于,包括:获取输入的查询词,生成所述查询词对应的叶子行业类目分布向量,其中,所述叶子行业类目分布向量包含了所述查询词对应的至少一个叶子节点的行业类目,各级节点的各个行业类目均对应一个类目词向量,每个所述类目词向量中包括多个类目词;根据所述查询词对应的各个叶子节点的行业类目的类目词向量,确定所述查询词所属的叶子节点的行业类目;根据确定的所述叶子节点的行业类目,按照预先设置的各级行业类目映射关系,确定所述查询词所在的行业类目。2.根据权利要求1所述的方法,其特征在于,所述每个类目词向量中包括的每个类目词均设置有权重;在所述根据确定的所述叶子节点的行业类目,按照预先设置的各级行业类目映射关系,。
4、确定所述查询词所在的行业类目的步骤之后,还包括:判断所述查询词所在的行业类目是否满足设定标准;若满足,则将所述查询词分类到确定的所述行业类目;若不满足,则使用第一识别规则和/或第二识别规则确定所述查询词所在的行业类目,其中,所述第一识别规则用于根据除所述叶子行业类目分布向量中的叶子节点的行业类目外的、其它叶子节点的行业类目,确定所述查询词所在的行业类目;所述第二识别规则用于根据所述查询词在各个行业类目中的权重,确定所述查询词所在的行业类目。3.根据权利要求2所述的方法,其特征在于,所述使用第一识别规则和/或第二识别规则确定所述查询词所在的行业类目的步骤包括:根据所述查询词、和除所述叶子行业类目。
5、分布向量中的叶子节点的行业类目外的、其它叶子节点的行业类目的类目词向量,确定所述查询词所在的行业类目;和/或,根据各个行业类目对应的类目词向量,自根节点的行业类目至叶子节点的行业类目,逐级确定所述查询词在各个行业类目中的权重是否大于或等于第一设定阈值,将大于或等于所述设定阈值的权重对应的行业类目确定为所述查询词所在的行业类目。4.根据权利要求2或3所述的方法,其特征在于,所述根据所述查询词对应的各个叶子节点的行业类目的类目词向量,确定所述查询词所属的叶子节点的行业类目的步骤包括:对所述查询词进行预处理,生成至少一个查询关键词;使用所述至少一个查询关键词匹配所述各个叶子节点的行业类目的类目词向量。
6、;根据匹配成功的所述各个叶子节点的行业类目的类目词向量的权重,确定所述各个叶子节点的行业类目对应于所述查询词的权重;将权重最高的所述叶子节点的行业类目确定为所述查询词所属的叶子节点的行业类目。5.根据权利要求4所述的方法,其特征在于,所述根据确定的所述叶子节点的行业类目,按照预先设置的各级行业类目映射关系,确定所述查询词所在的行业类目的步骤包括:根据所述预先设置的各级行业类目映射关系,确定所述叶子节点的行业类目对应的上一级行业类目;权 利 要 求 书CN 104424296 A2/4页3获取所述叶子节点的行业类目对应的上一级行业类目对应于所述查询词的权重;判断所述上一级行业类目对应于所述查询词。
7、的权重是否超过第二设定阈值的权重;若是,则将权重超过所述第二设定阈值的上一级行业类目确定为所述查询词所在的行业类目;若否,则继续向上查找,直至查找到权重超过所述第二设定阈值的行业类目,或者,直至根节点的行业类目。6.根据权利要求1所述的方法,其特征在于,所述查询词与所述叶子节点的行业类目的对应关系通过以下方式生成:获取用户的搜索点击信息,其中,所述搜索点击信息包括:用户输入的查询词信息、和用户根据查询结果点击的商品信息;根据所述搜索点击信息,以及商品与商品所属类目的对应关系,获取所述查询词与所述叶子节点的行业类目的对应关系。7.根据权利要求6所述的方法,其特征在于,所述获取用户的搜索点击信息的。
8、步骤包括:获取用户搜索点击日志,其中,所述用户搜索点击日志中包含了多个所述用户的搜索点击信息,所述搜索点击信息包括:用户输入的查询词信息、用户根据查询结果点击的商品信息、和商品所属类目信息;所述根据所述搜索点击信息,以及商品与商品所属类目的对应关系,获取所述查询词与所述叶子节点的行业类目的对应关系的步骤包括:对所述用户搜索点击日志中的搜索点击信息进行统计分析,获取所述查询词信息与所述商品信息之间的对应关系,以及所述商品信息与所述商品所属类目信息之间的对应关系;根据所述查询词信息与所述商品信息之间的对应关系,以及所述商品信息与所述商品所属类目信息之间的对应关系,生成所述查询词与所述叶子节点的行业。
9、类目的对应关系。8.根据权利要求6所述的方法,其特征在于,所述根据所述搜索点击信息,以及商品与商品所属类目的对应关系,获取所述查询词与所述叶子节点的行业类目的对应关系的步骤包括:从商品信息标题中获取商品信息和商品所属类目信息,确定所述商品信息和所述商品所属类目信息的对应关系;根据所述搜索点击信息,以及所述商品信息和所述商品所属类目信息的对应关系,获取所述查询词与所述叶子节点的行业类目的对应关系。9.根据权利要求6至8任一项所述的方法,其特征在于,所述获取输入的查询词,生成所述查询词对应的叶子行业类目分布向量的步骤包括:获取输入的查询词,根据所述查询词与所述叶子节点的行业类目的对应关系,确定所述。
10、查询词对应的、满足设定规则的至少一个叶子节点的行业类目;使用确定的所述叶子节点的行业类目,生成所述查询词对应的叶子行业类目分布向量。10.根据权利要求2所述的方法,其特征在于,还包括:根据所述查询词与各个类目词向量中的类目词的匹配结果,对照人工标注的训练数据,对所述各个类目词向量中的类目词的权重进行调整。11.根据权利要求2所述的方法,其特征在于,所述判断所述查询词所在的行业类目是否满足设定标准的步骤包括:判断所述查询词所在的行业类目的召回数是否满足第三设定阈值,和/或,判断所述权 利 要 求 书CN 104424296 A3/4页4查询词所在的行业类目的点击数是否满足第四设定阈值。12.一种。
11、查询词分类装置,其特征在于,包括:第一生成模块,用于获取输入的查询词,生成所述查询词对应的叶子行业类目分布向量,其中,所述叶子行业类目分布向量包含了所述查询词对应的至少一个叶子节点的行业类目,各级节点的各个行业类目均对应一个类目词向量,每个所述类目词向量中包括多个类目词;确定模块,用于根据所述查询词对应的各个叶子节点的行业类目的类目词向量,确定所述查询词所属的叶子节点的行业类目;第一分类模块,用于根据确定的所述叶子节点的行业类目,按照预先设置的各级行业类目映射关系,确定所述查询词所在的行业类目。13.根据权利要求12所述的装置,其特征在于,所述每个类目词向量中包括的每个类目词均设置有权重;所述。
12、装置还包括:第二分类模块,用于在所述第一分类模块根据确定的所述叶子节点的行业类目,按照预先设置的各级行业类目映射关系,确定所述查询词所在的行业类目之后,判断所述查询词所在的行业类目是否满足设定标准;若满足,则将所述查询词分类到确定的所述行业类目;若不满足,则使用第一识别规则和/或第二识别规则确定所述查询词所在的行业类目,其中,所述第一识别规则用于根据除所述叶子行业类目分布向量中的叶子节点的行业类目外的、其它叶子节点的行业类目,确定所述查询词所在的行业类目;所述第二识别规则用于根据所述查询词在各个行业类目中的权重,确定所述查询词所在的行业类目。14.根据权利要求13所述的装置,其特征在于,所述第。
13、二分类模块在使用第一识别规则和/或第二识别规则确定所述查询词所在的行业类目时:根据所述查询词、和除所述叶子行业类目分布向量中的叶子节点的行业类目外的、其它叶子节点的行业类目的类目词向量,确定所述查询词所在的行业类目;和/或,根据各个行业类目对应的类目词向量,自根节点的行业类目至叶子节点的行业类目,逐级确定所述查询词在各个行业类目中的权重是否大于或等于第一设定阈值,将大于或等于所述设定阈值的权重对应的行业类目确定为所述查询词所在的行业类目。15.根据权利要求13或14所述的装置,其特征在于,所述确定模块包括:生成模块,用于对所述查询词进行预处理,生成至少一个查询关键词;匹配模块,用于使用所述至少。
14、一个查询关键词匹配所述各个叶子节点的行业类目的类目词向量;权重模块,用于根据匹配成功的所述各个叶子节点的行业类目的类目词向量的权重,确定所述各个叶子节点的行业类目对应于所述查询词的权重;叶子节点确定模块,用于将权重最高的所述叶子节点的行业类目确定为所述查询词所属的叶子节点的行业类目。16.根据权利要求15所述的装置,其特征在于,所述第一分类模块包括:上级类目模块,用于根据所述预先设置的各级行业类目映射关系,确定所述叶子节点的行业类目对应的上一级行业类目;权 利 要 求 书CN 104424296 A4/4页5上级权重模块,用于获取所述叶子节点的行业类目对应的上一级行业类目对应于所述查询词的权重。
15、;判断模块,用于判断所述上一级行业类目对应于所述查询词的权重是否超过第二设定阈值的权重;执行模块,用于若所述判断模块的判断结果为是,则将权重超过所述第二设定阈值的上一级行业类目确定为所述查询词所在的行业类目;若所述判断模块的判断结果为否,则继续向上查找,直至查找到权重超过所述第二设定阈值的行业类目,或者,直至根节点的行业类目。17.根据权利要求12所述的装置,其特征在于,还包括:对应关系生成模块,用于生成所述查询词与所述叶子节点的行业类目的对应关系,包括:获取用户的搜索点击信息,其中,所述搜索点击信息包括:用户输入的查询词信息、和用户根据查询结果点击的商品信息;根据所述搜索点击信息,以及商品与。
16、商品所属类目的对应关系,获取所述查询词与所述叶子节点的行业类目的对应关系。18.根据权利要求17所述的装置,其特征在于,所述对应关系生成模块在获取用户的搜索点击信息时:获取用户搜索点击日志,其中,所述用户搜索点击日志中包含了多个所述用户的搜索点击信息,所述搜索点击信息包括:用户输入的查询词信息、用户根据查询结果点击的商品信息、和商品所属类目信息;所述对应关系生成模块在根据所述搜索点击信息,以及商品与商品所属类目的对应关系,获取所述查询词与所述叶子节点的行业类目的对应关系时:对所述用户搜索点击日志中的搜索点击信息进行统计分析,获取所述查询词信息与所述商品信息之间的对应关系,以及所述商品信息与所述。
17、商品所属类目信息之间的对应关系;根据所述查询词信息与所述商品信息之间的对应关系,以及所述商品信息与所述商品所属类目信息之间的对应关系,生成所述查询词与所述叶子节点的行业类目的对应关系。19.根据权利要求17所述的装置,其特征在于,所述对应关系生成模块在根据所述搜索点击信息,以及商品与商品所属类目的对应关系,获取所述查询词与所述叶子节点的行业类目的对应关系时:从商品信息标题中获取商品信息和商品所属类目信息,确定所述商品信息和所述商品所属类目信息的对应关系;根据所述搜索点击信息,以及所述商品信息和所述商品所属类目信息的对应关系,获取所述查询词与所述叶子节点的行业类目的对应关系。20.根据权利要求1。
18、3所述的装置,其特征在于,所述第二分类模块在判断所述查询词所在的行业类目是否满足设定标准时:判断所述查询词所在的行业类目的召回数是否满足第三设定阈值,和/或,判断所述查询词所在的行业类目的点击数是否满足第四设定阈值。权 利 要 求 书CN 104424296 A1/17页6查询词分类方法和装置技术领域0001 本发明涉及计算机技术领域,特别是涉及一种查询词分类方法和装置。背景技术0002 电子商务是利用计算机技术、网络技术和远程通信技术,实现电子化、数字化和网络化的整个商务过程。随着电子商务的发展,越来越多的电子商务专业化网站应运而生。在如今的电子商务专业化网站中,如何进行行业化垂直细分是B2。
19、B(Business To Business)市场的工作重点。0003 然而,一方面,用户出于习惯,往往不会主动地链接到行业市场页面,导致行业市场页面因用户流量小,业务发展不起来,无法进行有效地行业搜索;另一方面,现有使用的搜索引擎技术,在用户输入查询词时,只会返回该查询词对应的直接结果,而不会进行行业划分,如,用户输入“酒精”时,则直接返回与“酒精”相关的内容,而不会根据“酒精”这个查询词做相关的行业划分处理,从而无法区别出用户想要查询的是医用酒精、食用酒精,还是工业用酒精,需要用户进行进一步地区分和准确查询,导致查询不准确,查询效率低。0004 可见,现有技术无法根据用户的查询词确定用户需。
20、要查询的行业,导致无法进行有效地行业查询,查询不够准确,查询效率低。发明内容0005 本发明提供了一种查询词分类方法和装置,以解决现有技术无法根据用户的查询词确定用户需要查询的行业,导致无法进行有效地行业查询,查询不够准确,查询效率低的问题。0006 为了解决上述问题,本发明公开了一种查询词分类方法,包括:获取输入的查询词,生成所述查询词对应的叶子行业类目分布向量,其中,所述叶子行业类目分布向量包含了所述查询词对应的至少一个叶子节点的行业类目,各级节点的各个行业类目均对应一个类目词向量,每个所述类目词向量中包括多个类目词;根据所述查询词对应的各个叶子节点的行业类目的类目词向量,确定所述查询词所。
21、属的叶子节点的行业类目;根据确定的所述叶子节点的行业类目,按照预先设置的各级行业类目映射关系,确定所述查询词所在的行业类目。0007 为了解决上述问题,本发明还公开了一种查询词分类装置,包括:第一生成模块,用于获取输入的查询词,生成所述查询词对应的叶子行业类目分布向量,其中,所述叶子行业类目分布向量包含了所述查询词对应的至少一个叶子节点的行业类目,各级节点的各个行业类目均对应一个类目词向量,每个所述类目词向量中包括多个类目词;确定模块,用于根据所述查询词对应的各个叶子节点的行业类目的类目词向量,确定所述查询词所属的叶子节点的行业类目;第一分类模块,用于根据确定的所述叶子节点的行业类目,按照预先。
22、设置的各级行业类目映射关系,确定所述查询词所在的行业类目。0008 与现有技术相比,本发明具有以下优点:说 明 书CN 104424296 A2/17页70009 本发明通过生成与查询词对应的叶子行业类目分布向量,该叶子行业类目分布向量中包括了一个或多个查询词对应的叶子节点的行业类目,各级各个行业类目都具有包括多个类目词的类目词向量;根据查询词与叶子节点的行业类目的类目词向量的关系,先确定查询词所属的准确的叶子节点的行业类目;进而根据预先设置的各级行业类目映射关系,以确定查询词所在的行业类目。其中,各级行业类目映射关系从高到低分为多个层次,最底层的是叶子节点的行业类目,最顶层的则是根节点的行业。
23、类目,叶子节点的行业类目和根节点的行业类目之间可能存在一或多个中间层次节点的行业类目,也可能不存在这样的中间节点的行业类目。在准确确定了查询词应当所属的叶子节点的行业类目后,根据该行业类目映射关系,可以采用任意适当方式确定查询词所在的行业类目;进而,将查询词分类到确定的相应行业类目。通过本发明,可以根据查询词确定用户需要查询的行业,进而给出该行业内对应于查询词的信息供用户进行准确的行业内查询,实现了有效地行业查询,并且也提高了用户的查询效率和搜索体验;同时,从叶子节点既开始准确定位查询词的行业类目,使得行业查询结果更为精准,查询效率也更高。附图说明0010 图1是根据本发明实施例一的一种查询词。
24、分类方法的步骤流程图;0011 图2是根据本发明实施例二的一种查询词分类方法的步骤流程图;0012 图3是根据本发明实施例三的一种查询词分类方法的步骤流程图;0013 图4是图3所示实施例中的一种生成查询词与行业叶子类目对应关系的流程示意图;0014 图5是图3所示实施例中的一种各级行业类目映射关系的示意图;0015 图6是图3所示实施例的一种具体实现流程图;0016 图7是根据本发明实施例四的一种查询词分类装置的结构框图;0017 图8是根据本发明实施例五的一种使用查询词分类装置进行行业化识别的系统架构示意图;0018 图9是图8所示实施例中的一种行业化搜索套头示意图。具体实施方式0019 。
25、为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。0020 实施例一0021 参照图1,示出了根据本发明实施例一的一种查询词分类方法的步骤流程图。0022 本实施例的查询词分类方法包括以下步骤:0023 步骤S102:获取输入的查询词,生成查询词对应的叶子行业类目分布向量。0024 其中,查询词对应的叶子行业类目分布向量包含了该查询词对应的至少一个叶子节点的行业类目。行业类目可能有多级节点,每级节点可能有多个行业类目,各级节点的各个行业类目均对应一个类目词向量,每个类目词向量中包括多个类目词。0025 多级行业类目中,当多级行业类目以树形结。
26、构展现时,该树形结构的叶子节点为最低级的节点,该级节点的行业类目即为叶子节点的行业类目。一个查询词可能对应一个说 明 书CN 104424296 A3/17页8叶子节点的行业类目,也可能对应多个叶子节点的行业类目,该一个或多个叶子节点的行业类目组成查询词对应的叶子行业类目分布向量。0026 在确定查询词对应的叶子节点的行业类目时,可以由本领域技术人员根据实际情况,参照现有查询词处理方式,对用户输入的查询词进行处理并对应到相应的叶子节点的行业类目。当然,如果用户输入的查询词比较规范,则可以直接对应到相应的叶子节点的行业类目,而无须对查询词进行处理。0027 步骤S104:根据查询词对应的各个叶子。
27、节点的行业类目的类目词向量,确定查询词所属的叶子节点的行业类目。0028 如前所述,一个查询词可能对应多个叶子节点的行业类目,将查询词准确地对应到一个或设定的少数几个叶子节点的行业类目上,一方面增加了行业查询和分类的准确性,另一方面也可以因为后续查询和分类数据量的减少而提高行业查询和分类的效率。0029 本实施例中,将查询词与各个叶子节点的行业类目的类目词向量中的类目词进行相应的匹配和处理操作,可以准确确定查询词应当属于的叶子节点的行业类目。如根据查询词与类目词向量的匹配度或相似度确定查询词所属的叶子节点的行业类目,或者,对类目词向量中的类目词设置权重,通过与查询词匹配的类目词的权重,确定查询。
28、词所属的叶子节点的行业类目等等。0030 步骤S106:根据确定的叶子节点的行业类目,按照预先设置的各级行业类目映射关系,确定查询词所在的行业类目。0031 行业类目可能具有多级,每级之间都有对应关系,各级之间的对应关系形成了各级行业类目的映射关系。0032 对于叶子行业类目分布向量中的每一个叶子节点的行业类目,其都有对应的一级或多级的上级行业类目。在确定了查询词所属的叶子节点的行业类目后,可以根据该叶子节点的行业类目对应的上级行业类目,确定查询词所在的行业类目,如当确定了查询词所属的叶子节点的行业类目为“连衣裙”后,“连衣裙”这一行业类目对应的直接上级行业类目为“女装”,而“女装”这一行业类。
29、目的上级行业类目为“服装”。因此,当用户输入的查询词为“白色连衣裙”时,若确定其所属的叶子节点的行业类目应当为“连衣裙”时,则一种可能的方式如默认对应到根节点的行业类目,则可确定“白色连衣裙”所在的行业类目为“服装”。当然,不限于此,在实际应用中,本领域技术人员还可以根据实际情况制定适当的规则,以确定查询词所在的行业类目,如,通过设定与性别有关的规则,确定“白色连衣裙”所在的行业类目为“女装”等。0033 通过本实施例,生成与查询词对应的叶子行业类目分布向量,该叶子行业类目分布向量中包括了一个或多个查询词对应的叶子节点的行业类目,各级各个行业类目都具有包括多个类目词的类目词向量;根据查询词与叶。
30、子节点的行业类目的类目词向量的关系,先确定查询词所属的准确的叶子节点的行业类目;进而根据预先设置的各级行业类目映射关系,以确定查询词所在的行业类目。其中,各级行业类目映射关系从高到低分为多个层次,最底层的是叶子节点的行业类目,最顶层的则是根节点的行业类目,叶子节点的行业类目和根节点的行业类目之间可能存在一或多个中间层次节点的行业类目,也可能不存在这样的中间节点的行业类目。在准确确定了查询词应当所属的叶子节点的行业类目后,根据该行业类目映射关系,可以采用任意适当方式确定查询词所在的行业类目;进而,将查询词说 明 书CN 104424296 A4/17页9分类到确定的相应行业类目。通过本实施例,可。
31、以根据查询词确定用户需要查询的行业,进而给出该行业内对应于查询词的信息供用户进行准确的行业内查询,实现了有效地行业查询,并且也提高了用户的查询效率和搜索体验;同时,从叶子节点既开始准确定位查询词的行业类目,使得行业查询结果更为精准,查询效率也更高。0034 实施例二0035 参照图2,示出了根据本发明实施例二的一种查询词分类方法的步骤流程图。0036 本实施例的查询词分类方法包括以下步骤:0037 步骤S202:生成查询词与叶子节点的行业类目的对应关系。0038 查询词与叶子节点的行业类目的对应关系可以通过以下方式生成:获取用户的搜索点击信息,其中,搜索点击信息包括:用户输入的查询词信息、和用。
32、户根据查询结果点击的商品信息;根据搜索点击信息,以及商品与商品所属类目的对应关系,获取查询词与行业叶子类目的对应关系。0039 在具体实现时,可以采用以下方式至少之一,生成查询词与叶子节点的行业类目的对应关系。0040 方式一,获取用户搜索点击日志,其中,用户搜索点击日志中包含了多个用户的搜索点击信息,该搜索点击信息包括:用户输入的查询词信息、用户根据查询结果点击的商品信息、和商品所属类目信息;对用户搜索点击日志中的搜索点击信息进行统计分析,获取查询词信息与商品信息之间的对应关系,以及商品信息与商品所属类目信息之间的对应关系;根据查询词信息与商品信息之间的对应关系,以及商品信息与商品所属类目信。
33、息之间的对应关系,生成查询词与行业叶子类目的对应关系。0041 方式二,获取用户的搜索点击信息,其中,搜索点击信息包括:用户输入的查询词信息、和用户根据查询结果点击的商品信息;从商品信息标题中获取商品信息和商品所属类目信息,确定商品信息和商品所属类目信息的对应关系;根据搜索点击信息,以及商品信息和商品所属类目信息的对应关系,获取查询词与行业叶子类目的对应关系。0042 需要说明的是,查询词与叶子节点的行业类目的对应关系可以由本发明实施者实现,也可以由第三方提供,如通过第三方生成工具生成,或者,通过访问第三方存储数据实现。0043 步骤S204:获取输入的查询词,根据查询词与叶子节点的行业类目的。
34、对应关系,确定查询词对应的、满足设定规则的至少一个叶子节点的行业类目;使用确定的叶子节点的行业类目,生成查询词对应的叶子行业类目分布向量。0044 其中,设定规则可以由本领域技术人员根据实际情况适当设置,以从对应于查询词的多个叶子节点的行业类目中选择一个或多个或全部的行业类目。0045 可见,叶子行业类目分布向量中包含了查询词对应的至少一个叶子节点的行业类目,而对于所有级别节点和所有行业类目来说,各级节点的各个行业类目均对应有一个类目词向量,每个类目词向量中包括多个类目词。优选地,每个类目词向量中的每个类目词均可设置权重。0046 如,当用户输入“韩版雪纺裙”时,系统根据建立的查询词与叶子节点。
35、的行业类目的对应关系,将其对应到“连衣裙”、“库存女装”、“公主裙”和“日韩女装”四个叶子节点的行业类目。每个行业类目对应有一个类目词向量,如,“连衣裙”类目下有“连衣裙”“裙子”“雪说 明 书CN 104424296 A5/17页10纺裙”“韩版”等类目词组成对应于“连衣裙”的类目词向量;“库存女装”类目下有“库存女装”、“女装”、“裙子”、“连衣裙”、“雪纺裙”、“女上衣”、“女裤”、“女套装”等类目词组成对应于“库存女装”的类目词向量;“公主裙”类目下有“公主裙”、“连衣裙”、“裙子”、“雪纺裙”等类目词组成对应于“公主裙”的类目词向量;“日韩女装”类目下有“日韩女装”、“裙子”、“连衣。
36、裙”、“雪纺裙”等类目词组成对应于“日韩女装”的类目词向量,这些各个行业类目对应的类目词向量通过大数据统计方法建立和生成。由上,与“韩版雪纺裙”对应的叶子节点的行业类目分布向量可以为连衣裙、库存女装、公主裙、日韩女装。0047 优选地,类目词向量中的各个类目词还可以设置权重,如连衣裙,0.5;裙子,0.3;雪纺裙,0.6;韩版,0.2等。通过设置权重,可以使行业类目更有针对性和倾向性,更符合用户通常的习惯,从而能够更快地确定查询词对应的行业类目。0048 另外,查询词可以是用户使用搜索引擎时,在搜索框内填写表明自己意图的词条。但需要说明的是,不限于搜索框输入的方式,其它输入方式,如点击相应的条。
37、目、链接等,均包括在本发明“输入”的范围内。步骤S206:根据查询词对应的各个叶子节点的行业类目的类目词向量,确定查询词所属的叶子节点的行业类目。0049 一种方式是,对查询词进行预处理,将其预处理为至少一个查询关键词,然后,将这些查询关键词与行业类目的类目词向量中的类目词匹配,根据匹配程度确定查询词所属的叶子节点的行业类目。如,将“韩版雪纺裙”预处理为“韩版”和“雪纺裙”两个查询关键词,经匹配后发现,“韩版”和“雪纺裙”与“连衣裙”对应的类目词向量中的类目词匹配度最高,即将“连衣裙”确定为“韩版雪纺裙”所属的叶子节点的行业类目。0050 优选地,在类目词具有权重时,一种可行方式是:对查询词进。
38、行预处理,生成至少一个查询关键词;使用所述至少一个查询关键词匹配各个叶子节点的行业类目的类目词向量;根据匹配成功的各个叶子节点的行业类目的类目词向量的权重,确定各个叶子节点的行业类目对应于该查询词的权重;将权重最高的叶子节点的行业类目确定为查询词所属的叶子节点的行业类目。仍以“韩版雪纺裙”为例,假设:“连衣裙”对应的类目词向量的各类目词权重为连衣裙,0.8;裙子,0.3;雪纺裙,0.6;韩版,0.2;“库存女装”的类目词向量的各类目词权重为库存女装,0.9;女装,0.8;裙子,0.6;连衣裙,0.6;雪纺裙,0.3;女上衣,0.4;女裤,0.2;女套装,0.3;“公主裙”的类目词向量的各类目词。
39、权重为公主裙,0.9;连衣裙,0.7;裙子,0.5;雪纺裙,0.4;“日韩女装”的类目词向量的各类目词权重为日韩女装,0.9;裙子,0.8;连衣裙,0.8;雪纺裙,0.6。以最简单的权重相加为例,将“韩版雪纺裙”预处理为“韩版”和“雪纺裙”后,与各个叶子节点的行业类目的类目词向量进行匹配,结果为:“连衣裙” 雪纺裙,0.6;韩版,0.2,“库存女装” 雪纺裙,0.3,“公主裙” 雪纺裙,0.4,“日韩女装”雪纺裙,0.6,则经过加权后,“连衣裙”对应于“韩版雪纺裙”的权重为0.8,“库存女装”对应于“韩版雪纺裙”的权重为0.3,“公主裙”对应于“韩版雪纺裙”的权重为0.4,“日韩女装”对应于“韩版雪纺裙”的权重为0.6。经过加权比较,可以将权重最高的行业类目即“连衣裙”确定为“韩版雪纺裙”所属的叶子节点的行业类目。需要说明的是,以上对权重的处理仅为简单的示例性说明,在实际应用中,本领域技术人员可以根据实际需要对获得的各类目词的权重进行各种形式的权重处理,以满足需求,本发明对此不作限制。0051 步骤S208:根据确定的叶子节点的行业类目,按照预先设置的各级行业类目映射说 明 书CN 104424296 A10。