一种图像搜索引擎的生成方法及系统.pdf

上传人：e1

文档编号：1639515

上传时间：2018-06-30

格式：PDF

页数：12

大小：1.45MB

《一种图像搜索引擎的生成方法及系统.pdf》由会员分享，可在线阅读，更多相关《一种图像搜索引擎的生成方法及系统.pdf（12页完整版）》请在专利查询网上搜索。

一种图像搜索引擎的生成方法及系统，包括：视觉词生成模块，用于基于视觉词库，确定待索引图像各自的视觉词集合；视觉词修正模块，用于根据所述待索引图像的提供者信息，对每一提供者，将该提供者提供的所有待索引图像作为一组，在该组待索引图像的范围内进行视觉词的统计和判断，确定该提供者关联的停用视觉词，然后对该组待索引图像各自的视觉词集合分别进行修正，从中去除该提供者关联的停用视觉词；搜索引擎生成模块，用于在生。

摘要
申请专利号：	CN201310687015.5	申请日：	2013.12.13
公开号：	CN104714962A	公开日：	2015.06.17
当前法律状态：	实审	有效性：	审中
法律详情：	实质审查的生效IPC(主分类):G06F 17/30申请日:20131213\|\|\|公开
IPC分类号：	G06F17/30	主分类号：	G06F17/30
申请人：	阿里巴巴集团控股有限公司
发明人：	王从德; 孔祥衡
地址：	英属开曼群岛大开曼资本大厦一座四层847号邮箱
优先权：
专利代理机构：	北京安信方达知识产权代理有限公司11262	代理人：	龙洪; 栗若木
PDF完整版下载：	PDF下载

内容摘要

一种图像搜索引擎的生成方法及系统，包括：视觉词生成模块，用于基于视觉词库，确定待索引图像各自的视觉词集合；视觉词修正模块，用于根据所述待索引图像的提供者信息，对每一提供者，将该提供者提供的所有待索引图像作为一组，在该组待索引图像的范围内进行视觉词的统计和判断，确定该提供者关联的停用视觉词，然后对该组待索引图像各自的视觉词集合分别进行修正，从中去除该提供者关联的停用视觉词；搜索引擎生成模块，用于在生成图像搜索引擎时，将所述待索引图像修正后的视觉词集合加入到所述图像搜索引擎的倒排索引中。上述方案生成的图像搜索引擎可以有效避免图像的非主体区域对搜索的影响。

权利要求书

权利要求书
1.  一种图像搜索引擎的生成方法，包括：
基于视觉词库，确定待索引图像各自的视觉词集合；
根据所述待索引图像的提供者信息，对每一提供者，将该提供者提供的所有待索引图像作为一组，在该组待索引图像的范围内进行视觉词的统计和判断，确定该提供者关联的停用视觉词，然后对该组待索引图像各自的视觉词集合分别进行修正，从中去除该提供者关联的停用视觉词；
生成图像搜索引擎时，将所述待索引图像修正后的视觉词集合加入到所述图像搜索引擎的倒排索引中。

2.  如权利要求1所述的生成方法，其特征在于：
所述在该组待索引图像的范围内进行视觉词的统计和判断，确定该提供者关联的停用视觉词，包括：
确定该组待索引图像各自的视觉词集合Hk中的每一视觉词，其中，k=0,1,…,K，K为该组待索引图像的图像数目；
对Hk中的每一视觉词，统计包含该视觉词的Hk的个数，如果该个数大于等于设定的次数阈值，则将该视觉词确定为该提供者关联的停用视觉词。

3.  如权利要求1或2所述的生成方法，其特征在于：
所述在该组待索引图像的范围内进行视觉词的统计和判断，确定该提供者关联的停用视觉词，包括：
确定该组待索引图像各自的视觉词集合Hk中的每一视觉词，其中，k=0,1,…,K，K为该组待索引图像的图像数目；
对Hk中的每一视觉词，统计包含该视觉词的Hk的个数并计算该个数与K的比值，如果该比值大于等于设定的比例阈值，则将该视觉词确定为该提供者关联的停用视觉词。

4.  如权利要求1或2所述的生成方法，其特征在于：
所述在该组待索引图像的范围内进行视觉词的统计和判断，确定该提供者关联的停用视觉词之前，还包括：
确定该组待索引图像的图像数目，判断该图像数目是否大于等于统计所需的最小数目，如果是，进行所述视觉词的统计和判断，如果否，不再进行所述视觉词的统计和判断。

5.  如权利要求1或2或3所述的生成方法，其特征在于：
所述待索引图像为待索引商品图像，所述提供者为提供所述待索引商品图像的店铺。

6.  一种图像搜索引擎的生成系统，包括：
视觉词生成模块，用于基于视觉词库，确定待索引图像各自的视觉词集合；
视觉词修正模块，用于根据所述待索引图像的提供者信息，对每一提供者，将该提供者提供的所有待索引图像作为一组，在该组待索引图像的范围内进行视觉词的统计和判断，确定该提供者关联的停用视觉词，然后对该组待索引图像各自的视觉词集合分别进行修正，从中去除该提供者关联的停用视觉词；
搜索引擎生成模块，用于在生成图像搜索引擎时，将所述待索引图像修正后的视觉词集合加入到所述图像搜索引擎的倒排索引中。

7.  如权利要求6所述的生成系统，其特征在于：
所述视觉词修正模块在该组待索引图像的范围内进行视觉词的统计和判断，确定该提供者关联的停用视觉词，包括：
确定该组待索引图像各自的视觉词集合Hk中的每一视觉词，其中，k=0,1,…,K，K为该组待索引图像的图像数目；
对Hk中的每一视觉词，统计包含该视觉词的Hk的个数，如果该个数大于等于设定的次数阈值，则将该视觉词确定为该提供者关联的停用视觉词。

8.  如权利要求6或7所述的生成系统，其特征在于：
所述视觉词修正模块在该组待索引图像的范围内进行视觉词的统计和判断，确定该提供者关联的停用视觉词，包括：
确定该组待索引图像各自的视觉词集合Hk中的每一视觉词，其中，k=0,1,…,K，K为该组待索引图像的图像数目；
对Hk中的每一视觉词，统计包含该视觉词的Hk的个数并计算该个数与K的比值，如果该比值大于等于设定的比例阈值，则将该视觉词确定为该提供者关联的停用视觉词。

9.  如权利要求6或7所述的生成系统，其特征在于：
所述视觉词修正模块在该组待索引图像的范围内进行视觉词的统计和判断，确定该提供者关联的停用视觉词之前，还包括：
确定该组待索引图像的图像数目，判断该图像数目是否大于等于统计所需的最小数目，如果是，进行所述视觉词的统计和判断，如果否，不再进行所述视觉词的统计和判断。

10.  如权利要求6或7或8所述的生成系统，其特征在于：
所述视觉词生成模块确定待索引图像各自的视觉词集合，其中，所述待索引图像为待索引商品图像；
所述视觉词修正模块使用的提供者信息为提供所述待索引商品图像的店铺。

说明书

说明书一种图像搜索引擎的生成方法及系统
技术领域
本申请涉及图像搜索，更具体地，涉及一种图像搜索引擎的生成方法及系统。
背景技术
基于局部特征的图像搜索引擎可以基于给定的一张图像，在海量图像集合中找到与其相似的图像，是目前主流的基于内容的图像搜索引擎。
图像搜索引擎和文本搜索引擎的框架是大体类似的，但其中最重要的一个区别就是由“视觉词”代替“文本词”。在基于局部特征的图像搜索引擎中，需要将图像转化为“视觉词”列表，然后再按视觉词对图像建立倒排索引(inverted index)。
近年来，基于局部特征的图像搜索引擎开始逐渐走入商业应用，有通用领域和一些细分领域，其中一个重要细分领域就是针对电子商务网站的商品图像搜索。
商品图像和一般的图像不同，他分为商品区域和非商品区域。比如图1A和图1B中的两幅图像中存在相同的文字型徽标（logo），图2A和图2B中的两幅图像中存在相同的“伪造背景”，图3A和图3B中的两幅图像中存在相同的图案型logo。在使用通用的图像搜索引擎进行商品图像搜索时，可能会因为非商品区域的相似，导致错误的召回。
通过识别图像中的文字区域，排除这些区域在图像匹配中的作用，能解决一部分由于文字型logo导致的问题，但是对“伪造背景”和图案型logo的去除效果不好。
通过识别图像中的商品主体，在图像匹配的过程中，仅使用主体上的图像信息，也有一定效果。但是这个方案无法解决主体被logo部分遮挡的问题，同时现有的商品主体区域识别都无法达到一个足够准确率的效果。
对于其他提供者提供的图像，如果图像的非主体区域相同或相似，现有方法也不能够有效地去除这些非主体区域对搜索的影响。
发明内容
本申请要解决的技术问题是提供一种图像搜索引擎的生成方法及系统，可以有效避免图像的非主体区域对搜索的影响。
为了解决上述问题，本申请提供了一种图像搜索引擎的生成方法，包括：
基于视觉词库，确定待索引图像各自的视觉词集合；
根据所述待索引图像的提供者信息，对每一提供者，将该提供者提供的所有待索引图像作为一组，在该组待索引图像的范围内进行视觉词的统计和判断，确定该提供者关联的停用视觉词，然后对该组待索引图像各自的视觉词集合分别进行修正，从中去除该提供者关联的停用视觉词；
生成图像搜索引擎时，将所述待索引图像修正后的视觉词集合加入到所述图像搜索引擎的倒排索引中。
较佳地，
所述在该组待索引图像的范围内进行视觉词的统计和判断，确定该提供者关联的停用视觉词，包括：
确定该组待索引图像各自的视觉词集合Hk中的每一视觉词，其中，k=0,1,…,K，K为该组待索引图像的图像数目；
对Hk中的每一视觉词，统计包含该视觉词的Hk的个数，如果该个数大于等于设定的次数阈值，则将该视觉词确定为该提供者关联的停用视觉词。
较佳地，
所述在该组待索引图像的范围内进行视觉词的统计和判断，确定该提供者关联的停用视觉词，包括：
确定该组待索引图像各自的视觉词集合Hk中的每一视觉词，其中，k=0,1,…,K，K为该组待索引图像的图像数目；
对Hk中的每一视觉词，统计包含该视觉词的Hk的个数并计算该个数与K的比值，如果该比值大于等于设定的比例阈值，则将该视觉词确定为该提供者关联的停用视觉词。
较佳地，
所述在该组待索引图像的范围内进行视觉词的统计和判断，确定该提供者关联的停用视觉词之前，还包括：
确定该组待索引图像的图像数目，判断该图像数目是否大于等于统计所需的最小数目，如果是，进行所述视觉词的统计和判断，如果否，不再进行所述视觉词的统计和判断。
较佳地，
所述待索引图像为待索引商品图像，所述提供者为提供所述待索引商品图像的店铺。
相应地，本申请还提供了一种图像搜索引擎的生成系统，包括：
视觉词生成模块，用于基于视觉词库，确定待索引图像各自的视觉词集合；
视觉词修正模块，用于根据所述待索引图像的提供者信息，对每一提供者，将该提供者提供的所有待索引图像作为一组，在该组待索引图像的范围内进行视觉词的统计和判断，确定该提供者关联的停用视觉词，然后对该组待索引图像各自的视觉词集合分别进行修正，从中去除该提供者关联的停用视觉词；
搜索引擎生成模块，用于在生成图像搜索引擎时，将所述待索引图像修正后的视觉词集合加入到所述图像搜索引擎的倒排索引中。
较佳地，
所述视觉词修正模块在该组待索引图像的范围内进行视觉词的统计和判断，确定该提供者关联的停用视觉词，包括：
确定该组待索引图像各自的视觉词集合Hk中的每一视觉词，其中， k=0,1,…,K，K为该组待索引图像的图像数目；
对Hk中的每一视觉词，统计包含该视觉词的Hk的个数，如果该个数大于等于设定的次数阈值，则将该视觉词确定为该提供者关联的停用视觉词。
较佳地，
所述视觉词修正模块在该组待索引图像的范围内进行视觉词的统计和判断，确定该提供者关联的停用视觉词，包括：
确定该组待索引图像各自的视觉词集合Hk中的每一视觉词，其中，k=0,1,…,K，K为该组待索引图像的图像数目；
对Hk中的每一视觉词，统计包含该视觉词的Hk的个数并计算该个数与K的比值，如果该比值大于等于设定的比例阈值，则将该视觉词确定为该提供者关联的停用视觉词。
较佳地，
所述视觉词修正模块在该组待索引图像的范围内进行视觉词的统计和判断，确定该提供者关联的停用视觉词之前，还包括：
确定该组待索引图像的图像数目，判断该图像数目是否大于等于统计所需的最小数目，如果是，进行所述视觉词的统计和判断，如果否，不再进行所述视觉词的统计和判断。
较佳地，
所述视觉词生成模块确定待索引图像各自的视觉词集合，其中，所述待索引图像为待索引商品图像；
所述视觉词修正模块使用的提供者信息为提供所述待索引商品图像的店铺。
本申请的上述方案针对同一提供者提供的图像的非主体区域往往相同和相似的特点，在提供者提供的所有待索引图像的范围内进行视觉词的统计和判断，得到提供者关联的停用视觉词，因而可以有效避免图像非主体区域对搜索的影响。上述方案可用于商品图像搜索，确定店铺关联的停用视觉词，具有很好的效果。
附图说明
图1A和图1B示出的是存在相同的文字型logo的两幅图像；
图2A和图2B示出的是存在相同的“伪造背景”的两幅图像；
图3A和图3B示出的是存在相同的图案型logo的两幅图像；
图4示出的是本申请实施例图像搜索引擎生成方法的流程图；
图5示出的是本申请实施例图像搜索引擎生成系统的模块图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚明白，下文中将结合附图对本申请的实施例进行详细说明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。
在本申请一个典型的配置中，系统包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。
实施例一
在搜索引擎中，使用停止词是一种常见的搜索优化方法。在文本搜索引擎中，有一些在语料中现频率极高的词，由于其包含的信息熵很少，会被停止掉（不加入倒排索引）。比如“的”、“在”。
在一些图像搜索引擎中，也沿用了这个方法：基于视觉词库，确定待索引图像各自的视觉词集合后；对每一视觉词，在所有待索引图像的范围内进行统计和判断，确定是否将该视觉词作为停用视觉词，生成图像搜索引擎时，停用视觉词不会加入倒排索引。
但是在商品图像的搜索引擎中，如直接使用通用的停用视觉词的方法，会发现大量的非商品区域并不会被判定为停用视觉词，也就无法将它们“停止”掉。
发明人通过观察电子商务网站的特点，发现同一种非商品区域会在某个店铺提供的图像中内反复出现（比如adidas的logo，一定会在adidas旗舰店的很多商品图片中出现）。即同一提供者提供的图像经常也具有相同或相似的非主体区域。从而提出了以下方案。
本实施例中的图像为商品图像，其提供者为店铺，但本申请不局限于此。
如图1所示，本实施例的图像搜索引擎的生成方法包括：
步骤110，基于视觉词库，确定待索引图像各自的视觉词集合；
视觉词库中的视觉词可以通过对大量的样本图像提取局部特征，再对所有的局部特征进行聚类得到。对一待索引图像，提取该图像的局部特征后查询视觉词库，找到对应的视觉词（最近的聚类中心），即可得到该图像的视觉词集合。
步骤120，根据待索引图像的提供者信息，对每一提供者，将该提供者提供的所有待索引图像作为一组，在该组待索引图像的范围内进行视觉词的统计和判断，确定该提供者关联的停用视觉词；
本实施例中，在该组待索引图像的范围内进行视觉词的统计和判断，确定该提供者关联的停用视觉词，包括：
首先，确定该组待索引图像各自的视觉词集合Hk中的每一视觉词，其中， k=0,1,…,K，K为该组待索引图像的图像数目；
然后，使用以下两种方式确定提供者关联的停用视觉词：
第一种，对Hk中的每一视觉词，统计包含该视觉词的Hk的个数，如果该个数大于等于设定的次数阈值，则将该视觉词确定为该提供者关联的停用视觉词。
第二种，对Hk中的每一视觉词，统计包含该视觉词的Hk的个数并计算该个数与K的比值，如果该比值大于等于设定的比例阈值，则将该视觉词确定为该提供者关联的停用视觉词。
上述第一种方式，是根据视觉词在店铺提供的商品图像中出现的绝对次数确定停用视觉词，适用于提供的商品图像较多的情形，无论使用品牌多少，都可以较准确地确定该店铺关联的停用词。而第二种方式是根据视觉词在店铺提供的商品图像中出现的比例来确定停用视觉词，在店铺提供商品图像不多，但品牌较集中时可以更有效地确定该店铺关联的停用词。
例如，上述次数阈值为30，比例阈值为50%。假定某个店铺提供的待索引图像有100幅，其中33幅均具有某个特定的视觉词，则按照第一种方式，可以将该视觉词确定为该店铺关联的停用视觉词。而另一店铺提供的待索引图像有30幅，其中20幅均具有某个特定的视觉词，按照第一种方式，该视觉词不能确定为停用视觉词，但按照第二种方式，因为该视觉词在店铺提供的商品图像中出现的比例很高66.7%，因而也会被确定为该店铺关联的停用视觉词。
本申请可以同时使用上述两种方式，也可以使用其中的任一种。
步骤130，对每一提供者，对其提供的一组待索引图像各自的视觉词集合分别进行修正，从中去除该提供者关联的停用视觉词；
本步骤中，对每一待索引图像的视觉词集合中的视觉词，检查是否是提供该待索引图像的提供者关联的停用视觉词，如果是，就过滤掉，如果不是，就保留。
步骤140，生成图像搜索引擎时，将所述待索引图像修正后的视觉词集合加入到所述图像搜索引擎的倒排索引中。
生成图像搜索引擎所需的其他处理可以与现有技术相同，本实施例通过对加入倒排索引的视觉词集合的修正，去除提供者关联的停用视觉词，使得生成的图像搜索引擎在执行搜索时，可以有效避免图像的非主体区域对搜索的影响。
相应地，本实施例还提供了一种图像搜索引擎的生成系统，如图2所示，包括：
视觉词生成模块10，用于基于视觉词库，确定待索引图像各自的视觉词集合；
视觉词修正模块20，用于根据所述待索引图像的提供者信息，对每一提供者，将该提供者提供的所有待索引图像作为一组，在该组待索引图像的范围内进行视觉词的统计和判断，确定该提供者关联的停用视觉词，然后对该组待索引图像各自的视觉词集合分别进行修正，从中去除该提供者关联的停用视觉词；
搜索引擎生成模块30，用于在生成图像搜索引擎时，将所述待索引图像修正后的视觉词集合加入到所述图像搜索引擎的倒排索引中。
本实施例中，视觉词生成模块确定待索引图像各自的视觉词集合，其中的待索引图像为待索引商品图像，所述视觉词修正模块使用的提供者信息为提供所述待索引商品图像的店铺。
本实施例中，所述视觉词修正模块在该组待索引图像的范围内进行视觉词的统计和判断，确定该提供者关联的停用视觉词，包括：
首先，确定该组待索引图像各自的视觉词集合Hk中的每一视觉词，其中，k=0,1,…,K，K为该组待索引图像的图像数目；
然后，使用以下2种方式确定该提供者关联的停用视觉词：
第一种，对Hk中的每一视觉词，统计包含该视觉词的Hk的个数，如果该个数大于等于设定的次数阈值，则将该视觉词确定为该提供者关联的停用视觉词。
第二种，对Hk中的每一视觉词，统计包含该视觉词的Hk的个数并计算该个数与K的比值，如果该比值大于等于设定的比例阈值，则将该视觉词确定为该提供者关联的停用视觉词。
但本申请不局限于此，根据提供者提供的图像的特点，也可以只使用其中的一种方式来确定提供者关联的停用视觉词。
在本实施例的一个变例中，考虑到一个提供者提供的待索引图像太少时，对视觉词的统计作用不大，因而该变例在本实施例的基础上，做了以下变化：在上述步骤120对该组待索引图像的范围内进行视觉词的统计和判断，确定该提供者关联的停用视觉词之前，先确定该组待索引图像的图像数目，判断该图像数目是否大于等于统计所需的最小数目，如果是，进行所述视觉词的统计和判断，如果否，不再进行所述视觉词的统计和判断，也即不再确定该提供者关联的停用视觉词。
相应地，该变例的系统中的视觉词修正模块在该组待索引图像的范围内进行视觉词的统计和判断，确定该提供者关联的停用视觉词之前，还包括：确定该组待索引图像的图像数目，判断该图像数目是否大于等于统计所需的最小数目，如果是，进行所述视觉词的统计和判断，如果否，不再进行所述视觉词的统计和判断。
本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成，所述程序可以存储于计算机可读存储介质中，如只读存储器、磁盘或光盘等。可选地，上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现，相应地，上述实施例中的各模块/单元可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。本申请不限制于任何特定形式的硬件和软件的结合。
以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。