对搜索引擎返回的网页图片进行实体聚类的系统.pdf

上传人：n****g

文档编号：4745547

上传时间：2018-11-05

格式：PDF

页数：10

大小：1.26MB

《对搜索引擎返回的网页图片进行实体聚类的系统.pdf》由会员分享，可在线阅读，更多相关《对搜索引擎返回的网页图片进行实体聚类的系统.pdf（10页完整版）》请在专利查询网上搜索。

1、(10)申请公布号 CN 104317867 A (43)申请公布日 2015.01.28 CN 104317867 A (21)申请号 201410554684.X (22)申请日 2014.10.17 G06F 17/30(2006.01) (71)申请人上海交通大学地址 200240 上海市闵行区东川路 800 号 (72)发明人朱其立赵凯祺蔡智源隋清宇魏恩勋 (74)专利代理机构上海汉声知识产权代理有限公司 31236 代理人郭国中樊昕 (54) 发明名称对搜索引擎返回的网页图片进行实体聚类的系统 (57) 摘要一种对搜索引擎返回的网页图片进行实体聚类的系。

2、统，包括离线系统和在线系统，离线系统用于对所有图片所在的源网页进行预处理，在线系统用于接收查询，提交到搜索引擎并接收返回的多页图片结果，对于每一个页的返回结果，找到源网页的概念化元数据和文本，并在概念化的文本中抽取查询上下文以及图片上下文，在线系统分别利用元数据，上下文，以及对上下文进行概念扩展后的扩展上下文进行三层聚类，并为每一个类别自动标注相关的描述性概念，以了解每一个类别的实体。本系统的三层聚类算法与一般的层次聚类算法具有相同的时间复杂度，而对于特征的细分使得每一层的输入即前一层的输出更加精确，能有效提升聚类效果，并且给出准确的描述概。

3、念。 (51)Int.Cl. 权利要求书 2 页说明书 6 页附图 1 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请权利要求书2页说明书6页附图1页 (10)申请公布号 CN 104317867 A CN 104317867 A 1/2 页 2 1. 一种对搜索引擎返回的网页图片进行实体聚类的系统，其特征在于，包括离线系统和在线系统，其中：离线系统，用于对所有图片所在的源网页进行预处理，包括抽取网页元数据，把原网页文本和元数据概念化成一组带权概念的集合，即，概念向量，概念化后的元数据和网页内容供在线系统查询使用；在线系统，用于接收。

4、查询，提交到搜索引擎并接收返回的多页图片结果，对于每一个页的返回结果，找到源网页的概念化元数据和文本，并在概念化的文本中抽取查询关键词的上下文以及图片上下文，在线系统分别利用元数据，上下文，以及对上下文进行概念扩展后的扩展上下文进行三层聚类，并为每一个类别自动标注相关的描述性概念，以了解每一个类别的实体。 2. 根据权利要求 1 所述的对搜索引擎返回的网页图片进行实体聚类的系统，其特征在于，所述离线系统进行元数据抽取，包括对 URL 中有效词条的抽取，图片 ALT 属性，其中对 URL 有效词条的抽取，是利用二类分类器对有效和无效词条进行分类，并返回有。

5、效词条。 3. 根据权利要求 1 所述的对搜索引擎返回的网页图片进行实体聚类的系统，其特征在于，所述离线系统包括概念化模块，用于对上下文进行概念扩展，文本通过概念化模块，转换成带权概念的集合，每个概念的权值为该概念对图片的重要性，其定义如下：其中， CF-IDF（c， d) 为概念 c 对图片 d 的重要性，包括两部分的乘积：概念在图片上下文出现的频率 CF(c， d)，以及反向上下文频率，其中反向上下文频率反比于概念出现过的上下文的数量 DF(c),D 为所有图片的上下文的集合。 4. 根据权利要求 1 所述的对搜索引擎返回的网页图片进行实体聚类的系统，。

6、其特征在于，在线系统包括文本上下文抽取模块，用于对所输入的查询关键词，抽取其概念化查询上下文和图片上下文。 5. 根据权利要求 4 所述的对搜索引擎返回的网页图片进行实体聚类的系统，其特征在于，所述在线系统包含三层聚类算法模块，该模块根据抽取的元数据，上下文，以及扩展的上下文三类特征从置信度最高的元数据，到上下文，到扩展上下文进行三个层次的聚类，其中：第一层聚类，通过元数据概念化后的概念向量进行聚合层次聚类，获得类内精度高的聚类结果，并且合并每个类里所有图片的概念向量作为类的概念向量；第二层聚类，向每个图片的概念向量中加入概念化上下文的概念向量。

7、，更新所有第一层聚类后得到的类的概念向量，并进一步对这些得到的类进行聚合层次聚类；第三层聚类，把每个图片的向量替换成扩展的概念向量，更新所有第二层聚类后得到的类的概念向量，并进一步对这些概念向量进行聚合层次聚类。 6. 根据权利要求 5 所述的对搜索引擎返回的网页图片进行实体聚类的系统，其特征在于，所使用的聚合层次聚类算法利用类的概念化进行类的相似度计算，类的概念化通过把类中的图片的概念向量进行相加，并且去除向量中值比较低的概念，得到高精度的类概念，类的概念化用如下公式定义：权利要求书 CN 104317867 A 2 2/2 页 3 其中， c 。

8、为概念， C 为类， d 为类中图片， CF-IDF(c， d) 为概念对图片的重要性。 7. 根据权利要求 5 所述的对搜索引擎返回的网页图片进行实体聚类的系统，其特征在于，第三层聚类通过维基百科进行上下文的扩展，把图片的概念向量替换成扩展的概念向量，并且更新每个类的概念向量，更新定义为如下公式：其中，为概念 c 对概念 ci的维基百科描述页面的重要性， VC为当前类概念向量所有概念的集合， ci为当前类概念向量中的概念，上下文扩展过程通过选取值最大的前 k 个概念对噪声数据进行过滤。 8. 根据权利要求 1 所述的对搜索引擎返回的网页图片进行实体聚类的系统，其特征。

9、在于，利用所述三层聚类后得出的类概念向量给每个图片类标注相关的描述概念，选取每个类的概念向量中值最高的前几个概念用于描述该类所代表的实体。权利要求书 CN 104317867 A 3 1/6 页 4 对搜索引擎返回的网页图片进行实体聚类的系统技术领域 0001 本发明涉及计算机技术领域的自然语言处理，文本挖掘，具体地，涉及对搜索引擎返回的网页图片进行实体聚类的系统。背景技术 0002 随着互联网的普及以及网页图片日益增长，网页图片搜索逐渐成为互联网用户的一大日常应用。目前的图片搜索引擎主要返回跟查询关键词相关的图片。而这些图片往往包含多个同名的实体。用户需要。

10、从搜索结果中找到所要的图片，需要浏览查看每张返回的图片。为了提高搜索结果的可读性，按照不同实体区分搜索结果成为了图像搜索引擎的一个改良反向。 0003 图像聚类是自动区分不同实体的方法。在过去的研究中， D.Cai( 参见 Cai,D.,He,X.,Ma,W.Y.,Wen,J.R.,Zhang,H.:Organizing www images based on the analysis of page layout and web link structure.ICME 2004) 利用基于视觉的分块的方式抽取网页图片的上下文，并且利用。

11、该上下文和网页链接信息进行聚类。然而由于视觉分块的不稳定，以及上下文中的噪声数据，聚类的精度有很大的限制； Z.Fu( 参见 Fu,Z.,Ip,H.H.S.,Lu,H.,Lu,Z.:Multi-modal constraint propagation for heterogeneous image clustering.MultiMedia 2011) 提供了一种结合照图像的标签和图像的视觉特征等多个模块的框架，在多个图上通过传递类的约束来实现图像聚类。目前视觉特征的抽取精度的不足，该框架会传播视觉特征所包含的错误。而且，该方法需要在多个图中进行约束传递，导致聚类效率。

12、低下，不适合于对在线图片搜索结果的聚类。目前的图像聚类方法并不能提供描述性的概念去给每一个类进行标注。发明内容 0004 本发明针对现有技术中的不足，提供了一个对搜索引擎返回的网页图片进行实体聚类的系统，使得图片搜索结果更好地按照不同实体组织起来，并且每个实体类具有高精度，不同实体之间具有明显的区分度。本发明把整个框架分成了在线和离线两个部分，大大减小了在线聚类的时间开销。 0005 为达到上述目的，本发明所采用的技术方案如下： 0006 一种对搜索引擎返回的网页图片进行实体聚类的系统，包括离线系统和在线系统两部分，其中： 0007 离线系统，用于对所有。

13、图片所在的源网页进行预处理，包括抽取网页元数据，把原网页文本和元数据概念化成一组带权概念的集合 ( 概念向量 )。概念化后的元数据和网页内容供在线系统查询使用。 0008 在线系统，用于接收查询，提交到搜索引擎并接收返回的多页图片结果，对于每一个页的返回结果，找到源网页的概念化元数据和文本，并在概念化的文本中抽取查询关键词的上下文 ( 查询上下文 ) 以及图片上下文，在线系统分别利用元数据，上下文，以及通过说明书 CN 104317867 A 4 2/6 页 5 维基百科对上下文进行概念扩展后的扩展上下文进行三层聚类，并为每一个类别自动标注相关的描述性概念。

14、，以了解每一个类别的实体。 0009 所述离线系统进行元数据抽取，包括对 URL 中有效词条的抽取，图片 ALT 属性，对 URL 有效词条的抽取，利用二类分类器对有效和无效词条进行分类，并返回有效词条。图片 ALT 属性可以直接从 HTML 源代码获得。 0010 所述离线系统包括概念化模块，包括对元数据和图片原网页文本的概念化，概念化通过把元数据和文本中的词映射到维基百科的概念上，使元数据和文本转化成带权概念的集合，以计算相似度，供聚类算法使用，每个概念的权值为该概念对图片的重要性，其定义如下： 0011 0012 其中， CF-IDF(c， d) 为概念。

15、 c 对图片 d 的重要性，包括两部分的乘积：概念在图片上下文出现的频率 CF(c， d)，以及反向上下文频率，其中反向上下文频率反比于概念出现过的上下文的数量 DF(c)。 0013 所述在线系统包括文本上下文抽取模块，在已经概念化的原网页文本里抽取上下文信息，包括图片上下文的抽取和查询上下文的抽取，图片上下文和查询上下文皆通过一个固定大小的窗口截取，比如图片或者查询关键词前后 50 个概念，抽取的文本上下文形成一个概念向量，以用于计算图片相似度。 0014 所述在线系统包含三层聚类算法模块，包括元数据聚类，文本上下文聚类，以及上下文概念扩展聚类三个模。

16、块，其中： 0015 第一层聚类，通过元数据概念化后的概念向量进行聚合层次聚类，获得类内精度高的聚类结果，并且合并每个类里所有图片的概念向量作为类的概念向量。 0016 其中，聚合层次聚类算法利用类的概念化进行类的相似度计算。类的概念化通过把类中的图片的概念向量进行相加，并且去除向量中值比较低的概念，得到高精度的类概念。类的概念化用如下公式定义： 0017 0018 其中， c 为概念， C 为类， d 为类中图片， CF-IDF(c， d) 为概念对图片的重要性。 0019 第二层聚类，向每个图片的概念向量中加入概念化上下文的概念向量，更新所有第一层聚类后得到的。

17、类的概念向量，并进一步对这些得到的类进行聚合层次聚类。 0020 第三层聚类，把每个图片的向量替换成扩展的概念向量，更新所有第二层聚类后得到的类的概念向量，并进一步对这些概念向量进行聚合层次聚类。 0021 其中，向量的扩展利用维基百科的概念描述页面，把相关的概念加入到图片的概念向量中，并且更新每个类的概念向量。其更新定义为如下公式： 0022 0023 其中，为概念 c 对概念 ci的维基百科描述页面的重要性， ci为当前类概念向量中的概念，此上下文扩展过程通过选取值最大的前 k 个概念对噪声数据进行说明书 CN 104317867 A 5 3/6 页 6 过滤。

18、。 0024 用三层聚类后得出的类概念向量给每个图片类标注相关的描述概念：选取每个类的概念向量中值最高的前几个概念用于描述该类所代表的实体。 0025 本发明解决的技术问题包括： 0026 1. 抽取图像上下文信息，并把上下文信息表示为概念空间中的向量，为图像相似度的计算提供特征。 0027 2. 由于某些图像存在上下文信息量不足的情况，本发明提供一种扩展上下文信息的机制，把上下文的概念向量通过维基百科或者其他知识库进行扩展。 0028 3. 由于不同的特征跟图片的相关度不同，相关度越高的特征的置信度越高，本发明为了有效利用不同相关度的特征来提高聚类的精度，依次对图。

19、片的概念向量进行扩展，并且聚类。 0029 以下通过检索的相关现有技术与本发明进行的对比，来说明本发明的技术特征。 0030 相关检索 1 ： 0031 申请 ( 专利 ) 号 :2012101444570，名称：一种图片聚类的方法及装置 0032 该专利文献通过对图片的视觉特征，包括全局特征以及局部特征进行了两次聚类，第二次聚类在第一次聚类的基础上进行切割。 0033 技术要点比较： 0034 1. 该专利根据图片的内容，即视觉特征进行图片聚类，而本发明中利用图片上下文的特征进行聚类。 0035 2. 该专利的二次聚类把大的类切割成小的类，而本发明从小的类聚合成大的。

20、类，利用每次扩展概念向量进行特征的筛选，过滤噪声数据。 0036 3. 本发明采用的概念向量表示方式能为每一类标注描述概念，而基于图片内容的聚类方式无法提供概念描述。 0037 相关检索 2 ： 0038 申请 ( 专利 ) 号 :2013106111554，名称：一种基于聚类紧凑特征的海量图像检索系统 0039 该专利文献通过图像的局部特征对图像库中的图像进行聚类。搜索的时候通过查询关键词先检索到图片聚类然后返回相应的图像。 0040 技术要点比较： 0041 1. 该专利根据图片的局部特征生成聚类紧凑特征，进行图片聚类，而本发明中利用图片上下文的特征进行聚类。。

21、0042 2. 该专利通过图像聚类来提高检索的速度，而本发明通过把搜索结果进行聚类并概念化以提供区分各个类别的搜索结果。 0043 相关检索 3 ： 0044 申请 ( 专利 ) 号 :201210545637X，名称：一种基于分层聚类的均衡图像聚类方法 0045 该专利文献利用图片聚类的方式减少搜索时所需要遍历的图片数量。图片聚类基于图像高维特征数据。 0046 技术要点比较： 0047 1. 该专利根据图片的高维特征，进行图片聚类，而本发明中利用图片上下文的特说明书 CN 104317867 A 6 4/6 页 7 征进行聚类。 0048 2. 该专利通过图像聚类。

22、减少检索时需要遍历的图片，采用的图像聚类方式是层次聚类，而本发明基于三种不同的上下文特征，通过三层聚类的方式提升聚类的精度。 0049 相关检索 4 ： 0050 申请 ( 专利 ) 号 :201210163641X，名称：图像聚类方法 0051 该专利通过拍摄设备获取图像的时间数据和位置数据，并利用时间和位置以及速度数据作为特征进行聚类。 0052 技术要点比较： 0053 1. 该专利主要针对拍摄图像进行聚类，而本发明针对网页图片进行聚类。拍摄的图像没有上下文信息，而网页图片不一定是拍摄图像，大部分没有拍摄时间和位置。两者的特征有所不同。 0054 2. 该。

23、专利基于事件序列进行聚类，而本发明基于概念向量。概念向量可以用于描述概念的生成。 0055 相关检索 5 ： 0056 申请 ( 专利 ) 号 :2009801523973，名称：使用基于内容的过滤和基于主题的聚类将图像布置到页面中 0057 该专利基于设备捕获到的图片的内容，即视觉特征，按照不同的主题聚类，并且把聚类的结果映射到相应的相簿中。 0058 技术要点比较： 0059 1. 该专利利用图片的视觉特征聚类，而本发明利用网页图片的上下文进行聚类。 0060 2. 该专利将图片通过图片布局到不同的页面上，而本发明为用户提供分类的搜索结果以及相应的描述概念。 0。

24、061 相关检索 6 ： 0062 申请 ( 专利 ) 号 :2010105171639，名称：图像聚类方法和系统 0063 该专利采用参数估计的方式建立图像的有向图，并且以分割有向图的方式进行图像聚类。有向图的分割形成多个子图，而每个子图的图像归为一个类。 0064 技术要点比较： 0065 1. 该专利利用图的方式进行聚类，图像库表示成一个有向图。本发明通过从小到大的方式聚合图片形成图片类，每一层聚类考虑不同的图像上下文特征。 0066 相关检索 7 ： 0067 申请 ( 专利 ) 号 :2005800393866，名称：图像聚类方法和系统 0068 该专利利用。

25、时间地点特征对图像按照事件进行聚类，采用的聚类算法根据不同的时间范围进行不同层的聚类。 0069 技术要点比较： 0070 1. 该专利的多层聚类中的层是不同时间范围，而本发明的层是按照不同特征所定义的层。 0071 2. 该专利按照事件序列进行聚类，而本发明按照不同的实体区分不同的图片类。 0072 与现有技术相比，本发明创造性地利用三种不同的特征，和对应的三层聚类算法，对图片进行聚类，并且为每一个类提供概念标注，使得图片搜索结果更好地按照不同实体说明书 CN 104317867 A 7 5/6 页 8 组织起来，并且每个实体类具有高精度，不同实体之间具有明显。

26、的区分度。本发明把整个框架分成了在线和离线两个部分，大大减小了在线聚类的时间开销。附图说明 0073 通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显： 0074 图 1 示出本发明的系统框架图； 0075 图 2 示出本发明的三层聚类算法示例图。具体实施方式 0076 下面结合附图对本发明的实施例作详细说明，本实施例在以发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。 0077 本实施例的任务是对用户输入的查询关键词 “bean” ，获取搜索引擎图片搜索结果。

27、，对结果中的不同 “bean” 的实例进行聚类，以辨别不同的实体，并为每个不同的 “bean” 提供前不同的概念标注。 0078 如图 1 所示，本发明的离线系统的元数据抽取模块对本实施例 “bean” 相关的所有原始网页进行元数据上下文抽取。如某网页的 URL 为： 0079 “http:/domain.com/53C316-C2oJ5/mr_bean.jpg” 0080 元数据抽取模块通过分割符将词分开，并利用二类分类器将有效字符检测出来。如：“mr bean” 。离线系统的概念化模块对 “bean” 的元数据以及相关网页进行了概念化，得到元数据概念向量和文本概念向量。

28、。 0081 当接收到用户的查询关键词 “bean” 后，在线系统的文本上下文抽取模块从概念化的文本中找到图片和查询关键词 “bean” 的位置，并且抽取前后 50 个概念作为文本上下文概念向量。利用元数据概念向量和文本上下文概念向量，在线系统进行三层聚类。 0082 如图 2 所示，在线系统的三层聚类模块首先按照元数据概念向量计算图片相似度并进行聚合层次聚类 ( 图片 1 和图片 2 的概念向量皆包含概念 “Mr.Bean” ，而图片 3 和图片4皆没找到有效的元数据概念)。在聚合层次聚类中，类间的相似度用类的概念向量来计算。系统从第一层聚类的结果计算出类的概念向量，。

29、如图片 1 和图片 2 形成了一个类，此类的概念向量包含概念 “Mr.Bean” 。 0083 第二层聚类在第一层聚类的基础上通过扩展图片的概念向量进行进一步聚类。如图 2 中图片 1 和图片 2 形成的类的概念向量加入了概念 “Rowan Atkinson” ，图片 3 的概念向量加入了 “Rowan Atkinson” 以及 “Comedy” ，图片 4 加入了 “Blackadder” 。由于扩展后的向量拥有更多共同的概念，在线系统经过第二次层次聚类合并一些相似的类，得到更为大的类。如图 2 中图片 1,2,3 形成了新的类，并且把类的概念向量扩展为 “Mr.B。

30、ean” ，“Rowan Atkinson” ，“Comedy” 。 0084 第三层聚类首先对各个类或者图片的向量用维基百科进行扩展，如图 2 中图片 1,2,3 组成的类的概念向量中加入了 “Blackadder” ，图片 4 加入了 “Rowan Atkinson” 。通过基于维基百科的扩展，类向量之间拥有更高的相似度。在线系统通过第三次层次聚类去说明书 CN 104317867 A 8 6/6 页 9 进一步聚合一些原来由于信息量不足而没有合并的类。如图 2 中的图片 4 通过扩展向量可以合并到包含图片 1,2,3 的类中。 0085 在三层聚类算法结束后，在线系统分。

31、开不同的类别，把所有实体及其图片呈现给用户。每个实体用对应概念向量中最有代表性的概念 ( 值最大 ) 的前几个概念来描述。比如图 2 中的类可以用 “Mr.Bean” ，“Rowan Atkinson” ，“Comedy” ，“Blackadder” 等概念来描述关于名为憨豆先生的美国喜剧演员的图片。 0086 以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。说明书 CN 104317867 A 9 1/1 页 10 图 1 图 2 说明书附图 CN 104317867 A 10 。

摘要
申请专利号：	CN201410554684.X	申请日：	2014.10.17
公开号：	CN104317867A	公开日：	2015.01.28
当前法律状态：	授权	有效性：	有权
法律详情：	授权\|\|\|实质审查的生效IPC(主分类):G06F 17/30申请日:20141017\|\|\|公开
IPC分类号：	G06F17/30	主分类号：	G06F17/30
申请人：	上海交通大学
发明人：	朱其立; 赵凯祺; 蔡智源; 隋清宇; 魏恩勋
地址：	200240 上海市闵行区东川路800号
优先权：
专利代理机构：	上海汉声知识产权代理有限公司 31236	代理人：	郭国中;樊昕
PDF完整版下载：	PDF下载

内容摘要

一种对搜索引擎返回的网页图片进行实体聚类的系统，包括离线系统和在线系统，离线系统用于对所有图片所在的源网页进行预处理，在线系统用于接收查询，提交到搜索引擎并接收返回的多页图片结果，对于每一个页的返回结果，找到源网页的概念化元数据和文本，并在概念化的文本中抽取查询上下文以及图片上下文，在线系统分别利用元数据，上下文，以及对上下文进行概念扩展后的扩展上下文进行三层聚类，并为每一个类别自动标注相关的描述性概念，以了解每一个类别的实体。本系统的三层聚类算法与一般的层次聚类算法具有相同的时间复杂度，而对于特征的细分使得每一层的输入即前一层的输出更加精确，能有效提升聚类效果，并且给出准确的描述概念。

权利要求书

权利要求书
1.  一种对搜索引擎返回的网页图片进行实体聚类的系统，其特征在于，包括离线系统和在线系统，其中：
离线系统，用于对所有图片所在的源网页进行预处理，包括抽取网页元数据，把原网页文本和元数据概念化成一组带权概念的集合，即，概念向量，概念化后的元数据和网页内容供在线系统查询使用；
在线系统，用于接收查询，提交到搜索引擎并接收返回的多页图片结果，对于每一个页的返回结果，找到源网页的概念化元数据和文本，并在概念化的文本中抽取查询关键词的上下文以及图片上下文，在线系统分别利用元数据，上下文，以及对上下文进行概念扩展后的扩展上下文进行三层聚类，并为每一个类别自动标注相关的描述性概念，以了解每一个类别的实体。

2.  根据权利要求1所述的对搜索引擎返回的网页图片进行实体聚类的系统，其特征在于，所述离线系统进行元数据抽取，包括对URL中有效词条的抽取，图片ALT属性，其中对URL有效词条的抽取，是利用二类分类器对有效和无效词条进行分类，并返回有效词条。

3.  根据权利要求1所述的对搜索引擎返回的网页图片进行实体聚类的系统，其特征在于，所述离线系统包括概念化模块，用于对上下文进行概念扩展，文本通过概念化模块，转换成带权概念的集合，每个概念的权值为该概念对图片的重要性，其定义如下：
CF-IDF(c,d)=CF(c,d)×log|D|DF(c)]]>
其中，CF-IDF（c，d)为概念c对图片d的重要性，包括两部分的乘积：概念在图片上下文出现的频率CF(c，d)，以及反向上下文频率，其中反向上下文频率反比于概念出现过的上下文的数量DF(c),D为所有图片的上下文的集合。

4.  根据权利要求1所述的对搜索引擎返回的网页图片进行实体聚类的系统，其特征在于，在线系统包括文本上下文抽取模块，用于对所输入的查询关键词，抽取其概念化查询上下文和图片上下文。

5.  根据权利要求4所述的对搜索引擎返回的网页图片进行实体聚类的系统，其特征在于，所述在线系统包含三层聚类算法模块，该模块根据抽取的元数据，上下文，以及扩展的上下文三类特征从置信度最高的元数据，到上下文，到扩展上下文进行三个层次的聚类，其中：
第一层聚类，通过元数据概念化后的概念向量进行聚合层次聚类，获得类内精度高的聚类结果，并且合并每个类里所有图片的概念向量作为类的概念向量；
第二层聚类，向每个图片的概念向量中加入概念化上下文的概念向量，更新所有第一层聚类后得到的类的概念向量，并进一步对这些得到的类进行聚合层次聚类；
第三层聚类，把每个图片的向量替换成扩展的概念向量，更新所有第二层聚类后得到的类的概念向量，并进一步对这些概念向量进行聚合层次聚类。

6.  根据权利要求5所述的对搜索引擎返回的网页图片进行实体聚类的系统，其特征在于，所使用的聚合层次聚类算法利用类的概念化进行类的相似度计算，类的概念化通过把类中的图片的概念向量进行相加，并且去除向量中值比较低的概念，得到高精度的类概念，类的概念化用如下公式定义：
V(C){c}=Σd&Element;CCF-IDF(c,d)]]>
其中，c为概念，C为类，d为类中图片，CF-IDF(c，d)为概念对图片的重要性。

7.  根据权利要求5所述的对搜索引擎返回的网页图片进行实体聚类的系统，其特征在于，第三层聚类通过维基百科进行上下文的扩展，把图片的概念向量替换成扩展的概念向量，并且更新每个类的概念向量，更新定义为如下公式：
V′(C){c}=Σci&Element;VC(V(C){ci}×CF-IDF(c,dci))]]>
其中，为概念c对概念ci的维基百科描述页面的重要性，VC为当前类概念向量所有概念的集合，ci为当前类概念向量中的概念，上下文扩展过程通过选取值最大的前k个概念对噪声数据进行过滤。

8.  根据权利要求1所述的对搜索引擎返回的网页图片进行实体聚类的系统，其特征在于，利用所述三层聚类后得出的类概念向量给每个图片类标注相关的描述概念，选取每个类的概念向量中值最高的前几个概念用于描述该类所代表的实体。

说明书

说明书对搜索引擎返回的网页图片进行实体聚类的系统
技术领域
本发明涉及计算机技术领域的自然语言处理，文本挖掘，具体地，涉及对搜索引擎返回的网页图片进行实体聚类的系统。
背景技术
随着互联网的普及以及网页图片日益增长，网页图片搜索逐渐成为互联网用户的一大日常应用。目前的图片搜索引擎主要返回跟查询关键词相关的图片。而这些图片往往包含多个同名的实体。用户需要从搜索结果中找到所要的图片，需要浏览查看每张返回的图片。为了提高搜索结果的可读性，按照不同实体区分搜索结果成为了图像搜索引擎的一个改良反向。
图像聚类是自动区分不同实体的方法。在过去的研究中，D.Cai(参见Cai,D.,He,X.,Ma,W.Y.,Wen,J.R.,Zhang,H.:Organizing www images based on the analysis of page layout and web link structure.ICME 2004)利用基于视觉的分块的方式抽取网页图片的上下文，并且利用该上下文和网页链接信息进行聚类。然而由于视觉分块的不稳定，以及上下文中的噪声数据，聚类的精度有很大的限制；Z.Fu(参见Fu,Z.,Ip,H.H.S.,Lu,H.,Lu,Z.:Multi-modal constraint propagation for heterogeneous image clustering.MultiMedia 2011)提供了一种结合照图像的标签和图像的视觉特征等多个模块的框架，在多个图上通过传递类的约束来实现图像聚类。目前视觉特征的抽取精度的不足，该框架会传播视觉特征所包含的错误。而且，该方法需要在多个图中进行约束传递，导致聚类效率低下，不适合于对在线图片搜索结果的聚类。目前的图像聚类方法并不能提供描述性的概念去给每一个类进行标注。
发明内容
本发明针对现有技术中的不足，提供了一个对搜索引擎返回的网页图片进行实体聚类的系统，使得图片搜索结果更好地按照不同实体组织起来，并且每个实体类具有高精度，不同实体之间具有明显的区分度。本发明把整个框架分成了在线和离线两个部分，大大减小了在线聚类的时间开销。
为达到上述目的，本发明所采用的技术方案如下：
一种对搜索引擎返回的网页图片进行实体聚类的系统，包括离线系统和在线系统两部分，其中：
离线系统，用于对所有图片所在的源网页进行预处理，包括抽取网页元数据，把原网页文本和元数据概念化成一组带权概念的集合(概念向量)。概念化后的元数据和网页内容供在线系统查询使用。
在线系统，用于接收查询，提交到搜索引擎并接收返回的多页图片结果，对于每一个页的返回结果，找到源网页的概念化元数据和文本，并在概念化的文本中抽取查询关键词的上下文(查询上下文)以及图片上下文，在线系统分别利用元数据，上下文，以及通过维基百科对上下文进行概念扩展后的扩展上下文进行三层聚类，并为每一个类别自动标注相关的描述性概念，以了解每一个类别的实体。
所述离线系统进行元数据抽取，包括对URL中有效词条的抽取，图片ALT属性，对URL有效词条的抽取，利用二类分类器对有效和无效词条进行分类，并返回有效词条。图片ALT属性可以直接从HTML源代码获得。
所述离线系统包括概念化模块，包括对元数据和图片原网页文本的概念化，概念化通过把元数据和文本中的词映射到维基百科的概念上，使元数据和文本转化成带权概念的集合，以计算相似度，供聚类算法使用，每个概念的权值为该概念对图片的重要性，其定义如下：
CF-IDF(c,d)=CF(c,d)×log|D|DF(c)]]>
其中，CF-IDF(c，d)为概念c对图片d的重要性，包括两部分的乘积：概念在图片上下文出现的频率CF(c，d)，以及反向上下文频率，其中反向上下文频率反比于概念出现过的上下文的数量DF(c)。
所述在线系统包括文本上下文抽取模块，在已经概念化的原网页文本里抽取上下文信息，包括图片上下文的抽取和查询上下文的抽取，图片上下文和查询上下文皆通过一个固定大小的窗口截取，比如图片或者查询关键词前后50个概念，抽取的文本上下文形成一个概念向量，以用于计算图片相似度。
所述在线系统包含三层聚类算法模块，包括元数据聚类，文本上下文聚类，以及上下文概念扩展聚类三个模块，其中：
第一层聚类，通过元数据概念化后的概念向量进行聚合层次聚类，获得类内精度高的聚类结果，并且合并每个类里所有图片的概念向量作为类的概念向量。
其中，聚合层次聚类算法利用类的概念化进行类的相似度计算。类的概念化通过把类中的图片的概念向量进行相加，并且去除向量中值比较低的概念，得到高精度的类概念。类的概念化用如下公式定义：
V(C){c}=Σd&Element;CCF-IDF(c,d)]]>
其中，c为概念，C为类，d为类中图片，CF-IDF(c，d)为概念对图片的重要性。
第二层聚类，向每个图片的概念向量中加入概念化上下文的概念向量，更新所有第一层聚类后得到的类的概念向量，并进一步对这些得到的类进行聚合层次聚类。
第三层聚类，把每个图片的向量替换成扩展的概念向量，更新所有第二层聚类后得到的类的概念向量，并进一步对这些概念向量进行聚合层次聚类。
其中，向量的扩展利用维基百科的概念描述页面，把相关的概念加入到图片的概念向量中，并且更新每个类的概念向量。其更新定义为如下公式：
V′(C){c}=Σci&Element;VC(V(C){ci}×CF-IDF(c,dci))]]>
其中，为概念c对概念ci的维基百科描述页面的重要性，ci为当前类概念向量中的概念，此上下文扩展过程通过选取值最大的前k个概念对噪声数据进行过滤。
用三层聚类后得出的类概念向量给每个图片类标注相关的描述概念：选取每个类的概念向量中值最高的前几个概念用于描述该类所代表的实体。
本发明解决的技术问题包括：
1.抽取图像上下文信息，并把上下文信息表示为概念空间中的向量，为图像相似度的计算提供特征。
2.由于某些图像存在上下文信息量不足的情况，本发明提供一种扩展上下文信息的机制，把上下文的概念向量通过维基百科或者其他知识库进行扩展。
3.由于不同的特征跟图片的相关度不同，相关度越高的特征的置信度越高，本发明为了有效利用不同相关度的特征来提高聚类的精度，依次对图片的概念向量进行扩展，并且聚类。
以下通过检索的相关现有技术与本发明进行的对比，来说明本发明的技术特征。
相关检索1：
申请(专利)号:2012101444570，名称：一种图片聚类的方法及装置
该专利文献通过对图片的视觉特征，包括全局特征以及局部特征进行了两次聚类，第二次聚类在第一次聚类的基础上进行切割。
技术要点比较：
1.该专利根据图片的内容，即视觉特征进行图片聚类，而本发明中利用图片上下文的特征进行聚类。
2.该专利的二次聚类把大的类切割成小的类，而本发明从小的类聚合成大的类，利用每次扩展概念向量进行特征的筛选，过滤噪声数据。
3.本发明采用的概念向量表示方式能为每一类标注描述概念，而基于图片内容的聚类方式无法提供概念描述。
相关检索2：
申请(专利)号:2013106111554，名称：一种基于聚类紧凑特征的海量图像检索系统
该专利文献通过图像的局部特征对图像库中的图像进行聚类。搜索的时候通过查询关键词先检索到图片聚类然后返回相应的图像。
技术要点比较：
1.该专利根据图片的局部特征生成聚类紧凑特征，进行图片聚类，而本发明中利用图片上下文的特征进行聚类。
2.该专利通过图像聚类来提高检索的速度，而本发明通过把搜索结果进行聚类并概念化以提供区分各个类别的搜索结果。
相关检索3：
申请(专利)号:201210545637X，名称：一种基于分层聚类的均衡图像聚类方法
该专利文献利用图片聚类的方式减少搜索时所需要遍历的图片数量。图片聚类基于图像高维特征数据。
技术要点比较：
1.该专利根据图片的高维特征，进行图片聚类，而本发明中利用图片上下文的特征进行聚类。
2.该专利通过图像聚类减少检索时需要遍历的图片，采用的图像聚类方式是层次聚类，而本发明基于三种不同的上下文特征，通过三层聚类的方式提升聚类的精度。
相关检索4：
申请(专利)号:201210163641X，名称：图像聚类方法
该专利通过拍摄设备获取图像的时间数据和位置数据，并利用时间和位置以及速度数据作为特征进行聚类。
技术要点比较：
1.该专利主要针对拍摄图像进行聚类，而本发明针对网页图片进行聚类。拍摄的图像没有上下文信息，而网页图片不一定是拍摄图像，大部分没有拍摄时间和位置。两者的特征有所不同。
2.该专利基于事件序列进行聚类，而本发明基于概念向量。概念向量可以用于描述概念的生成。
相关检索5：
申请(专利)号:2009801523973，名称：使用基于内容的过滤和基于主题的聚类将图像布置到页面中
该专利基于设备捕获到的图片的内容，即视觉特征，按照不同的主题聚类，并且把聚类的结果映射到相应的相簿中。
技术要点比较：
1.该专利利用图片的视觉特征聚类，而本发明利用网页图片的上下文进行聚类。
2.该专利将图片通过图片布局到不同的页面上，而本发明为用户提供分类的搜索结果以及相应的描述概念。
相关检索6：
申请(专利)号:2010105171639，名称：图像聚类方法和系统
该专利采用参数估计的方式建立图像的有向图，并且以分割有向图的方式进行图像聚类。有向图的分割形成多个子图，而每个子图的图像归为一个类。
技术要点比较：
1.该专利利用图的方式进行聚类，图像库表示成一个有向图。本发明通过从小到大的方式聚合图片形成图片类，每一层聚类考虑不同的图像上下文特征。
相关检索7：
申请(专利)号:2005800393866，名称：图像聚类方法和系统
该专利利用时间地点特征对图像按照事件进行聚类，采用的聚类算法根据不同的时间范围进行不同层的聚类。
技术要点比较：
1.该专利的多层聚类中的层是不同时间范围，而本发明的层是按照不同特征所定义的层。
2.该专利按照事件序列进行聚类，而本发明按照不同的实体区分不同的图片类。
与现有技术相比，本发明创造性地利用三种不同的特征，和对应的三层聚类算法，对图片进行聚类，并且为每一个类提供概念标注，使得图片搜索结果更好地按照不同实体组织起来，并且每个实体类具有高精度，不同实体之间具有明显的区分度。本发明把整个框架分成了在线和离线两个部分，大大减小了在线聚类的时间开销。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：
图1示出本发明的系统框架图；
图2示出本发明的三层聚类算法示例图。
具体实施方式
下面结合附图对本发明的实施例作详细说明，本实施例在以发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。
本实施例的任务是对用户输入的查询关键词“bean”，获取搜索引擎图片搜索结果，对结果中的不同“bean”的实例进行聚类，以辨别不同的实体，并为每个不同的“bean”提供前不同的概念标注。
如图1所示，本发明的离线系统的元数据抽取模块对本实施例“bean”相关的所有原始网页进行元数据上下文抽取。如某网页的URL为：
“http://domain.com/53C316-C2oJ5/mr_bean.jpg”
元数据抽取模块通过分割符将词分开，并利用二类分类器将有效字符检测出来。如：“mr bean”。离线系统的概念化模块对“bean”的元数据以及相关网页进行了概念化，得到元数据概念向量和文本概念向量。
当接收到用户的查询关键词“bean”后，在线系统的文本上下文抽取模块从概念化的文本中找到图片和查询关键词“bean”的位置，并且抽取前后50个概念作为文本上下文概念向量。利用元数据概念向量和文本上下文概念向量，在线系统进行三层聚类。
如图2所示，在线系统的三层聚类模块首先按照元数据概念向量计算图片相似度并进行聚合层次聚类(图片1和图片2的概念向量皆包含概念“Mr.Bean”，而图片3和图片4皆没找到有效的元数据概念)。在聚合层次聚类中，类间的相似度用类的概念向量来计算。系统从第一层聚类的结果计算出类的概念向量，如图片1和图片2形成了一个类，此类的概念向量包含概念“Mr.Bean”。
第二层聚类在第一层聚类的基础上通过扩展图片的概念向量进行进一步聚类。如图2中图片1和图片2形成的类的概念向量加入了概念“Rowan Atkinson”，图片3的概念向量加入了“Rowan Atkinson”以及“Comedy”，图片4加入了“Blackadder”。由于扩展后的向量拥有更多共同的概念，在线系统经过第二次层次聚类合并一些相似的类，得到更为大的类。如图2中图片1,2,3形成了新的类，并且把类的概念向量扩展为“Mr.Bean”，“Rowan Atkinson”，“Comedy”。
第三层聚类首先对各个类或者图片的向量用维基百科进行扩展，如图2中图片1,2,3组成的类的概念向量中加入了“Blackadder”，图片4加入了“Rowan Atkinson”。通过基于维基百科的扩展，类向量之间拥有更高的相似度。在线系统通过第三次层次聚类去进一步聚合一些原来由于信息量不足而没有合并的类。如图2中的图片4通过扩展向量可以合并到包含图片1,2,3的类中。
在三层聚类算法结束后，在线系统分开不同的类别，把所有实体及其图片呈现给用户。每个实体用对应概念向量中最有代表性的概念(值最大)的前几个概念来描述。比如图2中的类可以用“Mr.Bean”，“Rowan Atkinson”，“Comedy”，“Blackadder”等概念来描述关于名为憨豆先生的美国喜剧演员的图片。
以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。