书签分享收藏举报版权申诉 / 21

立即下载加入VIP,免费下载

当前位置：首页 > 物理 > 计算；推算；计数 > 社会标签自动标注的方法以及社会标签自动标注器.pdf

社会标签自动标注的方法以及社会标签自动标注器.pdf

上传人：大师****2

文档编号：4058388

上传时间：2018-08-13

格式：PDF

页数：21

大小：830.06KB

《社会标签自动标注的方法以及社会标签自动标注器.pdf》由会员分享，可在线阅读，更多相关《社会标签自动标注的方法以及社会标签自动标注器.pdf（21页完整版）》请在专利查询网上搜索。

1、(10)申请公布号 CN 102289514 A(43)申请公布日 2011.12.21CN102289514A*CN102289514A*(21)申请号 201110263798.5(22)申请日 2011.09.07G06F 17/30(2006.01)(71)申请人中国科学院计算技术研究所地址 100190 北京市海淀区中关村科学院南路6号(72)发明人刘盛华程学旗郭嘉丰刘悦廖华明朱亚涛(74)专利代理机构北京泛华伟业知识产权代理有限公司 11280代理人王勇(54) 发明名称社会标签自动标注的方法以及社会标签自动标注器(57) 摘要本发明提供一种社会化标签自动标注的方法。该方法。

2、包括计算标签词项在文档中的频率(TF)权重，以及由协同过滤CF、一致性话题模型Corr-LDA方法所得的标签权重，并归一化；对上述权重建立线性融合权值模型，并估计线性融合参数；以及基于线性融合模型对社会标签进行自动标注。该发明同时考虑了社会标签与文档具体内容的一致性和抽象语义层的相关性，因此能够提高社会标签自动标注的准确性。(51)Int.Cl.(19)中华人民共和国国家知识产权局(12)发明专利申请权利要求书 3 页说明书 14 页附图 3 页CN 102289529 A 1/3页21.一种社会标签自动标注的方法，所述方法包括：步骤1)初始化网页数据集，形成对应的词项空间和标签空间；所述。

3、网页数据集由已经被用户标注的网页组成，并被分为训练集R和R；步骤2)对于训练集R中的每个网页，计算所述标签空间中每个标签对于该网页的权值向量，其中，标签j对于网页i的权值向量i，j，i，j，i，j分别为基于训练集R和R，利用词频关键词、协同过滤和一致性话题模型的方法计算得到的标签j对于网页i的归一化的权重值；步骤3)建立线性融合权值模型并且基于训练集R对参数1，2，3进行估计，其中表示对于网页i的一种标签项序列，标签项(j)处于该序列的第j位；步骤4)基于步骤3)所估计的参数，计算所述标签空间中每个标签对于将要被标注的网页的线性融合权值，按该权值的大小自动生成用于标注该网页的标签项序列。2.根。

4、据权利要求1所述的方法，其中步骤1)包括以下步骤：步骤11)基于词袋模型对网页数据集进行处理，形成对应的词项空间V和标签空间U；步骤12)在词项空间V和标签空间U的基础上，将网页数据集中的每个网页表示为一个二元组(wi，ti)，其中wiV，tiU，矢量wi的元素wi，j表示词项在网页i中出现的次数，矢量ti的元素ti，k表示标签在网页i中标注过的次数。3.根据权利要求2所述的方法，其中在步骤11)之前还包括对网页数据进行降噪处理，过滤掉少于100个用户标注的网页的步骤。4.根据权利要求1或2所述的方法，步骤3)采用梯度下降法来基于训练集R对参数1，2，3进行估计。5.根据权利要求4所述的方法，。

5、其中步骤3)中包括以下步骤：步骤31)建立线性融合权值模型步骤32)在训练集R上建立似然函数：其中，|R|表示训练集R的大小；步骤33)对于参数执行以下步骤：(1)选择一个初始的值，作如下计算：(2)判断|是否成立；(3)如果不等式成立，则回溯直线查找发现一个步长值t，更新值(-t)，并对值正规化，然后返回步骤(2)；(4)如果不等式不成立，则返回线性融合参数；权利要求书CN 102289514 ACN 102289529 A 2/3页3其中，值的初始值为0，1间的随机数，取0.0001。6.一种社会标签自动标注器，包括：网页数据集初始化装置，用于初始化网页数据集，形成对应的词项空间和。

6、标签空间；所述网页数据集由已经被用户标注的网页组成，并被分为训练集R和R；权重计算装置，用于对训练集R中的每个网页，计算所述标签空间中每个标签对于该网页的权值向量，其中，标签j对于网页i的权值向量i，j，i，j，i，j分别为基于训练集R和R，利用词频关键词、协同过滤和一致性话题模型的方法计算得到的标签j对于网页i的归一化的权重值；线性融合参数估计装置，用于建立线性融合权值模型：并且基于训练集R对参数1，2，3进行估计，其中表示对于网页i的一种标签项序列，标签项(j)处于该序列的第j位；标签标注装置，用于根据所估计的参数，计算所述标签空间中每个标签对于将要被标注的网页的线性融合权值，按该权值的大。

7、小自动生成用于标注该网页的标签项序列。7.根据权利要求6所述的社会标签自动标注器，其中，所述网页数据集初始化装置包括：用于基于词袋模型对网页数据集进行处理，形成对应的词项空间V和标签空间U的装置；用于在词项空间V和标签空间U的基础上，将网页数据集中的每个网页表示为一个二元组(wi，ti)的装置，其中wiV，tiU，矢量wi的元素wi，j表示词项在网页i中出现的次数，矢量ti的元素ti，k表示标签在网页i中标注过的次数。8.根据权利要求7所述的社会标签自动标注器，其中，所述网页数据集初始化装置还包括用于对网页数据进行降噪处理，过滤掉少于100个用户标注的网页的装置。9.根据权利要求6或7所述的社。

8、会标签自动标注器，其中，所述线性融合参数估计装置包括：用于建立线性融合权值模型的装置；用于在训练集R上建立似然函数L的装置，其中其中，|R|表示训练集R的大小；估计参数的装置，其用于：(1)选择一个初始的值，作如下计算：(2)判断|是否成立；权利要求书CN 102289514 ACN 102289529 A 3/3页4(3)如果不等式成立，则回溯直线查找发现一个步长值t，更新值(-t)，并对值正规化，然后返回步骤(2)；(4)如果不等式不成立，则返回线性融合参数；其中，值的初始值为0，1间的随机数，取0.0001。权利要求书CN 102289514 ACN 102289529 。

9、A 1/14页5社会标签自动标注的方法以及社会标签自动标注器技术领域0001 本发明属于互联网信息搜索与检索领域，尤其涉及针对以文本为主要内容的网页的分类方法。背景技术0002 社会标签是一种针对文章或图片等信息的更为灵活、有趣的分类方式。用户可以为每篇文章或每张图片，或每条信息添加一个或多个标签，从而根据这些标签把这些文章或图片或信息进行分类。用户可以在系统中创建自己的标签，也可以对文章或链接使用标签来标记。简单地，用户可以把一个标签(Tag)理解为一个文章或图片的分类。标签，又被称为软分类，即根据文章或者图片或者信息的意义，由信息的组织者为信息指定一个或者多个“标签”。传统的分类，又称为硬。

10、分类，即就是网页发布文章或图片或信息时，所选择的系统现有的固定的分类。标签和硬分类相比，硬分类一般是事先预定好的，即文章或图片属于哪一个分类，事先就已经规定好了。而标签不同，它是在文章或图片完成之后，再由用户添加的。0003 网页的社会标签标注，又名合作标签标注、社会分类法、社会标引，其是一种个人或团体将术语、名称等(也可称为“标签”)与一个在线“社会”环境中的数字资源作关联的方法。0004 随着Web2.0技术应用的兴起，社会标签标注因其在组织内容上的优势变得越来越流行。它可以为网络信息导航、过滤、提高网络搜索质量以及查询推荐等网络应用提供支持。但另一方面，网络上的大多网页很少甚至没有标注标。

11、签，即使是标签服务网站，如Del.icio.us也只是对网络上小部分链接进行了标注。这就给社会标签的应用带来了很大的不便。0005 可以想象，如果能为大多网页标注社会标签，无疑会将上述的障碍扫除。因此自动化的社会标签标注，即基于已有的社会标签标注的数据对一个新的网页进行标注，正得到越来越多的关注。0006 现有的技术主要分为三类：基于本体和关键词抽取的方法，例如参考文献1(Dill，S.，Eiron，N.，Gibson，D.，Gruhl，D.，Guha，R.V.，Jhingran，A.，Kanungo，T.，Rajagopalan，S.，Tomkins，A.，Tomlin，J.A.，and Z。

12、ien，J.Y.2003.SemTag and Seeker：Bootstrapping the Semantic Web via Automated Semantic Annotation.In WWW03：Proc.of the Twelfth International World Wide Web Conference.178-186.)中提供一个大规模文本分析和自动语义标注的平台，它通过对一小部分训练数据的学习来对网页进行自动标注。但这里的应用的前提是假设本体工程在社会标签标注前已经建立好或者本体工程的建立仅仅依赖于网页的关键词(Keyword)抽取。另外，关键词直观描述了Web文档。

13、的内容，同时社会标签与文档的内容具有一致性，因此关键词成为了生成标签的最直接的方法。基于“词袋”的语言模型假设，文档中词项的出现频率(Term Frequency，TF)(也可简称为词频)，反映了该词项的关键程度，于是往往成为的关键词提取的权重之一。例如参考文说明书CN 102289514 ACN 102289529 A 2/14页6献2(Chirita，P.A.，Costache，S.，Nejdl，W.，and Handschuh，S.2007.P-tag：large scale automatic generation of personalized annotation tags f。

14、or the web.In WWW07：Proceedings ofthe 16thinternational conference on World Wide Web.845-854.)通过提取Web文档关键词的方法来自动标签标注。而现实情况是社会标签的内容不仅仅来源于网页的关键词，它还涉及很多网页文本之外的内容。0007 基于协同过滤(collaborative filtering，CF)的方法，例如参考文献3(Lu，Y.-T.，Yu，S.-I.，Chang，T.-C.，and Hsu，J.Y.2009.A content-based method to enhance tag recom。

15、mendation.In In Proc.of IJCAI09.2064-2069.)提出了一个生成网页标签的协同过滤方法，该方法依据当前网页与其近邻网页内容的相似度大小，从其近邻网页的标签中生成当前网页的标签。然而，基于协同过滤的标签推荐方法仅仅是从当前网页的近邻网页中生成标签，而没有考虑到语义层面，尤其是同义和反义。0008 基于话题模型的方法，例如混合成员的话题模型MM-LDA(mixed membership LDA)模型(参考文献4：Erosheva，E.，Fienberg，S.，and Lafferty，J.2004.Mixed membership models of scien。

16、tific publications.In Proceedings of the National Academy of Sciences.Vol.101.press，5220-5227.)将Web文档的词项和标注的标签分别完全独立地由同一个话题分布生成。进一步参考文献5(Guo，J.，Cheng，X.，Shen，H.，and Bai，S.2009.Exploring collaboratively annotated data for automatic annotation.In Workshop on Content Analysis in the Web 2.0in the 18th 。

17、International World Wide WebConference.)提出了一致性话题模型Corr-LDA (correspondence latent Dirichlet allocation)。该模型更加紧凑地模型化了Web文档词项与标签的生成过程。但随着词项降维和混合隐藏话题的建模，这两种话题模型MM-LDA和Corr-LDA在标签预测中往往会忽略很多细节并带有噪音数据。发明内容0009 本发明的目的在于克服上述现有技术的缺陷，提供一种自动进行社会标签标注的方法，同时考虑文档具体内容的一致性和抽象语义层的相关性，以提高社会标签自动标注的准确性。0010 本发明的目的是通过以下技。

18、术方案实现的：0011 一方面，本发明提供了一种社会标签自动标注的方法，包括：0012 步骤1)初始化网页数据集，形成对应的词项空间和标签空间；所述网页数据集由已经被用户标注的网页组成，并被分为训练集R和R；0013 步骤2)对于训练集R中的每个网页，计算所述标签空间中每个标签对于该网页的权值向量，其中，标签j对于网页i的权值向量i，j，i，j，i，j分别为基于训练集R和R，利用词频关键词、协同过滤和一致性话题模型的方法计算得到的标签j对于网页i的归一化的权重值；0014 步骤3)建立线性融合权值模型0015 并且基于训练集R对参数1，2，3进行估计，其中表示对于网页i的一种标签项序列，标签项。

19、(j)处于该序列的第j位；说明书CN 102289514 ACN 102289529 A 3/14页70016 步骤4)基于步骤3)所估计的参数，计算所述标签空间中每个标签对于将要被标注的网页的线性融合权值，按该权值的大小自动生成用于标注该网页的标签项序列。0017 上述方法中，步骤1)包括以下步骤：0018 步骤11)基于词袋模型对网页数据集进行处理，形成对应的词项空间V和标签空间U；0019 步骤12)在词项空间V和标签空间U的基础上，将网页数据集中的每个网页表示为一个二元组(wi，ti)，其中wiV，tiU，矢量wi的元素wi，j表示词项在网页i中出现的次数，矢量ti的元素ti，k表。

20、示标签在网页i中标注过的次数。0020 上述方法中，在步骤11)之前还包括对网页数据进行降噪处理，过滤掉少于100个用户标注的网页的步骤。0021 上述方法中，步骤3)采用梯度下降法来基于训练集R对参数1，2，3进行估计。0022 上述方法中，步骤3)中包括以下步骤：0023 步骤31)建立线性融合权值模型0024 步骤32)在训练集R上建立似然函数：0025 0026 其中，|R|表示训练集R的大小；0027 步骤33)对于参数执行以下步骤：0028 (1)选择一个初始的值，作如下计算：0029 0030 (2)判断|是否成立；0031 (3)如果不等式成立，则回溯直线查找发现一个步长值t，。

21、更新值(-t)，并对值正规化，然后返回步骤(2)；0032 (4)如果不等式不成立，则返回线性融合参数；0033 其中，值的初始值为0，1间的随机数，取0.0001。0034 又一方面，本发明提供了一种社会标签自动标注器，包括：0035 网页数据集初始化装置，用于初始化网页数据集，形成对应的词项空间和标签空间；所述网页数据集由已经被用户标注的网页组成，并被分为训练集R和R；0036 权重计算装置，用于对训练集R中的每个网页，计算所述标签空间中每个标签对于该网页的权值向量，其中，标签j对于网页i的权值向量i，j，i，j，i，j分别为基于训练集R和R，利用词频关键词、协同过滤和一致性话题模型的方法。

22、计算得到的标签j对于网页i的归一化的权重值；说明书CN 102289514 ACN 102289529 A 4/14页80037 线性融合参数估计装置，用于建立线性融合权值模型：0038 并且基于训练集R对参数1，2，3进行估计，其中表示对于网页i的一种标签项序列，标签项(j)处于该序列的第j位；0039 标签标注装置，用于根据所估计的参数，计算所述标签空间中每个标签对于将要被标注的网页的线性融合权值，按该权值的大小自动生成用于标注该网页的标签项序列。0040 上述社会标签自动标注器中，所述网页数据集初始化装置包括：0041 用于基于词袋模型对网页数据集进行处理，形成对应的词项空间V和标签。

23、空间U的装置；0042 用于在词项空间V和标签空间U的基础上，将网页数据集中的每个网页表示为一个二元组(wi，ti)的装置，其中wiV，tiU，矢量wi的元素wi，j表示词项在网页i中出现的次数，矢量ti的元素ti，k表示标签在网页i中标注过的次数。0043 上述社会标签自动标注器中，所述网页数据集初始化装置还包括用于对网页数据进行降噪处理，过滤掉少于100个用户标注的网页的装置。0044 上述社会标签自动标注器中，所述线性融合参数估计装置包括：用于建立线性融合权值模型的装置；0045 用于在训练集R上建立似然函数L的装置，其中0046 0047 其中，|R|表示训练集R的大小；估计参数的装置。

24、，其用于：0048 (1)选择一个初始的值，作如下计算：0049 0050 (2)判断|是否成立；0051 (3)如果不等式成立，则回溯直线查找发现一个步长值t，更新值(-t)，并对值正规化，然后返回步骤(2)；0052 (4)如果不等式不成立，则返回线性融合参数；0053 其中，值的初始值为0，1间的随机数，取0.0001。0054 与现有技术相比，本发明的优点在于：0055 同时考虑了社会标签与文档具体内容的一致性和抽象语义层的相关性，因此能够提高社会标签自动标注的准确性。从实验结果也可以看出通过本发明的实施例提供的自动进行社会标签标注的方法相比现有的方法在社会标签自动标注方面显著的优越性。

25、。附图说明说明书CN 102289514 ACN 102289529 A 5/14页90056 以下参照附图对本发明实施例作进一步说明，其中：0057 图1为根据本发明实施例的社会标签自动标注的方法的流程示意图；0058 图2为一致性话题模型Corr-LDA的示意图；0059 图3为根据本发明实施例的梯度下降算法估计线性融合参数的流程图；0060 图4(a)为根据本发明实施例的社会标签自动标注与现有方法在Top-k准确率比较结果示意图；0061 图4(b)为根据本发明实施例的社会标签自动标注与现有方法在Exact-k准确率比较结果示意图。具体实施方式0062 为了使本发明的目的，技术方案及。

26、优点更加清楚明白，以下结合附图通过具体实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。0063 图1描述了社会标签自动标注的方法的一个实施例的流程示意图。该方法包括初始化数据集；计算标签词项在文档中的频率(TF)权重，以及由协同过滤CF、一致性话题模型Corr-LDA方法所得的标签权重，并归一化；建立线性融合权值模型(也可以简称为线性融合模型或融合模型)，并估计线性融合参数(也可以简称为融合参数)；基于线性融合模型对社会标签进行自动标注。下面将结合一个基于Del.icio.us网站语料库的实例对社会标签自动注的方法的一个实施例进行更详细的讨。

27、论。在这个实施例中的语料库来自于Del.icio.us网站2008年10月至2008年11月的数据，包含825,402个用户在带有5,916,196个标签的57,813,581个不同的URL上标注的167,958,659个标记。0064 步骤1，初始化数据集，0065 初始化数据集主要包括对原始网页数据集进行降噪处理，过滤掉被很少用户标注过的网页；将数据集划分成两个集合，即训练集R和测试集D，同时在训练集R中随机抽取部分网页作为训练线性融合模型的训练集R；而所述测试集D用于对比不同的标注方法的实验。然后，对所有数据集中的词项和网页标注信息分别进行后缀剥离和词干还原，形成对应的词项空间V和标签空。

28、间U；接着，在词项空间V和标签空间U的基础上，将训练集中的网页矢量化，即将每个网页表示为一个二元组(wi，ti)，其中wiV，tiU，矢量wi的元素wi，j表示词项在网页i中出现的次数，同理，矢量ti的元素ti，k表示标签在网页i中标注过的次数。0066 在本实施例中，利用已知的混合爬取策略在网站Del.icio.us上爬取的大量网页作为原始数据集，并对其进行降噪处理，过滤掉少于100个用户标注的网页。在得到的数据集60,000个网页中将50,000个网页作为训练集R，另外的10,000个网页作为测试集D，同时在训练集R中随机抽取10,000个网页作为训练线性融合模型的训练集R。训练集R、测试。

29、集D中所有的网页都顺次分配一个能唯一标识的网页ID(从1开始，依此累加)，以便于后续处理。然后，基于“词袋”模型对网页中的词项和网页标注信息分别进行后缀剥离和词干还原，形成对应的词项空间V和标签空间U，处理结果为词项空间V包含67,146个词项，标签空间U包含12，669个标签项。最后，在词项空间V和标签空间U的基础上，将训练集R中的网页矢量化，即将每个网页表示为一个二元组(wi，ti)，其中wiV，tiU，矢量wi说明书CN 102289514 ACN 102289529 A 6/14页10的元素wij表示词项在网页i中出现的次数，同理，矢量ti的元素tik表示标签在网页i中标注过的次数。

30、。0067 步骤2，对于训练集R中每个网页i，分别计算在所述标签空间中每个标签j对于该网页i的归一化的TF权重值i，j、CF权重值i，j、Corr-LDA权重值i，j。0068 为了下文与其他方法对比效果的方便，下面以测试集D中的ID为90的网页为例来进行说明。训练集R中每个网页的操作与其相同。另外需要说明的是，网页中不同的词项和标签往往比较多，因此限于书写空间，仅列出排在前10(top-10)的具有代表性的数据，即top-K取为top-10，其他数据的计算可依此类推。0069 步骤2-1)，使用如下公式来计算归一化的TF权重值i，j：0070 0071 其中k表示词项出现在前k项标签列表的位。

31、置。0072 以测试集D中的ID为90的网页为例，计算#90网页的wi，j(i90)，即对于#90网页内容中词频排在前十位，并且存在于标签空间U的词项的频次进行归一化处理。这里的归一化处理就是将符合条件的某一词项的词频数除以所有符合条件的词项的词频数总和。如网页#90中符合条件的词项和词频如下表。0073 0074 0075 由此可得相应各词项的相应TF权重值90，j：0076 0077 步骤2-2)，计算归一化CF权重值i，j，主要包括以下步骤：0078 a)首先计算网页间基于网页内容的相似度，用向量空间的余弦相似度表示：0079 计算训练集R中每个网页与数据集R-R后的所有网页的余弦相似度，由大到小排序，找出排名前50的值，即对应R中当前网页的50个近邻网页。以#90网页为例，计算它与#1网页的余弦相似度。#90网页向量表示w90(0，.，0，1，0，.5，.)，其中每i个元素项表示词项i在#90网页中出现的次数，同此，#1网页向量表示w1(0，.，2，0，0，.23，.)，代入余弦相似度的计算公式其中i，j分别为90说明书CN 102289514 A。

摘要
申请专利号：	CN201110263798.5	申请日：	2011.09.07
公开号：	CN102289514A	公开日：	2011.12.21
当前法律状态：	授权	有效性：	有权
法律详情：	授权\|\|\|实质审查的生效IPC(主分类):G06F 17/30申请日:20110907\|\|\|公开
IPC分类号：	G06F17/30	主分类号：	G06F17/30
申请人：	中国科学院计算技术研究所
发明人：	刘盛华; 程学旗; 郭嘉丰; 刘悦; 廖华明; 朱亚涛
地址：	100190 北京市海淀区中关村科学院南路6号
优先权：
专利代理机构：	北京泛华伟业知识产权代理有限公司 11280	代理人：	王勇
PDF完整版下载：	PDF下载

内容摘要

本发明提供一种社会化标签自动标注的方法。该方法包括计算标签词项在文档中的频率(TF)权重，以及由协同过滤CF、一致性话题模型Corr-LDA方法所得的标签权重，并归一化；对上述权重建立线性融合权值模型，并估计线性融合参数；以及基于线性融合模型对社会标签进行自动标注。该发明同时考虑了社会标签与文档具体内容的一致性和抽象语义层的相关性，因此能够提高社会标签自动标注的准确性。

权利要求书

1.一种社会标签自动标注的方法，所述方法包括：
步骤1)初始化网页数据集，形成对应的词项空间和标签空间；所述
网页数据集由已经被用户标注的网页组成，并被分为训练集R和R’；
步骤2)对于训练集R’中的每个网页，计算所述标签空间中每个标签
对于该网页的权值向量，其中，标签j对于网页i的权值向量
τi，j，ζi，j，ρi，j分别为基于训练集R和R’，利用词频关键词、
协同过滤和一致性话题模型的方法计算得到的标签j对于网页i的归一化
的权重值；
步骤3)建立线性融合权值模型 X π ( j ) ( i ) = λ 1 τ i , π ( j ) + λ 2 ζ i , π ( j ) + λ 3 ρ i , π ( j ) = λ T · X π ( j ) ( i ) , ]]>
并且基于训练集R’对参数λ＝[λ1，λ2，λ3]进行估计，其中π表示对于网页i
的一种标签项序列，标签项π(j)处于该序列的第j位；
步骤4)基于步骤3)所估计的参数，计算所述标签空间中每个标签
对于将要被标注的网页的线性融合权值，按该权值的大小自动生成用于标
注该网页的标签项序列。
2.根据权利要求1所述的方法，其中步骤1)包括以下步骤：
步骤11)基于词袋模型对网页数据集进行处理，形成对应的词项空间
V和标签空间U；
步骤12)在词项空间V和标签空间U的基础上，将网页数据集中的
每个网页表示为一个二元组(wi，ti)，其中wi∈V，ti∈U，矢量wi的元素
wi，j表示词项在网页i中出现的次数，矢量ti的元素ti，k表示标签在网页i
中标注过的次数。
3.根据权利要求2所述的方法，其中在步骤11)之前还包括对网页数
据进行降噪处理，过滤掉少于100个用户标注的网页的步骤。
4.根据权利要求1或2所述的方法，步骤3)采用梯度下降法来基于
训练集R’对参数λ＝[λ1，λ2，λ3]进行估计。
5.根据权利要求4所述的方法，其中步骤3)中包括以下步骤：
步骤31)建立线性融合权值模型 X π ( j ) ( i ) = λ 1 τ i , π ( j ) + λ 2 ζ i , π ( j ) + λ 3 ρ i , π ( j ) = λ T · X π ( j ) ( i ) ; ]]>
步骤32)在训练集R’上建立似然函数：
L = Σ i = 1 | | R ′ | | ln P ( i ) ( π | χ ) = Σ i = 1 | | R ′ | | Σ t = 1 k ( χ π ( t ) ( i ) - ln Σ l = t k exp ( χ π ( l ) ( i ) ) ) ]]>
其中， p ( i ) ( π | χ ) = Π j = 1 k exp ( χ π ( j ) i ) Σ t = j k exp ( χ π ( t ) i ) , ]]>||R’||表示训练集R’的大小；
步骤33)对于参数λ执行以下步骤：
(1)选择一个初始的λ值，作如下计算：
Δλ = - ∂ L ∂ λ m = - Σ i Σ t ( x π ( t ) ( i ) , m - Σ l = t k x π ( t ) ( i ) , m . exp ( χ π ( t ) ( i ) ) Σ l = t k exp ( χ π ( t ) ( i ) ) ) , m = 1,2,3 ; ]]>
(2)判断||Δλ||≥ε是否成立；
(3)如果不等式成立，则回溯直线查找发现一个步长值t，更新λ
值(λ＝λ-tΔλ)，并对λ值正规化，然后返回步骤(2)；
(4)如果不等式不成立，则返回线性融合参数λ；
其中，λ值的初始值为[0，1]间的随机数，ε取0.0001。
6.一种社会标签自动标注器，包括：
网页数据集初始化装置，用于初始化网页数据集，形成对应的词项空
间和标签空间；所述网页数据集由已经被用户标注的网页组成，并被分为
训练集R和R’；
权重计算装置，用于对训练集R’中的每个网页，计算所述标签空间中
每个标签对于该网页的权值向量，其中，标签j对于网页i的权值向量
τi，j，ζi，j，ρi，j分别为基于训练集R和R’，利用词频关键词、
协同过滤和一致性话题模型的方法计算得到的标签j对于网页i的归一化
的权重值；
线性融合参数估计装置，用于建立线性融合权值模型：
并且基于训练集R’对参数λ＝[λ1，λ2，
λ3]进行估计，其中π表示对于网页i的一种标签项序列，标签项π(j)处于
该序列的第j位；
标签标注装置，用于根据所估计的参数，计算所述标签空间中每个标
签对于将要被标注的网页的线性融合权值，按该权值的大小自动生成用于
标注该网页的标签项序列。
7.根据权利要求6所述的社会标签自动标注器，其中，所述网页数据
集初始化装置包括：
用于基于词袋模型对网页数据集进行处理，形成对应的词项空间V和
标签空间U的装置；
用于在词项空间V和标签空间U的基础上，将网页数据集中的每个
网页表示为一个二元组(wi，ti)的装置，其中wi∈V，ti∈U，矢量wi的
元素wi，j表示词项在网页i中出现的次数，矢量ti的元素ti，k表示标签在网
页i中标注过的次数。
8.根据权利要求7所述的社会标签自动标注器，其中，所述网页数据
集初始化装置还包括用于对网页数据进行降噪处理，过滤掉少于100个用
户标注的网页的装置。
9.根据权利要求6或7所述的社会标签自动标注器，其中，所述线性
融合参数估计装置包括：
用于建立线性融合权值模型 X π ( j ) ( i ) = λ 1 τ i , π ( j ) + λ 2 ζ i , π ( j ) + λ 3 ρ i , π ( j ) = λ T · X π ( j ) ( i ) ]]>的装
置；
用于在训练集R’上建立似然函数L的装置，其中
L = Σ i = 1 | | R ′ | | ln P ( i ) ( π | χ ) = Σ i = 1 | | R ′ | | Σ t = 1 k ( χ π ( t ) ( i ) - ln Σ l = t k exp ( χ π ( l ) ( i ) ) ) ]]>
其中， p ( i ) ( π | χ ) = Π j = 1 k exp ( χ π ( j ) i ) Σ t = j k exp ( χ π ( t ) i ) , ]]>||R’||表示训练集R’的大小；
估计参数λ的装置，其用于：
(1)选择一个初始的λ值，作如下计算：
Δλ = - ∂ L ∂ λ m = - Σ i Σ t ( x π ( t ) ( i ) , m - Σ l = t k x π ( t ) ( i ) , m . exp ( χ π ( t ) ( i ) ) Σ l = t k exp ( χ π ( t ) ( i ) ) ) , m = 1,2,3 ; ]]>
(2)判断||Δλ||≥ε是否成立；
(3)如果不等式成立，则回溯直线查找发现一个步长值t，更新λ
值(λ＝λ-tΔλ)，并对λ值正规化，然后返回步骤(2)；
(4)如果不等式不成立，则返回线性融合参数λ；
其中，λ值的初始值为[0，1]间的随机数，ε取0.0001。

说明书

社会标签自动标注的方法以及社会标签自动标注器

技术领域

本发明属于互联网信息搜索与检索领域，尤其涉及针对以文本为主要
内容的网页的分类方法。

背景技术

社会标签是一种针对文章或图片等信息的更为灵活、有趣的分类方
式。用户可以为每篇文章或每张图片，或每条信息添加一个或多个标签，
从而根据这些标签把这些文章或图片或信息进行分类。用户可以在系统中
创建自己的标签，也可以对文章或链接使用标签来标记。简单地，用户可
以把一个标签(Tag)理解为一个文章或图片的分类。标签，又被称为软
分类，即根据文章或者图片或者信息的意义，由信息的组织者为信息指定
一个或者多个“标签”。传统的分类，又称为硬分类，即就是网页发布文章
或图片或信息时，所选择的系统现有的固定的分类。标签和硬分类相比，
硬分类一般是事先预定好的，即文章或图片属于哪一个分类，事先就已经
规定好了。而标签不同，它是在文章或图片完成之后，再由用户添加的。

网页的社会标签标注，又名合作标签标注、社会分类法、社会标引，
其是一种个人或团体将术语、名称等(也可称为“标签”)与一个在线“社会”
环境中的数字资源作关联的方法。

随着Web2.0技术应用的兴起，社会标签标注因其在组织内容上的优
势变得越来越流行。它可以为网络信息导航、过滤、提高网络搜索质量以
及查询推荐等网络应用提供支持。但另一方面，网络上的大多网页很少甚
至没有标注标签，即使是标签服务网站，如Del.icio.us也只是对网络上小
部分链接进行了标注。这就给社会标签的应用带来了很大的不便。

可以想象，如果能为大多网页标注社会标签，无疑会将上述的障碍扫
除。因此自动化的社会标签标注，即基于已有的社会标签标注的数据对一
个新的网页进行标注，正得到越来越多的关注。

现有的技术主要分为三类：基于本体和关键词抽取的方法，例如参考
文献1(Dill，S.，Eiron，N.，Gibson，D.，Gruhl，D.，Guha，R.V.，Jhingran，A.，
Kanungo，T.，Rajagopalan，S.，Tomkins，A.，Tomlin，J.A.，and Zien，J.Y.2003.
SemTag and Seeker：Bootstrapping the Semantic Web via Automated Semantic
Annotation.In WWW’03：Proc.of the Twelfth International World Wide Web
Conference.178-186.)中提供一个大规模文本分析和自动语义标注的平台，
它通过对一小部分训练数据的学习来对网页进行自动标注。但这里的应用
的前提是假设本体工程在社会标签标注前已经建立好或者本体工程的建
立仅仅依赖于网页的关键词(Keyword)抽取。另外，关键词直观描述了
Web文档的内容，同时社会标签与文档的内容具有一致性，因此关键词成
为了生成标签的最直接的方法。基于“词袋”的语言模型假设，文档中词
项的出现频率(Term Frequency，TF)(也可简称为词频)，反映了该词项
的关键程度，于是往往成为的关键词提取的权重之一。例如参考文献2
(Chirita，P.A.，Costache，S.，Nejdl，W.，and Handschuh，S.2007.P-tag：large
scale automatic generation of personalized annotation tags for the web.In
WWW’07：Proceedings ofthe 16th international conference on World Wide
Web.845-854.)通过提取Web文档关键词的方法来自动标签标注。而现实
情况是社会标签的内容不仅仅来源于网页的关键词，它还涉及很多网页文
本之外的内容。

基于协同过滤(collaborative filtering，CF)的方法，例如参考文献3
(Lu，Y.-T.，Yu，S.-I.，Chang，T.-C.，and Hsu，J.Y.2009.A content-based
method to enhance tag recommendation.In In Proc.of IJCAI’09.2064-2069.)
提出了一个生成网页标签的协同过滤方法，该方法依据当前网页与其近邻
网页内容的相似度大小，从其近邻网页的标签中生成当前网页的标签。然
而，基于协同过滤的标签推荐方法仅仅是从当前网页的近邻网页中生成标
签，而没有考虑到语义层面，尤其是同义和反义。

基于话题模型的方法，例如混合成员的话题模型MM-LDA(mixed
membership LDA)模型(参考文献4：Erosheva，E.，Fienberg，S.，and Lafferty，
J.2004.Mixed membership models of scientific publications.In Proceedings
of the National Academy of Sciences.Vol.101.press，5220-5227.)将Web文
档的词项和标注的标签分别完全独立地由同一个话题分布生成。进一步参
考文献5(Guo，J.，Cheng，X.，Shen，H.，and Bai，S.2009.Exploring
collaboratively annotated data for automatic annotation.In Workshop on
Content Analysis in the Web 2.0in the 18th International World Wide Web
Conference.)提出了一致性话题模型Corr-LDA (correspondence latent
Dirichlet allocation)。该模型更加紧凑地模型化了Web文档词项与标签的
生成过程。但随着词项降维和混合隐藏话题的建模，这两种话题模型
MM-LDA和Corr-LDA在标签预测中往往会忽略很多细节并带有噪音数
据。

发明内容

本发明的目的在于克服上述现有技术的缺陷，提供一种自动进行社会
标签标注的方法，同时考虑文档具体内容的一致性和抽象语义层的相关
性，以提高社会标签自动标注的准确性。

本发明的目的是通过以下技术方案实现的：

一方面，本发明提供了一种社会标签自动标注的方法，包括：

步骤1)初始化网页数据集，形成对应的词项空间和标签空间；所述
网页数据集由已经被用户标注的网页组成，并被分为训练集R和R’；

步骤2)对于训练集R’中的每个网页，计算所述标签空间中每个标签
对于该网页的权值向量，其中，标签j对于网页i的权值向量
τi，j，ζi，j，ρi，j分别为基于训练集R和R’，利用词频关键词、
协同过滤和一致性话题模型的方法计算得到的标签j对于网页i的归一化
的权重值；

步骤3)建立线性融合权值模型 X π ( j ) ( i ) = λ 1 τ i , π ( j ) + λ 2 ζ i , π ( j ) + λ 3 ρ i , π ( j ) = λ T · X π ( j ) ( i ) , ]]>

并且基于训练集R’对参数λ＝[λ1，λ2，λ3]进行估计，其中π表示对于网页i
的一种标签项序列，标签项π(j)处于该序列的第j位；

步骤4)基于步骤3)所估计的参数，计算所述标签空间中每个标签
对于将要被标注的网页的线性融合权值，按该权值的大小自动生成用于标
注该网页的标签项序列。

上述方法中，步骤1)包括以下步骤：

步骤11)基于词袋模型对网页数据集进行处理，形成对应的词项空间
V和标签空间U；

步骤12)在词项空间V和标签空间U的基础上，将网页数据集中的
每个网页表示为一个二元组(wi，ti)，其中wi∈V，ti∈U，矢量wi的元素
wi，j表示词项在网页i中出现的次数，矢量ti的元素ti，k表示标签在网页i
中标注过的次数。

上述方法中，在步骤11)之前还包括对网页数据进行降噪处理，过滤
掉少于100个用户标注的网页的步骤。

上述方法中，步骤3)采用梯度下降法来基于训练集R’对参数λ＝[λ1，
λ2，λ3]进行估计。

上述方法中，步骤3)中包括以下步骤：

步骤31)建立线性融合权值模型 X π ( j ) ( i ) = λ 1 τ i , π ( j ) + λ 2 ζ i , π ( j ) + λ 3 ρ i , π ( j ) = λ T · X π ( j ) ( i ) ; ]]>

步骤32)在训练集R’上建立似然函数：

L = Σ i = 1 | | R ′ | | ln P ( i ) ( π | χ ) = Σ i = 1 | | R ′ | | Σ t = 1 k ( χ π ( t ) ( i ) - ln Σ l = t k exp ( χ π ( l ) ( i ) ) ) ]]>

其中， p ( i ) ( π | χ ) = Π j = 1 k exp ( χ π ( j ) i ) Σ t = j k exp ( χ π ( t ) i ) , ]]>||R’||表示训练集R’的大小；

步骤33)对于参数λ执行以下步骤：

(1)选择一个初始的λ值，作如下计算：

Δλ = - ∂ L ∂ λ m = - Σ i Σ t ( x π ( t ) ( i ) , m - Σ l = t k x π ( t ) ( i ) , m . exp ( χ π ( t ) ( i ) ) Σ l = t k exp ( χ π ( t ) ( i ) ) ) , m = 1,2,3 ; ]]>

(2)判断||Δλ||≥ε是否成立；

(3)如果不等式成立，则回溯直线查找发现一个步长值t，更新λ
值(λ＝λ-tΔλ)，并对λ值正规化，然后返回步骤(2)；

(4)如果不等式不成立，则返回线性融合参数λ；

其中，λ值的初始值为[0，1]间的随机数，ε取0.0001。

又一方面，本发明提供了一种社会标签自动标注器，包括：

网页数据集初始化装置，用于初始化网页数据集，形成对应的词项空
间和标签空间；所述网页数据集由已经被用户标注的网页组成，并被分为
训练集R和R’；

权重计算装置，用于对训练集R’中的每个网页，计算所述标签空间中
每个标签对于该网页的权值向量，其中，标签j对于网页i的权值向量
τi，j，ζi，j，ρi，j分别为基于训练集R和R’，利用词频关键词、
协同过滤和一致性话题模型的方法计算得到的标签j对于网页i的归一化
的权重值；

线性融合参数估计装置，用于建立线性融合权值模型：

X π ( j ) ( i ) = λ 1 τ i , π ( j ) + λ 2 ζ i , π ( j ) + λ 3 ρ i , π ( j ) = λ T · X π ( j ) ( i ) , ]]>并且基于训练集R’对参数λ＝[λ1，λ2，
λ3]进行估计，其中π表示对于网页i的一种标签项序列，标签项π(j)处于
该序列的第j位；

标签标注装置，用于根据所估计的参数，计算所述标签空间中每个标
签对于将要被标注的网页的线性融合权值，按该权值的大小自动生成用于
标注该网页的标签项序列。

上述社会标签自动标注器中，所述网页数据集初始化装置包括：

用于基于词袋模型对网页数据集进行处理，形成对应的词项空间V和
标签空间U的装置；

用于在词项空间V和标签空间U的基础上，将网页数据集中的每个
网页表示为一个二元组(wi，ti)的装置，其中wi∈V，ti∈U，矢量wi的
元素wi，j表示词项在网页i中出现的次数，矢量ti的元素ti，k表示标签在网
页i中标注过的次数。

上述社会标签自动标注器中，所述网页数据集初始化装置还包括用于
对网页数据进行降噪处理，过滤掉少于100个用户标注的网页的装置。

上述社会标签自动标注器中，所述线性融合参数估计装置包括：
用于建立线性融合权值模型 X π ( j ) ( i ) = λ 1 τ i , π ( j ) + λ 2 ζ i , π ( j ) + λ 3 ρ i , π ( j ) = λ T · X π ( j ) ( i ) ]]>的装
置；

用于在训练集R’上建立似然函数L的装置，其中

L = Σ i = 1 | | R ′ | | ln P ( i ) ( π | χ ) = Σ i = 1 | | R ′ | | Σ t = 1 k ( χ π ( t ) ( i ) - ln Σ l = t k exp ( χ π ( l ) ( i ) ) ) ]]>

其中， p ( i ) ( π | χ ) = Π j = 1 k exp ( χ π ( j ) i ) Σ t = j k exp ( χ π ( t ) i ) , ]]>||R’||表示训练集R’的大小；
估计参数λ的装置，其用于：

(1)选择一个初始的λ值，作如下计算：

Δλ = - ∂ L ∂ λ m = - Σ i Σ t ( x π ( t ) ( i ) , m - Σ l = t k x π ( t ) ( i ) , m . exp ( χ π ( t ) ( i ) ) Σ l = t k exp ( χ π ( t ) ( i ) ) ) , m = 1,2,3 ; ]]>

(2)判断||Δλ||≥ε是否成立；

(3)如果不等式成立，则回溯直线查找发现一个步长值t，更新λ
值(λ＝λ-tΔλ)，并对λ值正规化，然后返回步骤(2)；

(4)如果不等式不成立，则返回线性融合参数λ；

其中，λ值的初始值为[0，1]间的随机数，ε取0.0001。

与现有技术相比，本发明的优点在于：

同时考虑了社会标签与文档具体内容的一致性和抽象语义层的相关
性，因此能够提高社会标签自动标注的准确性。从实验结果也可以看出通
过本发明的实施例提供的自动进行社会标签标注的方法相比现有的方法
在社会标签自动标注方面显著的优越性。

附图说明

以下参照附图对本发明实施例作进一步说明，其中：

图1为根据本发明实施例的社会标签自动标注的方法的流程示意图；

图2为一致性话题模型Corr-LDA的示意图；

图3为根据本发明实施例的梯度下降算法估计线性融合参数的流程
图；

图4(a)为根据本发明实施例的社会标签自动标注与现有方法在Top-k
准确率比较结果示意图；

图4(b)为根据本发明实施例的社会标签自动标注与现有方法在
Exact-k准确率比较结果示意图。

具体实施方式

为了使本发明的目的，技术方案及优点更加清楚明白，以下结合附图
通过具体实施例对本发明进一步详细说明。应当理解，此处所描述的具体
实施例仅仅用以解释本发明，并不用于限定本发明。

图1描述了社会标签自动标注的方法的一个实施例的流程示意图。该
方法包括初始化数据集；计算标签词项在文档中的频率(TF)权重，以及
由协同过滤CF、一致性话题模型Corr-LDA方法所得的标签权重，并归一
化；建立线性融合权值模型(也可以简称为线性融合模型或融合模型)，
并估计线性融合参数(也可以简称为融合参数)；基于线性融合模型对社
会标签进行自动标注。下面将结合一个基于Del.icio.us网站语料库的实例
对社会标签自动注的方法的一个实施例进行更详细的讨论。在这个实施例
中的语料库来自于Del.icio.us网站2008年10月至2008年11月的数据，
包含825,402个用户在带有5,916,196个标签的57,813,581个不同的URL
上标注的167,958,659个标记。

步骤1，初始化数据集，

初始化数据集主要包括对原始网页数据集进行降噪处理，过滤掉被很
少用户标注过的网页；将数据集划分成两个集合，即训练集R和测试集D，
同时在训练集R中随机抽取部分网页作为训练线性融合模型的训练集R’；
而所述测试集D用于对比不同的标注方法的实验。然后，对所有数据集中
的词项和网页标注信息分别进行后缀剥离和词干还原，形成对应的词项空
间V和标签空间U；接着，在词项空间V和标签空间U的基础上，将训
练集中的网页矢量化，即将每个网页表示为一个二元组(wi，ti)，其中wi
∈V，ti∈U，矢量wi的元素wi，j表示词项在网页i中出现的次数，同理，
矢量ti的元素ti，k表示标签在网页i中标注过的次数。

在本实施例中，利用已知的混合爬取策略在网站Del.icio.us上爬取的
大量网页作为原始数据集，并对其进行降噪处理，过滤掉少于100个用户
标注的网页。在得到的数据集60,000个网页中将50,000个网页作为训
练集R，另外的10,000个网页作为测试集D，同时在训练集R中随机抽
取10,000个网页作为训练线性融合模型的训练集R’。训练集R、测试集
D中所有的网页都顺次分配一个能唯一标识的网页ID(从1开始，依此累
加)，以便于后续处理。然后，基于“词袋”模型对网页中的词项和网页
标注信息分别进行后缀剥离和词干还原，形成对应的词项空间V和标签空
间U，处理结果为词项空间V包含67,146个词项，标签空间U包含12，
669个标签项。最后，在词项空间V和标签空间U的基础上，将训练集R
中的网页矢量化，即将每个网页表示为一个二元组(wi，ti)，其中wi ∈V，
ti∈U，矢量wi的元素wij表示词项在网页i中出现的次数，同理，矢量ti
的元素tik表示标签在网页i中标注过的次数。

步骤2，对于训练集R’中每个网页i，分别计算在所述标签空间中每
个标签j对于该网页i的归一化的TF权重值τi，j、CF权重值ζi，j、Corr-LDA
权重值ρi，j。

为了下文与其他方法对比效果的方便，下面以测试集D中的ID为90
的网页为例来进行说明。训练集R’中每个网页的操作与其相同。另外需要
说明的是，网页中不同的词项和标签往往比较多，因此限于书写空间，仅
列出排在前10(top-10)的具有代表性的数据，即top-K取为top-10，其
他数据的计算可依此类推。

步骤2-1)，使用如下公式来计算归一化的TF权重值τi，j：

其中k表示词项出现在前k项标签列表的位置。

以测试集D中的ID为90的网页为例，计算#90网页的wi，j(i＝90)，即
对于#90网页内容中词频排在前十位，并且存在于标签空间U的词项的频
次进行归一化处理。这里的归一化处理就是将符合条件的某一词项的词频
数除以所有符合条件的词项的词频数总和。如网页#90中符合条件的词项
和词频如下表。

Σ 10 w 90,10 = ( 35 + 26 + 22 + 19 + 17 + 16 + 4 + 4 + 3 + 2 ) = 148 ]]>

由此可得相应各词项的相应TF权重值τ90，j：

步骤2-2)，计算归一化CF权重值ζi，j，主要包括以下步骤：

a)首先计算网页间基于网页内容的相似度，用向量空间的余弦相似
度表示： Sim i , j = w i · w j | | w i | | | | w j | | ]]>

计算训练集R’中每个网页与数据集R-R’后的所有网页的余弦相似度，
由大到小排序，找出排名前50的值，即对应R’中当前网页的50个近邻网
页。以#90网页为例，计算它与#1网页的余弦相似度。#90网页向量表示
w90＝(0，...，0，1，0，...5，...)，其中每i个元素项表示词项i在#90网页中出现的
次数，同此，#1网页向量表示w1＝(0，...，2，0，0，...23，...)，代入余弦相似度的
计算公式 Sim i , j = w i · w j | | w i | | | | w j | | , ]]>其中i，j分别为90和1，可得
Sim90，1＝0.333513。依次计算#90网页与其他每一个网页的余弦相似度后排
序，可得到其50个近邻的网页ID分别为：40176，13065，48800，15291，
5616，...，39499，5473，19853，44946，8238。

b)计算标签重要性的标示指标pi，j：

p i , j = t i , j Σ 1 ∈ U t i , 1 ]]>

即用标签项j在当前网页i的标注次数除以所有标签项在当前网页i
的标注次数总和。例如网页#90的所有标签项标注次数为
(11+35+5+...+48+5)＝426，其中标签项#9标注次数是35，则
p90，9＝35/426＝0.08216；依此可以计算每个标签项在当前网页#90的标签重
要性的标示指标p90，j。同理可以计算出网页#90的50个近邻网页的标签重
要性的标示指标pi，j(其中i属于网页#90的50个近邻网页ID)。

c)计算基于协同过滤(CF)方法产生的标签权重ri，j：

r i , j = Σ k ∈ k i ( p k , j × s i , k × log Σ 1 ∈ U t k , 1 ) ]]>其中ki指网页i的近邻网页集
合(这里以取50个近邻为例)，Si，k表示CF方法中当前网页i与其近邻网
页k的相似度，以如下公式进行计算：

s i , k = Sim i , k Σ k ′ ∈ k i Sim i , k ′ ]]>

这样，计算式中各项都可依照前面步骤计算得出。如计算网页#90的
r90，j后，排序的前10位分别为

即通过CF方法得到网页#90的推荐top-10标签为secure，password，
tool，software，window，hack，firefox，howto，tip，recovery。同理可得
到其推荐top-K标签。

d)计算归一化CF权重ζi，j：

其中k表示标签项出现在前k项标签列表的位置。

在本实施例中，只需计算处于其推荐top-K中的标签项，其他标签项
的相应参数值取0。处于其推荐top-K中的标签项的CF权重值ζi，j等于每
一个标签项的ri，j值除以所有处于其推荐top-K中的标签项的ri，j值的总和。
如网页#90的CF权重值ζ90，j以top-10为例，首先计算推荐top-10标签项
的ri，j值的总和(1.32354+0.400672+0.289863+0.223276+0.214289+0.169809
+0.15723+0.14299+0.119932+0.106532)＝3.148133，然后可得ζ90，secure＝
1.32354/3.148133＝0.420421，同理可计算其他标签项的CF权重值ζ90，j。

步骤2-3)计算归一化Corr-LDA权重值ρi，j，主要包括以下步骤：

(1)构建Corr-LDA模型(如图2所示，可参阅参考文献5)，

首先，计算网页i包含的全部词项数目Ni和全部标签数目Mi，其中，

N i = Σ j ∈ V w i , j ]]>

对于每个Ni中的词项wn提取对应的主题分配zn～Multinomial(θ)提
取词项wn～p(wn|zn，β)，

M i = Σ j ∈ U t i , j ]]>

对于每个Mi中的标签项tm提取索引序列ym～Unif(1，...，N)提取标
签项tm～p(tm|ym，z，η)

例如，网页#90的词项总数为

N 90 = Σ j ∈ V w 90 , j = ( 2 + 8 + . . . + 1 + 1 ) = 1563 ]]>以及

网页#90的标签项总数为

M 90 = Σ j ∈ U t 90 , j = ( 2 + 5 + . . . + 4 + 4 ) = 505 . ]]>

接着，按照Corr-LDA模型提取主题比例θ～Dir(α)：

p ( θ | α ) = Γ ( Σ i = 1 K α i ) Π i = 1 K Γ ( α i ) θ 1 α 1 - 1 . . . θ K αK - 1 ]]>在本实施例中，K＝300。

(2)进行参数估计

首先，建立极大似然函数。

在给定参数α，β和η后，可得到一个二元组(w，f)的边缘分布为：

p ( w , t | α , β , η ) = ∫ p ( θ | α ) ( Π n = 1 N Σ z n p ( z n | θ ) p ( w n | z n , β ) ) ]]>

( Π m = 1 M Σ y m p ( y m | N ) p ( t m | y m , z , η ) ) dθ ]]>

由此可得似然函数：

p ( R | α , β , η ) = Π i = 1 D ∫ p ( θ i | α ) ( Π n = 1 N i Σ z in p ( z in | θ i ) p ( w in | z in , β ) ) ]]>

( Π m = 1 M i Σ y mi p ( y im | N i ) p ( t im | y im , z i , η ) ) d θ i ]]>

然后，利用变分EM法估计参数。

给定潜在变量的概率分布：

其中自由变量参数γ是一个K维的狄利克雷参数，φn是N中K维多
项参数，φm是M中K维多项参数。

让βiv表示概率p(wvn|zn＝i，β)的值，则变分EM法估计参数的过程为
迭代调用如下三个等式，直到KL散度收敛。

γ i = α i + Σ n = 1 N φ ni ]]>

通过上述变分EM法，基于训练数据集R-R’上的学习，获得参数γi，
的估计。

下表给出了训练后，其中5个话题(topic)的词项(word)和标签(tag)
的排列情况。

(3)利用所得到的估计参数，通过下式：

可得到Corr-LDA模型对网页#90的标签项预测概率结果：

(4)计算Corr-LDA权重值ρi，j

其中k表示标签项出现在前k项标签列表的位置。

在本实施例中，通过上述概率结果可计算得出Corr-LDA权重值ρi，j。
处于其推荐top-10中的标签项的Corr-LDA权重值ρi，j等于每一个标签项
的p(ti，j|wi)值除以所有处于其推荐top-10中的标签项的p(ti，j|wi)值的总和。
如网页#90的Corr-LDA权重值ρ90，j，以top-10为例。首先计算推荐top-10
标签项的p(ti，j|wi)值的总和(0.149007+0.0738018+...+0.0321281+
0.0174572)＝0.536027，然后可得ρ90。secure＝0.149007/0.536027＝
0.137683，同理可计算其他标签项的Corr-LDA权重值ρ90，j。而非top-10
的标签项的Corr-LDA权重值ρ90，j均取值为零。

应指出，在上述步骤2中所采用的公式及其中的变量和符号的含义可
参见上文提及的参考文献2、参考文献3和参考文献5。

步骤3，建立线性融合权值模型，并基于训练集R’估计融合参数

步骤3-1)按照步骤2给出的方法计算得出融合模型的训练集R’中的
所有网页的TF、CF和Corr-LDA的归一化权值。令标签j对于网页i的权
值向量为：

x j ( i ) = [ τ i , j , ζ i , j , ρ i , j ] T ]]>

其中，τi，j通过统计网页i中的词频归一化后直接获得；ζi，j按照步骤2-2
介绍的方法从集合R-R’中获取50个近邻后计算得到；ρi，j直接通过将网页
的特征向量wi代入步骤2-3训练获得的Corr-LDA模型计算得到。

如标签“jquery”对于网页#11的权值向量的计算结果如下：

x jquery ( 11 ) = [ 0.228158,0.401349,0.136817 ] T . ]]>

步骤3-2)建立线性融合模型

通过步骤3-1得到每个标签对于训练集R’的网页i的三个权值序列，
并对每一个权值序列由大到小分别排序。然后，从三个有序序列中分别取
前k个标签的权值，得到x(i)π(j)(j＝1...k)。其中，π表示标签项的一种序列，
π(j)表示标签项π(j)处于序列的第j位。

则，线性融合权值x(i)π(j)定义为：

X π ( j ) ( i ) = λ 1 τ i , π ( j ) + λ 2 ζ i , π ( j ) + λ 3 ρ i , π ( j ) = λ T · X π ( j ) ( i ) , ]]>

模型的参数为λ＝[λ1，λ2，λ3]。

步骤3-3)线性融合模型参数估计

(1)在训练集R’上建立似然函数：

L = Σ i = 1 | | R ′ | | ln P ( i ) ( π | χ ) = Σ i = 1 | | R ′ | | Σ t = 1 k ( χ π ( t ) ( i ) - ln Σ l = t k exp ( χ π ( l ) ( i ) ) ) , ]]>

其中， P ( i ) ( π | χ ) = Π j = 1 k exp ( χ π ( j ) ( i ) ) Σ t = j k exp ( χ π ( t ) ( i ) ) ]]>为网页i的标签序列的枚举概率模型，

||R’||表示数据集R’的大小，在本实施例中，其值为10000。

(3)利用图3所示的梯度下降算法对线性融合模型的参数λi(i＝1，2，3)
(为了方便，可简称为线性融合参数或者融合参数)进行估计。

设定一个很小的正数ε(一般设置为0.0001)作为梯度下降法迭代的
收敛终止条件。如图3所示的梯度下降算法包括以下步骤：

1)选择一个初始的λ值，接着做如下计算：

Δλ = - ∂ L ∂ λ m = - Σ i Σ t ( x π ( t ) ( i ) , m - Σ l = t k x π ( t ) ( i ) , m . exp ( χ π ( t ) ( i ) ) Σ l = t k exp ( χ π ( t ) ( i ) ) ) , m = 1,2,3 ]]>

2)判断||Δλ||≥ε是否成立。

3)如果不等式成立，则回溯直线查找发现一个步长值t，更新λ值
(λ＝λ-tΔλ)，并对λ值正规化，然后返回步骤(2)。

4)如果不等式不成立，则返回融合参数λ

在本实施例中，计算的最终结果为λ＝[0.305，0.268，0.427]。

步骤4，基于线性融合权值模型来进行自动的社会标签标注。

也就是，利用融合参数λi(i＝1，2，3)计算标签j对于网页i的线性融
合权值

( χ π ( j ) ( i ) = λ 1 τ i , π ( j ) + λ 2 ζ i , π ( j ) + λ 3 ρ i , π ( j ) = λ T · X π ( j ) ( i ) ) , ]]>按照线性融合权值
的从大到小排序后，依次进行自动推荐。

针对测试集D的每一个网页进行线性融合权值的计算，将计算结果降
序排列后得到其预测标注标签的Top-N。以测试集D中的网页#90为例，
用线性融合式对其标签项进行处理后的结果为：

将网页#90的TF、CF、Corr-LDA以及本发明的融合模型所得到的前
10个自动生成的标签列于下表，其中User行数据指的是测试集网页#90
的用户标注结果。

在又一个实施例中，提供了一种社会标签自动标注器，包括网页数据
集初始化装置、权重计算装置、线性融合参数估计装置以及标签标注装置。
其中，网页数据集初始化装置用于初始化网页数据集，形成对应的词项空
间和标签空间；所述网页数据集由已经被用户标注的网页组成，并被分为
训练集R和R’。权重计算装置用于对训练集R’中的每个网页，计算所述
标签空间中每个标签对于该网页的权值向量，其中，标签j对于网页i的
权值向量τi，j，ζi，j，ρi，j分别为基于训练集R和R’，利用上文
提到的词频关键词、协同过滤和一致性话题模型的方法计算得到的标签j
对于网页i的归一化的权重值。线性融合参数估计装置用于建立线性融合
权值模型： X π ( j ) ( i ) = λ 1 τ i , π ( j ) + λ 2 ζ i , π ( j ) + λ 3 ρ i , π ( j ) = λ T · X π ( j ) ( i ) , ]]>并且基于训练集R’对参
数λ＝[λ1，λ2，λ3]进行估计，其中π表示对于网页i的一种标签项序列，标
签项π(j)处于该序列的第j位。标签标注装置用于根据所估计的参数，计
算所述标签空间中每个标签对于将要被标注的网页的线性融合权值，按该
权值的大小自动生成用于标注该网页的标签项序列。

网页数据集初始化装置包括用于基于词袋模型对网页数据集进行处
理，形成对应的词项空间V和标签空间U的装置；用于在词项空间V和
标签空间U的基础上，将网页数据集中的每个网页表示为一个二元组(wi，
ti)的装置，其中wi∈V，ti∈U，矢量wi的元素wi，j表示词项在网页i中
出现的次数，矢量ti的元素ti，k表示标签在网页i中标注过的次数。网页数
据集初始化装置还包括用于对网页数据进行降噪处理，过滤掉少于100个
用户标注的网页的装置。

线性融合参数估计装置包括用于建立线性融合权值模型

X π ( j ) ( i ) = λ 1 τ i , π ( j ) + λ 2 ζ i , π ( j ) + λ 3 ρ i , π ( j ) = λ T · X π ( j ) ( i ) ]]>的装置；用于在训练集R’上建立似然函
数L的装置，以及利用上文提到的梯度下降法估计参数λ的装置，其中，

L = Σ i = 1 | | R ′ | | ln P ( i ) ( π | χ ) = Σ i = 1 | | R ′ | | Σ t = 1 k ( χ π ( t ) ( i ) - ln Σ l = t k exp ( χ π ( l ) ( i ) ) ) ]]>

p ( i ) ( π | χ ) = Π j = 1 k exp ( χ π ( j ) i ) Σ t = j k exp ( χ π ( t ) i ) , ]]>||R’||表示训练集R’的大小。

性能分析

为了测试融合模型的准确性与客观性，在本申请中首先对TF、CF和
Corr-LDA三个方法之间的互补性做了验证，然后将本发明的融合模型与
三个方法各自独立使用的情况以及应用MM-LDA(mixed membership
LDA)模型的情况进行了比较。

首先，将能够被TF方法正确预测而没有被Corr-LDA模型预测中的
标签数量与总的预测标签量的比例定义为TF方法相对于Corr-LDA模型的
互补值，公式如下：

Ntf，cl/K

其中Ntf，cl表示被TF方法正确预测而没有被Corr-LDA模型预测中的
标签数，K的值表示总的预测标签数。依次类推可以定义其他方法对的互
补值。在训练集R’和测试集D上进行训练和评估后(K取值10)，可得到
三个方法间的互补值，如表1所示：

表1TF、CF和Corr-LDA三个方法间的互补值

从表中可以看到，使用CF和Corr-LDA相对基本的TF方法的互补值
高于0.3，而反之也有互补值将近0.1，所以三者之间没有哪一个方法具有
压倒性优势的，相互之间是存在互补关系的。

在训练集R’和测试集D上分别应用TF、CF、Corr-LDA、MM-LDA
方法与本文所讨论的社会标签自动标注方法进行比较，并按照参考文献
6(Song，Y.，Zhuang，Z.，Li，H.，Zhao，Q.，Li，J.，Lee，W.-C.，and Giles，C.L.
2008.Real-time automatic tag recommendation.In SIGIR’08：Proceedings of
the 31st annual international ACM SIGIR conference on Research and
development in inform ation retrieval.515-522.al.2008)中提出的几个指标
----Top-k准确率，Exact-k准确率，Tag召回率，Tag正确率进行统计，可
得到如下数据(空间所限，只列出了Top-10)。

表2上述几种方法的效果比较(top-k和exact-k列的数据省略了％)

图4(a)和图4(b)所示的分别是以直方图的形式统计Top-k和Exact-k
的准确率。

从实验结果可以看到通过本发明的实施例提供的自动进行社会标签
标注的方法相比现有的方法在社会标签自动标注方面显著的优越性。这是
由于本发明提供的社会标签自动标注方法考虑了社会标签与文档具体内
容的一致性和抽象语义层的相关性，因此能够提高社会标签自动标注的准
确性。

虽然本发明已经通过优选实施例进行了描述，然而本发明并非局限于
这里所描述的实施例，在不脱离本发明范围的情况下还包括所作出的各种
改变以及变化。