社会标签自动标注的方法以及社会标签自动标注器技术领域
本发明属于互联网信息搜索与检索领域,尤其涉及针对以文本为主要
内容的网页的分类方法。
背景技术
社会标签是一种针对文章或图片等信息的更为灵活、有趣的分类方
式。用户可以为每篇文章或每张图片,或每条信息添加一个或多个标签,
从而根据这些标签把这些文章或图片或信息进行分类。用户可以在系统中
创建自己的标签,也可以对文章或链接使用标签来标记。简单地,用户可
以把一个标签(Tag)理解为一个文章或图片的分类。标签,又被称为软
分类,即根据文章或者图片或者信息的意义,由信息的组织者为信息指定
一个或者多个“标签”。传统的分类,又称为硬分类,即就是网页发布文章
或图片或信息时,所选择的系统现有的固定的分类。标签和硬分类相比,
硬分类一般是事先预定好的,即文章或图片属于哪一个分类,事先就已经
规定好了。而标签不同,它是在文章或图片完成之后,再由用户添加的。
网页的社会标签标注,又名合作标签标注、社会分类法、社会标引,
其是一种个人或团体将术语、名称等(也可称为“标签”)与一个在线“社会”
环境中的数字资源作关联的方法。
随着Web2.0技术应用的兴起,社会标签标注因其在组织内容上的优
势变得越来越流行。它可以为网络信息导航、过滤、提高网络搜索质量以
及查询推荐等网络应用提供支持。但另一方面,网络上的大多网页很少甚
至没有标注标签,即使是标签服务网站,如Del.icio.us也只是对网络上小
部分链接进行了标注。这就给社会标签的应用带来了很大的不便。
可以想象,如果能为大多网页标注社会标签,无疑会将上述的障碍扫
除。因此自动化的社会标签标注,即基于已有的社会标签标注的数据对一
个新的网页进行标注,正得到越来越多的关注。
现有的技术主要分为三类:基于本体和关键词抽取的方法,例如参考
文献1(Dill,S.,Eiron,N.,Gibson,D.,Gruhl,D.,Guha,R.V.,Jhingran,A.,
Kanungo,T.,Rajagopalan,S.,Tomkins,A.,Tomlin,J.A.,and Zien,J.Y.2003.
SemTag and Seeker:Bootstrapping the Semantic Web via Automated Semantic
Annotation.In WWW’03:Proc.of the Twelfth International World Wide Web
Conference.178-186.)中提供一个大规模文本分析和自动语义标注的平台,
它通过对一小部分训练数据的学习来对网页进行自动标注。但这里的应用
的前提是假设本体工程在社会标签标注前已经建立好或者本体工程的建
立仅仅依赖于网页的关键词(Keyword)抽取。另外,关键词直观描述了
Web文档的内容,同时社会标签与文档的内容具有一致性,因此关键词成
为了生成标签的最直接的方法。基于“词袋”的语言模型假设,文档中词
项的出现频率(Term Frequency,TF)(也可简称为词频),反映了该词项
的关键程度,于是往往成为的关键词提取的权重之一。例如参考文献2
(Chirita,P.A.,Costache,S.,Nejdl,W.,and Handschuh,S.2007.P-tag:large
scale automatic generation of personalized annotation tags for the web.In
WWW’07:Proceedings ofthe 16th international conference on World Wide
Web.845-854.)通过提取Web文档关键词的方法来自动标签标注。而现实
情况是社会标签的内容不仅仅来源于网页的关键词,它还涉及很多网页文
本之外的内容。
基于协同过滤(collaborative filtering,CF)的方法,例如参考文献3
(Lu,Y.-T.,Yu,S.-I.,Chang,T.-C.,and Hsu,J.Y.2009.A content-based
method to enhance tag recommendation.In In Proc.of IJCAI’09.2064-2069.)
提出了一个生成网页标签的协同过滤方法,该方法依据当前网页与其近邻
网页内容的相似度大小,从其近邻网页的标签中生成当前网页的标签。然
而,基于协同过滤的标签推荐方法仅仅是从当前网页的近邻网页中生成标
签,而没有考虑到语义层面,尤其是同义和反义。
基于话题模型的方法,例如混合成员的话题模型MM-LDA(mixed
membership LDA)模型(参考文献4:Erosheva,E.,Fienberg,S.,and Lafferty,
J.2004.Mixed membership models of scientific publications.In Proceedings
of the National Academy of Sciences.Vol.101.press,5220-5227.)将Web文
档的词项和标注的标签分别完全独立地由同一个话题分布生成。进一步参
考文献5(Guo,J.,Cheng,X.,Shen,H.,and Bai,S.2009.Exploring
collaboratively annotated data for automatic annotation.In Workshop on
Content Analysis in the Web 2.0in the 18th International World Wide Web
Conference.)提出了一致性话题模型Corr-LDA (correspondence latent
Dirichlet allocation)。该模型更加紧凑地模型化了Web文档词项与标签的
生成过程。但随着词项降维和混合隐藏话题的建模,这两种话题模型
MM-LDA和Corr-LDA在标签预测中往往会忽略很多细节并带有噪音数
据。
发明内容
本发明的目的在于克服上述现有技术的缺陷,提供一种自动进行社会
标签标注的方法,同时考虑文档具体内容的一致性和抽象语义层的相关
性,以提高社会标签自动标注的准确性。
本发明的目的是通过以下技术方案实现的:
一方面,本发明提供了一种社会标签自动标注的方法,包括:
步骤1)初始化网页数据集,形成对应的词项空间和标签空间;所述
网页数据集由已经被用户标注的网页组成,并被分为训练集R和R’;
步骤2)对于训练集R’中的每个网页,计算所述标签空间中每个标签
对于该网页的权值向量,其中,标签j对于网页i的权值向量
τi,j,ζi,j,ρi,j分别为基于训练集R和R’,利用词频关键词、
协同过滤和一致性话题模型的方法计算得到的标签j对于网页i的归一化
的权重值;
步骤3)建立线性融合权值模型 X π ( j ) ( i ) = λ 1 τ i , π ( j ) + λ 2 ζ i , π ( j ) + λ 3 ρ i , π ( j ) = λ T · X π ( j ) ( i ) , ]]>
并且基于训练集R’对参数λ=[λ1,λ2,λ3]进行估计,其中π表示对于网页i
的一种标签项序列,标签项π(j)处于该序列的第j位;
步骤4)基于步骤3)所估计的参数,计算所述标签空间中每个标签
对于将要被标注的网页的线性融合权值,按该权值的大小自动生成用于标
注该网页的标签项序列。
上述方法中,步骤1)包括以下步骤:
步骤11)基于词袋模型对网页数据集进行处理,形成对应的词项空间
V和标签空间U;
步骤12)在词项空间V和标签空间U的基础上,将网页数据集中的
每个网页表示为一个二元组(wi,ti),其中wi∈V,ti∈U,矢量wi的元素
wi,j表示词项在网页i中出现的次数,矢量ti的元素ti,k表示标签在网页i
中标注过的次数。
上述方法中,在步骤11)之前还包括对网页数据进行降噪处理,过滤
掉少于100个用户标注的网页的步骤。
上述方法中,步骤3)采用梯度下降法来基于训练集R’对参数λ=[λ1,
λ2,λ3]进行估计。
上述方法中,步骤3)中包括以下步骤:
步骤31)建立线性融合权值模型 X π ( j ) ( i ) = λ 1 τ i , π ( j ) + λ 2 ζ i , π ( j ) + λ 3 ρ i , π ( j ) = λ T · X π ( j ) ( i ) ; ]]>
步骤32)在训练集R’上建立似然函数:
L = Σ i = 1 | | R ′ | | ln P ( i ) ( π | χ ) = Σ i = 1 | | R ′ | | Σ t = 1 k ( χ π ( t ) ( i ) - ln Σ l = t k exp ( χ π ( l ) ( i ) ) ) ]]>
其中, p ( i ) ( π | χ ) = Π j = 1 k exp ( χ π ( j ) i ) Σ t = j k exp ( χ π ( t ) i ) , ]]>||R’||表示训练集R’的大小;
步骤33)对于参数λ执行以下步骤:
(1)选择一个初始的λ值,作如下计算:
Δλ = - ∂ L ∂ λ m = - Σ i Σ t ( x π ( t ) ( i ) , m - Σ l = t k x π ( t ) ( i ) , m . exp ( χ π ( t ) ( i ) ) Σ l = t k exp ( χ π ( t ) ( i ) ) ) , m = 1,2,3 ; ]]>
(2)判断||Δλ||≥ε是否成立;
(3)如果不等式成立,则回溯直线查找发现一个步长值t,更新λ
值(λ=λ-tΔλ),并对λ值正规化,然后返回步骤(2);
(4)如果不等式不成立,则返回线性融合参数λ;
其中,λ值的初始值为[0,1]间的随机数,ε取0.0001。
又一方面,本发明提供了一种社会标签自动标注器,包括:
网页数据集初始化装置,用于初始化网页数据集,形成对应的词项空
间和标签空间;所述网页数据集由已经被用户标注的网页组成,并被分为
训练集R和R’;
权重计算装置,用于对训练集R’中的每个网页,计算所述标签空间中
每个标签对于该网页的权值向量,其中,标签j对于网页i的权值向量
τi,j,ζi,j,ρi,j分别为基于训练集R和R’,利用词频关键词、
协同过滤和一致性话题模型的方法计算得到的标签j对于网页i的归一化
的权重值;
线性融合参数估计装置,用于建立线性融合权值模型:
X π ( j ) ( i ) = λ 1 τ i , π ( j ) + λ 2 ζ i , π ( j ) + λ 3 ρ i , π ( j ) = λ T · X π ( j ) ( i ) , ]]>并且基于训练集R’对参数λ=[λ1,λ2,
λ3]进行估计,其中π表示对于网页i的一种标签项序列,标签项π(j)处于
该序列的第j位;
标签标注装置,用于根据所估计的参数,计算所述标签空间中每个标
签对于将要被标注的网页的线性融合权值,按该权值的大小自动生成用于
标注该网页的标签项序列。
上述社会标签自动标注器中,所述网页数据集初始化装置包括:
用于基于词袋模型对网页数据集进行处理,形成对应的词项空间V和
标签空间U的装置;
用于在词项空间V和标签空间U的基础上,将网页数据集中的每个
网页表示为一个二元组(wi,ti)的装置,其中wi∈V,ti∈U,矢量wi的
元素wi,j表示词项在网页i中出现的次数,矢量ti的元素ti,k表示标签在网
页i中标注过的次数。
上述社会标签自动标注器中,所述网页数据集初始化装置还包括用于
对网页数据进行降噪处理,过滤掉少于100个用户标注的网页的装置。
上述社会标签自动标注器中,所述线性融合参数估计装置包括:
用于建立线性融合权值模型 X π ( j ) ( i ) = λ 1 τ i , π ( j ) + λ 2 ζ i , π ( j ) + λ 3 ρ i , π ( j ) = λ T · X π ( j ) ( i ) ]]>的装
置;
用于在训练集R’上建立似然函数L的装置,其中
L = Σ i = 1 | | R ′ | | ln P ( i ) ( π | χ ) = Σ i = 1 | | R ′ | | Σ t = 1 k ( χ π ( t ) ( i ) - ln Σ l = t k exp ( χ π ( l ) ( i ) ) ) ]]>
其中, p ( i ) ( π | χ ) = Π j = 1 k exp ( χ π ( j ) i ) Σ t = j k exp ( χ π ( t ) i ) , ]]>||R’||表示训练集R’的大小;
估计参数λ的装置,其用于:
(1)选择一个初始的λ值,作如下计算:
Δλ = - ∂ L ∂ λ m = - Σ i Σ t ( x π ( t ) ( i ) , m - Σ l = t k x π ( t ) ( i ) , m . exp ( χ π ( t ) ( i ) ) Σ l = t k exp ( χ π ( t ) ( i ) ) ) , m = 1,2,3 ; ]]>
(2)判断||Δλ||≥ε是否成立;
(3)如果不等式成立,则回溯直线查找发现一个步长值t,更新λ
值(λ=λ-tΔλ),并对λ值正规化,然后返回步骤(2);
(4)如果不等式不成立,则返回线性融合参数λ;
其中,λ值的初始值为[0,1]间的随机数,ε取0.0001。
与现有技术相比,本发明的优点在于:
同时考虑了社会标签与文档具体内容的一致性和抽象语义层的相关
性,因此能够提高社会标签自动标注的准确性。从实验结果也可以看出通
过本发明的实施例提供的自动进行社会标签标注的方法相比现有的方法
在社会标签自动标注方面显著的优越性。
附图说明
以下参照附图对本发明实施例作进一步说明,其中:
图1为根据本发明实施例的社会标签自动标注的方法的流程示意图;
图2为一致性话题模型Corr-LDA的示意图;
图3为根据本发明实施例的梯度下降算法估计线性融合参数的流程
图;
图4(a)为根据本发明实施例的社会标签自动标注与现有方法在Top-k
准确率比较结果示意图;
图4(b)为根据本发明实施例的社会标签自动标注与现有方法在
Exact-k准确率比较结果示意图。
具体实施方式
为了使本发明的目的,技术方案及优点更加清楚明白,以下结合附图
通过具体实施例对本发明进一步详细说明。应当理解,此处所描述的具体
实施例仅仅用以解释本发明,并不用于限定本发明。
图1描述了社会标签自动标注的方法的一个实施例的流程示意图。该
方法包括初始化数据集;计算标签词项在文档中的频率(TF)权重,以及
由协同过滤CF、一致性话题模型Corr-LDA方法所得的标签权重,并归一
化;建立线性融合权值模型(也可以简称为线性融合模型或融合模型),
并估计线性融合参数(也可以简称为融合参数);基于线性融合模型对社
会标签进行自动标注。下面将结合一个基于Del.icio.us网站语料库的实例
对社会标签自动注的方法的一个实施例进行更详细的讨论。在这个实施例
中的语料库来自于Del.icio.us网站2008年10月至2008年11月的数据,
包含825,402个用户在带有5,916,196个标签的57,813,581个不同的URL
上标注的167,958,659个标记。
步骤1,初始化数据集,
初始化数据集主要包括对原始网页数据集进行降噪处理,过滤掉被很
少用户标注过的网页;将数据集划分成两个集合,即训练集R和测试集D,
同时在训练集R中随机抽取部分网页作为训练线性融合模型的训练集R’;
而所述测试集D用于对比不同的标注方法的实验。然后,对所有数据集中
的词项和网页标注信息分别进行后缀剥离和词干还原,形成对应的词项空
间V和标签空间U;接着,在词项空间V和标签空间U的基础上,将训
练集中的网页矢量化,即将每个网页表示为一个二元组(wi,ti),其中wi
∈V,ti∈U,矢量wi的元素wi,j表示词项在网页i中出现的次数,同理,
矢量ti的元素ti,k表示标签在网页i中标注过的次数。
在本实施例中,利用已知的混合爬取策略在网站Del.icio.us上爬取的
大量网页作为原始数据集,并对其进行降噪处理,过滤掉少于100个用户
标注的网页。在得到的数据集60,000个网页中将50,000个网页作为训
练集R,另外的10,000个网页作为测试集D,同时在训练集R中随机抽
取10,000个网页作为训练线性融合模型的训练集R’。训练集R、测试集
D中所有的网页都顺次分配一个能唯一标识的网页ID(从1开始,依此累
加),以便于后续处理。然后,基于“词袋”模型对网页中的词项和网页
标注信息分别进行后缀剥离和词干还原,形成对应的词项空间V和标签空
间U,处理结果为词项空间V包含67,146个词项,标签空间U包含12,
669个标签项。最后,在词项空间V和标签空间U的基础上,将训练集R
中的网页矢量化,即将每个网页表示为一个二元组(wi,ti),其中wi ∈V,
ti∈U,矢量wi的元素wij表示词项在网页i中出现的次数,同理,矢量ti
的元素tik表示标签在网页i中标注过的次数。
步骤2,对于训练集R’中每个网页i,分别计算在所述标签空间中每
个标签j对于该网页i的归一化的TF权重值τi,j、CF权重值ζi,j、Corr-LDA
权重值ρi,j。
为了下文与其他方法对比效果的方便,下面以测试集D中的ID为90
的网页为例来进行说明。训练集R’中每个网页的操作与其相同。另外需要
说明的是,网页中不同的词项和标签往往比较多,因此限于书写空间,仅
列出排在前10(top-10)的具有代表性的数据,即top-K取为top-10,其
他数据的计算可依此类推。
步骤2-1),使用如下公式来计算归一化的TF权重值τi,j:
其中k表示词项出现在前k项标签列表的位置。
以测试集D中的ID为90的网页为例,计算#90网页的wi,j(i=90),即
对于#90网页内容中词频排在前十位,并且存在于标签空间U的词项的频
次进行归一化处理。这里的归一化处理就是将符合条件的某一词项的词频
数除以所有符合条件的词项的词频数总和。如网页#90中符合条件的词项
和词频如下表。
Σ 10 w 90,10 = ( 35 + 26 + 22 + 19 + 17 + 16 + 4 + 4 + 3 + 2 ) = 148 ]]>
由此可得相应各词项的相应TF权重值τ90,j:
步骤2-2),计算归一化CF权重值ζi,j,主要包括以下步骤:
a)首先计算网页间基于网页内容的相似度,用向量空间的余弦相似
度表示: Sim i , j = w i · w j | | w i | | | | w j | | ]]>
计算训练集R’中每个网页与数据集R-R’后的所有网页的余弦相似度,
由大到小排序,找出排名前50的值,即对应R’中当前网页的50个近邻网
页。以#90网页为例,计算它与#1网页的余弦相似度。#90网页向量表示
w90=(0,...,0,1,0,...5,...),其中每i个元素项表示词项i在#90网页中出现的
次数,同此,#1网页向量表示w1=(0,...,2,0,0,...23,...),代入余弦相似度的
计算公式 Sim i , j = w i · w j | | w i | | | | w j | | , ]]>其中i,j分别为90和1,可得
Sim90,1=0.333513。依次计算#90网页与其他每一个网页的余弦相似度后排
序,可得到其50个近邻的网页ID分别为:40176,13065,48800,15291,
5616,...,39499,5473,19853,44946,8238。
b)计算标签重要性的标示指标pi,j:
p i , j = t i , j Σ 1 ∈ U t i , 1 ]]>
即用标签项j在当前网页i的标注次数除以所有标签项在当前网页i
的标注次数总和。例如网页#90的所有标签项标注次数为
(11+35+5+...+48+5)=426,其中标签项#9标注次数是35,则
p90,9=35/426=0.08216;依此可以计算每个标签项在当前网页#90的标签重
要性的标示指标p90,j。同理可以计算出网页#90的50个近邻网页的标签重
要性的标示指标pi,j(其中i属于网页#90的50个近邻网页ID)。
c)计算基于协同过滤(CF)方法产生的标签权重ri,j:
r i , j = Σ k ∈ k i ( p k , j × s i , k × log Σ 1 ∈ U t k , 1 ) ]]>其中ki指网页i的近邻网页集
合(这里以取50个近邻为例),Si,k表示CF方法中当前网页i与其近邻网
页k的相似度,以如下公式进行计算:
s i , k = Sim i , k Σ k ′ ∈ k i Sim i , k ′ ]]>
这样,计算式中各项都可依照前面步骤计算得出。如计算网页#90的
r90,j后,排序的前10位分别为
即通过CF方法得到网页#90的推荐top-10标签为secure,password,
tool,software,window,hack,firefox,howto,tip,recovery。同理可得
到其推荐top-K标签。
d)计算归一化CF权重ζi,j:
其中k表示标签项出现在前k项标签列表的位置。
在本实施例中,只需计算处于其推荐top-K中的标签项,其他标签项
的相应参数值取0。处于其推荐top-K中的标签项的CF权重值ζi,j等于每
一个标签项的ri,j值除以所有处于其推荐top-K中的标签项的ri,j值的总和。
如网页#90的CF权重值ζ90,j以top-10为例,首先计算推荐top-10标签项
的ri,j值的总和(1.32354+0.400672+0.289863+0.223276+0.214289+0.169809
+0.15723+0.14299+0.119932+0.106532)=3.148133,然后可得ζ90,secure=
1.32354/3.148133=0.420421,同理可计算其他标签项的CF权重值ζ90,j。
步骤2-3)计算归一化Corr-LDA权重值ρi,j,主要包括以下步骤:
(1)构建Corr-LDA模型(如图2所示,可参阅参考文献5),
首先,计算网页i包含的全部词项数目Ni和全部标签数目Mi,其中,
N i = Σ j ∈ V w i , j ]]>
对于每个Ni中的词项wn提取对应的主题分配zn~Multinomial(θ)提
取词项wn~p(wn|zn,β),
M i = Σ j ∈ U t i , j ]]>
对于每个Mi中的标签项tm提取索引序列ym~Unif(1,...,N)提取标
签项tm~p(tm|ym,z,η)
例如,网页#90的词项总数为
N 90 = Σ j ∈ V w 90 , j = ( 2 + 8 + . . . + 1 + 1 ) = 1563 ]]>以及
网页#90的标签项总数为
M 90 = Σ j ∈ U t 90 , j = ( 2 + 5 + . . . + 4 + 4 ) = 505 . ]]>
接着,按照Corr-LDA模型提取主题比例θ~Dir(α):
p ( θ | α ) = Γ ( Σ i = 1 K α i ) Π i = 1 K Γ ( α i ) θ 1 α 1 - 1 . . . θ K αK - 1 ]]>在本实施例中,K=300。
(2)进行参数估计
首先,建立极大似然函数。
在给定参数α,β和η后,可得到一个二元组(w,f)的边缘分布为:
p ( w , t | α , β , η ) = ∫ p ( θ | α ) ( Π n = 1 N Σ z n p ( z n | θ ) p ( w n | z n , β ) ) ]]>
( Π m = 1 M Σ y m p ( y m | N ) p ( t m | y m , z , η ) ) dθ ]]>
由此可得似然函数:
p ( R | α , β , η ) = Π i = 1 D ∫ p ( θ i | α ) ( Π n = 1 N i Σ z in p ( z in | θ i ) p ( w in | z in , β ) ) ]]>
( Π m = 1 M i Σ y mi p ( y im | N i ) p ( t im | y im , z i , η ) ) d θ i ]]>
然后,利用变分EM法估计参数。
给定潜在变量的概率分布:
其中自由变量参数γ是一个K维的狄利克雷参数,φn是N中K维多
项参数,φm是M中K维多项参数。
让βiv表示概率p(wvn|zn=i,β)的值,则变分EM法估计参数的过程为
迭代调用如下三个等式,直到KL散度收敛。
γ i = α i + Σ n = 1 N φ ni ]]>
通过上述变分EM法,基于训练数据集R-R’上的学习,获得参数γi,
的估计。
下表给出了训练后,其中5个话题(topic)的词项(word)和标签(tag)
的排列情况。
(3)利用所得到的估计参数,通过下式:
可得到Corr-LDA模型对网页#90的标签项预测概率结果:
(4)计算Corr-LDA权重值ρi,j
其中k表示标签项出现在前k项标签列表的位置。
在本实施例中,通过上述概率结果可计算得出Corr-LDA权重值ρi,j。
处于其推荐top-10中的标签项的Corr-LDA权重值ρi,j等于每一个标签项
的p(ti,j|wi)值除以所有处于其推荐top-10中的标签项的p(ti,j|wi)值的总和。
如网页#90的Corr-LDA权重值ρ90,j,以top-10为例。首先计算推荐top-10
标签项的p(ti,j|wi)值的总和(0.149007+0.0738018+...+0.0321281+
0.0174572)=0.536027,然后可得ρ90。secure=0.149007/0.536027=
0.137683,同理可计算其他标签项的Corr-LDA权重值ρ90,j。而非top-10
的标签项的Corr-LDA权重值ρ90,j均取值为零。
应指出,在上述步骤2中所采用的公式及其中的变量和符号的含义可
参见上文提及的参考文献2、参考文献3和参考文献5。
步骤3,建立线性融合权值模型,并基于训练集R’估计融合参数
步骤3-1)按照步骤2给出的方法计算得出融合模型的训练集R’中的
所有网页的TF、CF和Corr-LDA的归一化权值。令标签j对于网页i的权
值向量为:
x j ( i ) = [ τ i , j , ζ i , j , ρ i , j ] T ]]>
其中,τi,j通过统计网页i中的词频归一化后直接获得;ζi,j按照步骤2-2
介绍的方法从集合R-R’中获取50个近邻后计算得到;ρi,j直接通过将网页
的特征向量wi代入步骤2-3训练获得的Corr-LDA模型计算得到。
如标签“jquery”对于网页#11的权值向量的计算结果如下:
x jquery ( 11 ) = [ 0.228158,0.401349,0.136817 ] T . ]]>
步骤3-2)建立线性融合模型
通过步骤3-1得到每个标签对于训练集R’的网页i的三个权值序列,
并对每一个权值序列由大到小分别排序。然后,从三个有序序列中分别取
前k个标签的权值,得到x(i)π(j)(j=1...k)。其中,π表示标签项的一种序列,
π(j)表示标签项π(j)处于序列的第j位。
则,线性融合权值x(i)π(j)定义为:
X π ( j ) ( i ) = λ 1 τ i , π ( j ) + λ 2 ζ i , π ( j ) + λ 3 ρ i , π ( j ) = λ T · X π ( j ) ( i ) , ]]>
模型的参数为λ=[λ1,λ2,λ3]。
步骤3-3)线性融合模型参数估计
(1)在训练集R’上建立似然函数:
L = Σ i = 1 | | R ′ | | ln P ( i ) ( π | χ ) = Σ i = 1 | | R ′ | | Σ t = 1 k ( χ π ( t ) ( i ) - ln Σ l = t k exp ( χ π ( l ) ( i ) ) ) , ]]>
其中, P ( i ) ( π | χ ) = Π j = 1 k exp ( χ π ( j ) ( i ) ) Σ t = j k exp ( χ π ( t ) ( i ) ) ]]>为网页i的标签序列的枚举概率模型,
||R’||表示数据集R’的大小,在本实施例中,其值为10000。
(3)利用图3所示的梯度下降算法对线性融合模型的参数λi(i=1,2,3)
(为了方便,可简称为线性融合参数或者融合参数)进行估计。
设定一个很小的正数ε(一般设置为0.0001)作为梯度下降法迭代的
收敛终止条件。如图3所示的梯度下降算法包括以下步骤:
1)选择一个初始的λ值,接着做如下计算:
Δλ = - ∂ L ∂ λ m = - Σ i Σ t ( x π ( t ) ( i ) , m - Σ l = t k x π ( t ) ( i ) , m . exp ( χ π ( t ) ( i ) ) Σ l = t k exp ( χ π ( t ) ( i ) ) ) , m = 1,2,3 ]]>
2)判断||Δλ||≥ε是否成立。
3)如果不等式成立,则回溯直线查找发现一个步长值t,更新λ值
(λ=λ-tΔλ),并对λ值正规化,然后返回步骤(2)。
4)如果不等式不成立,则返回融合参数λ
在本实施例中,计算的最终结果为λ=[0.305,0.268,0.427]。
步骤4,基于线性融合权值模型来进行自动的社会标签标注。
也就是,利用融合参数λi(i=1,2,3)计算标签j对于网页i的线性融
合权值
( χ π ( j ) ( i ) = λ 1 τ i , π ( j ) + λ 2 ζ i , π ( j ) + λ 3 ρ i , π ( j ) = λ T · X π ( j ) ( i ) ) , ]]>按照线性融合权值
的从大到小排序后,依次进行自动推荐。
针对测试集D的每一个网页进行线性融合权值的计算,将计算结果降
序排列后得到其预测标注标签的Top-N。以测试集D中的网页#90为例,
用线性融合式对其标签项进行处理后的结果为:
将网页#90的TF、CF、Corr-LDA以及本发明的融合模型所得到的前
10个自动生成的标签列于下表,其中User行数据指的是测试集网页#90
的用户标注结果。
在又一个实施例中,提供了一种社会标签自动标注器,包括网页数据
集初始化装置、权重计算装置、线性融合参数估计装置以及标签标注装置。
其中,网页数据集初始化装置用于初始化网页数据集,形成对应的词项空
间和标签空间;所述网页数据集由已经被用户标注的网页组成,并被分为
训练集R和R’。权重计算装置用于对训练集R’中的每个网页,计算所述
标签空间中每个标签对于该网页的权值向量,其中,标签j对于网页i的
权值向量τi,j,ζi,j,ρi,j分别为基于训练集R和R’,利用上文
提到的词频关键词、协同过滤和一致性话题模型的方法计算得到的标签j
对于网页i的归一化的权重值。线性融合参数估计装置用于建立线性融合
权值模型: X π ( j ) ( i ) = λ 1 τ i , π ( j ) + λ 2 ζ i , π ( j ) + λ 3 ρ i , π ( j ) = λ T · X π ( j ) ( i ) , ]]>并且基于训练集R’对参
数λ=[λ1,λ2,λ3]进行估计,其中π表示对于网页i的一种标签项序列,标
签项π(j)处于该序列的第j位。标签标注装置用于根据所估计的参数,计
算所述标签空间中每个标签对于将要被标注的网页的线性融合权值,按该
权值的大小自动生成用于标注该网页的标签项序列。
网页数据集初始化装置包括用于基于词袋模型对网页数据集进行处
理,形成对应的词项空间V和标签空间U的装置;用于在词项空间V和
标签空间U的基础上,将网页数据集中的每个网页表示为一个二元组(wi,
ti)的装置,其中wi∈V,ti∈U,矢量wi的元素wi,j表示词项在网页i中
出现的次数,矢量ti的元素ti,k表示标签在网页i中标注过的次数。网页数
据集初始化装置还包括用于对网页数据进行降噪处理,过滤掉少于100个
用户标注的网页的装置。
线性融合参数估计装置包括用于建立线性融合权值模型
X π ( j ) ( i ) = λ 1 τ i , π ( j ) + λ 2 ζ i , π ( j ) + λ 3 ρ i , π ( j ) = λ T · X π ( j ) ( i ) ]]>的装置;用于在训练集R’上建立似然函
数L的装置,以及利用上文提到的梯度下降法估计参数λ的装置,其中,
L = Σ i = 1 | | R ′ | | ln P ( i ) ( π | χ ) = Σ i = 1 | | R ′ | | Σ t = 1 k ( χ π ( t ) ( i ) - ln Σ l = t k exp ( χ π ( l ) ( i ) ) ) ]]>
p ( i ) ( π | χ ) = Π j = 1 k exp ( χ π ( j ) i ) Σ t = j k exp ( χ π ( t ) i ) , ]]>||R’||表示训练集R’的大小。
性能分析
为了测试融合模型的准确性与客观性,在本申请中首先对TF、CF和
Corr-LDA三个方法之间的互补性做了验证,然后将本发明的融合模型与
三个方法各自独立使用的情况以及应用MM-LDA(mixed membership
LDA)模型的情况进行了比较。
首先,将能够被TF方法正确预测而没有被Corr-LDA模型预测中的
标签数量与总的预测标签量的比例定义为TF方法相对于Corr-LDA模型的
互补值,公式如下:
Ntf,cl/K
其中Ntf,cl表示被TF方法正确预测而没有被Corr-LDA模型预测中的
标签数,K的值表示总的预测标签数。依次类推可以定义其他方法对的互
补值。在训练集R’和测试集D上进行训练和评估后(K取值10),可得到
三个方法间的互补值,如表1所示:
表1TF、CF和Corr-LDA三个方法间的互补值
从表中可以看到,使用CF和Corr-LDA相对基本的TF方法的互补值
高于0.3,而反之也有互补值将近0.1,所以三者之间没有哪一个方法具有
压倒性优势的,相互之间是存在互补关系的。
在训练集R’和测试集D上分别应用TF、CF、Corr-LDA、MM-LDA
方法与本文所讨论的社会标签自动标注方法进行比较,并按照参考文献
6(Song,Y.,Zhuang,Z.,Li,H.,Zhao,Q.,Li,J.,Lee,W.-C.,and Giles,C.L.
2008.Real-time automatic tag recommendation.In SIGIR’08:Proceedings of
the 31st annual international ACM SIGIR conference on Research and
development in inform ation retrieval.515-522.al.2008)中提出的几个指标
----Top-k准确率,Exact-k准确率,Tag召回率,Tag正确率进行统计,可
得到如下数据(空间所限,只列出了Top-10)。
表2上述几种方法的效果比较(top-k和exact-k列的数据省略了%)
图4(a)和图4(b)所示的分别是以直方图的形式统计Top-k和Exact-k
的准确率。
从实验结果可以看到通过本发明的实施例提供的自动进行社会标签
标注的方法相比现有的方法在社会标签自动标注方面显著的优越性。这是
由于本发明提供的社会标签自动标注方法考虑了社会标签与文档具体内
容的一致性和抽象语义层的相关性,因此能够提高社会标签自动标注的准
确性。
虽然本发明已经通过优选实施例进行了描述,然而本发明并非局限于
这里所描述的实施例,在不脱离本发明范围的情况下还包括所作出的各种
改变以及变化。