一种基于标准标签和项目评分的推荐方法.pdf

上传人：62****3

文档编号：6175597

上传时间：2019-05-17

格式：PDF

页数：11

大小：2.31MB

《一种基于标准标签和项目评分的推荐方法.pdf》由会员分享，可在线阅读，更多相关《一种基于标准标签和项目评分的推荐方法.pdf（11页完整版）》请在专利查询网上搜索。

1、(10)申请公布号 CN 103678431 A (43)申请公布日 2014.03.26 CN 103678431 A (21)申请号 201310101242.5 (22)申请日 2013.03.26 G06F 17/30(2006.01) (71)申请人南京邮电大学地址 210003 江苏省南京市新模范马路 66 号 (72)发明人成卫青杨晶洪龙杨庚黄卫东吴旭东唐旋 (74)专利代理机构南京知识律师事务所 32207 代理人汪旭东 (54) 发明名称一种基于标准标签和项目评分的推荐方法 (57) 摘要基于标准标签和项目评分的推荐方法具有如下特征：本发明将标。

2、签标准化，即将用户的自定义标签映射到语义较明确的标准标签上，再利用标准标签建立用户兴趣模型，然后根据用户的兴趣模型计算用户之间的相似度，建立近邻用户群，再基于目标用户及其近邻用户的项目评分和改进的 Slope one 算法预测用户对未评项目的评分，进而实现个性化推荐，可显著提高 Web2.0 互联网上广泛使用的可进行自由定义的标签的可用性，利用基于标准标签的用户兴趣模型计算用户之间的相似度，并为目标用户建立相似用户群，能够缩小目标用户的相关项目评分搜索范围，减少算法的计算量，改进了 Slope one 算法的项目评分预测，提高了兴趣爱好相近的用户对预。

3、测评分的贡献，从而提高互联网个性化推荐质量。 (51)Int.Cl. 权利要求书 3 页说明书 6 页附图 1 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请权利要求书3页说明书6页附图1页 (10)申请公布号 CN 103678431 A CN 103678431 A 1/3 页 2 1. 一种标签标准化，其特征主要在于自定义标签的标准化步骤，步骤 1) 根据个性化推荐应用环境，选择网站提供的热门标签作为标准标签，或根据应用领域人工定义标准标签，建立标准标签库；步骤 2) 对每个用户自定义标签做如下操作，步骤 21) 将其与标准标签做简单的字符。

4、串匹配，若匹配成功则直接将其映射到标准标签上，否则转步骤 22) ；步骤 22) 若该用户自定义标签标注的所有项目中含有共现率为 1 的属性值，则将所有这样的属性值作为标准标签，并将该用户自定义标签映射到这些标准标签上，并将它们并入标准标签库；若不存在这样的属性，则转步骤 3) ；步骤 3) 使用基于互信息的标签聚类方法，将步骤 1) 和步骤 2) 标准化失败的所有用户的自定义标签映射到标准标签库中的标签上；设此时自定义标签集合为 TP，含 m 个标签；标准标签库中的标签组成集合 TS，含 n 个标签；将 TS中的标签作为聚类中心；相关阀值为。

5、，当标签间的相关度小于时，认为标签之间不相关；分为以下几步：步骤 31) 按照式（3）计算集合 TP和 TS中所有标签之间的相关度；式（3）为其中 I(ti;tj) 和 H(ti) 定义见式（1）和式（2）；式（1）为式（2）为 H(ti) -p(ti)logp(ti)，其中， p(ti,tj) 是指 ti和 tj标记在同一资源上的概率，即：（和分别指标签 ti和 tj标注的资源集合， n 为标签总数，此外，资源总数远大于 1）； p(ti)、 p(tj) 分别代表标签 ti、 tj标记资源的概率，即：。

6、步骤 32) 由式（4）得到标签相关度矩阵 R，式（4）为其中， m 为待标准化的用户自定义标签个数， n 为聚类中心的标签个数或拟作为聚类中心的标签个数， rij为标签相关度，见式（3）；步骤 33) 找出 R 中最大的元素 rij，若其小于阀值，则转步骤 4)，否则将标签 tpi聚集到以标签 tsj为中心的类中，令 TP=TP-tpi， m=m-1，删除矩阵 R 的第 i 行，得到更新的 mn 维矩阵 R ；步骤 34) 对矩阵 R 重复执行步骤 33)，直到 m 为 0，聚类停止；步骤 4) 步骤 3) 得到的类聚集结果为 C(1) c1,。

7、c2,.,cn， ci代表以标准标签 tsi(1 i n) 为聚类中心的类；此时，若 m0，即 TP中还剩有 M(M=m) 个自定义标签未被映射到标准标签上，则将这些标签相互聚类，选出聚类中心，暂时作为标准标签（称为弱标准权利要求书 CN 103678431 A 2 2/3 页 3 标签），且不并入标准标签库，过程如下：步骤 41) 按照式（3）计算集合 TP中所有标签之间的相关度，由式（4）得到 MM 维标签相关度矩阵，记为 RL；步骤42)找出矩阵RL除主对角线以外的最大元素rls，若rls小于阀值，则转步骤44)，否则对应标签。

8、tpl和 tps，若其中一个标签已被聚类，设为 tx，则将另一个 ty聚到与其相同的类中，删除矩阵 RL的 ty行， m=m-1，否则设其中标记了较多资源的标签为 tx，另一个为 ty，以标签tx作为聚类中心，聚类中心作为弱标准标签，类中其他标签都映射到它，将ty聚集到以 tx为中心的类中，删除矩阵 RL的 tx和 ty行， m=m-2 ；步骤 43) 对矩阵 mM 矩阵 RL重复执行步骤 42)，直到 m 为 0，聚类停止；步骤 44) 设步骤 42) 和 43) 得到的类聚集结果为 C(2) cn+1,cn+2,.,cn+h ；设 C C(1)+C(2。

9、)， C 中每个类中的其他标签都映射到聚类中心； C(2)中所有类的聚类中心以及最终无法聚类的自定义标签，最终的RL中各行表示的标签，构成弱标准标签集合；标准标签库中标签与弱标准标签一起构成本轮的标准标签集合。 2. 一种基于标准标签和项目评分的推荐方法，方法包括权利要求 1 所述的自定义标签的标准化，基于标准标签建立用户兴趣模型，计算用户相似度，以及基于相似用户的相关评分和用户相似度预测用户对项目的评分，其特征在于方法所包含的步骤：步骤1)利用权利要求1的标准标签生成用户的兴趣模型，使用基于向量空间模型的表示法建立用户的兴趣模型；记当前标准标签集合为。

10、TS， TS=t1,t2,.,tn， n=|TS|，用户兴趣模型为： (t1,w(t1),(t2,w(t2),.,(tn,w(tn)，其中 ti(1 i n) 表示用户的兴趣项（也即标准标签）， w(ti)表示用户对兴趣项ti的权重；用户ui的兴趣模型中的任一兴趣项权重采用 TF-IDF 方法按式（5）计算，公式（5）为其中 TS 为标准标签集合，用户集合为 U， t TS， N=|U|， ui U，表示用户 ui使用标签 t 的次数， nt为 U 中使用过标签 t 的用户数；步骤 2) 计算用户之间的相似度并获悉各个用户的近邻用户群；按式（6）。

11、利用余弦相似度计算用户之间的相似性，与某用户相似度最高的 K 个用户构成该用户的近邻用户群；式（6）为其中 Ii和 Ij为用户 ui和 uj的兴趣模型向量， wik和 wjk分别指用户 ui和 uj对兴趣项 tk的兴趣度；步骤 3) 基于用户 u 对若干项目 j 的评分，以及其他用户对项目 j 和项目 i 的评分，预测用户 u 对未评项目 i 的评分；分为两步：步骤 31) 按本发明定义的基于用户相似度的项目评分平均差值计算公式（7），估计用户 u 对项目 i 和项目 j 的评分差值式（7）为其中， sim(u,v) 是用户 u 和 v 之间的相似度。

12、，见式（6）；分别表示用户 v 对项目 i 和项目权利要求书 CN 103678431 A 3 3/3 页 4 j 的评分。是所有用户对所有评价过的项目的评分集合， Si,j() 表示用户 u 的近邻用户群中同时对项目 i 和项目 j 评分的用户集合， v Si,j() ；步骤 32) 按式（8）预测用户 u 对未评项目 i 的评分，式（8）为其中 S(u) 代表用户 u 评价过的项目集合， |Si,j()|表示用户u的近邻用户群中同时对项目i和项目j评分的用户数，表示用户 u 对项目 j 的评分，见式（7）；步。

13、骤 4) 重复步骤 3)，由式（8）可知，只要有近邻用户的相关评分可以参考，用户 u 可以得到对所有未评项目的评分，将预测评分为 Top-N 项目推荐给用户 u。权利要求书 CN 103678431 A 4 1/6 页 5 一种基于标准标签和项目评分的推荐方法技术领域 0001 本发明涉及一种标签标准化和自动快速地向社交网络用户进行个性化推荐的解决方案。主要用于解决如何有效利用用户自定义标签和用户对一些项目的评分进行个性化推荐的问题，属于数据挖掘技术领域。背景技术 0002 随着网络时代的来临，互联网的规模不断扩大，复杂多样的信息充斥着网络，同时也带。

14、来了信息 “超负载（information overload） ” 的问题。用户无法在过量的信息中迅速获取对自己有用的资源，降低了信息的利用率，许多有用的信息不能被及时发现甚至不能被发现，造成了 “资源浪费” 。个性化推荐系统 (personalized recommender system）的出现很好地解决了这个问题。个性化推荐研究利用用户预先提供的数据或是利用数据挖掘等技术从用户的历史记录中收集用户的偏好，帮助用户获取感兴趣的信息，结合推荐算法，为用户推荐其可能感兴趣的资源。本发明中，每项资源也称为项目。如果推荐系统能够为用户提供高质量的推荐服务，将会在提。

15、高用户忠诚度和防止用户流失方面发挥很大的作用。 0003 用户兴趣模型和个性化推荐算法是个性化推荐技术中的两个重要核心，用户兴趣模型的质量关系着用户的兴趣爱好能否被正确的表示，而高效的推荐方法则是推荐质量的良好保证。用户兴趣模型是一种形式化的，可计算的数据结构，模型的兴趣特征是影响用户兴趣模型质量的主要因素。近年来， Web2.0 环境下信息组织方式之一标签逐渐进入研究者们的视野，标签因为其自由定义、无约束、可共享等特点被认为是一种包含了用户兴趣的 “关键词” ，并逐渐应用在个性化推荐领域。事实上，只要用户创建的标签能够被自己理解，标签自身真正的含义与用户的意图是否。

16、相符无关紧要，因此标签存在较严重的语义问题，这种语义问题也直接导致了用户兴趣模型准确率的降低；个性化推荐算法根据用户的兴趣爱好为其做出合适的推荐，直接关系个性化推荐系统的质量和性能。 Slope one算法具有较好的推荐质量和推荐速度，常被用来做实时推荐，但是同时也存在着以下问题影响着算法的运算效率和精度： 0004 （1）相关的项目评分数量可能很大。项目的评分预测是全局的，用户对某未评项目 j 的评分是根据其他用户对相关项目与项目 j 的平均评分差值以及该用户已有项目评分来预测的。随着相关的项目评分数据的增多，计算项目 j 与其他项目评分差将是一个非常大的开。

17、销，不仅会对推荐的精度造成影响，对算法的运算速度也会产生一定的影响。 0005 （2）用户针对性不强。用户 u 对项目 j 的预测评分是涉及到所有对项目 j 评价过的用户，这种计算方式过滤掉了一些不相关的用户，但是由于面向的是全局用户，一些满足项目评分要求但是兴趣完全相反的用户也会被计算在内，从而会导致预测结果的偏差。例如预测 UserC 对项目 i 的评分，设 UserA 与 UserC 的兴趣爱好相同，对项目的评分习惯也类似， UserB 与 UserA、 UserC 的兴趣完全不同，对项目的喜爱程度也完全不同，那么可能出现根据 UserA 对项目的评价，。

18、预测得到 UserC 对项目 i 的评分为 5，而根据 UserA 和 UserB 对项目的评价，预测得到 UserC 对项目 i 评分为 2，显然后一个预测结果不合情理。说明书 CN 103678431 A 5 2/6 页 6 0006 综上可见，标签不能准确表达用户的兴趣爱好；传统的 Slope one 算法虽然避免计算用户相似度，减少了计算时间，却避免不了极大的计算量和物理空间消耗；传统的 Slope one 的预测精度也有一定的提高空间。发明内容 0007 本发明的目的：提供一种先将自定义标签映射为标准标签，再基于标准标签建立用户兴趣模型，再基。

19、于兴趣模型计算用户相似度获悉近邻用户群，进而基于相关用户评分信息以及用户相似度对目标用户进行项目推荐的互联网智能推荐方法，以及实现流程，用于解决当前标签存在的语义模糊、难以利用的问题，以及当前简单利用标签的个性化推荐方法准确度不高、计算量大、空间消耗过大等问题。本发明可显著提高 Web2.0 互联网上广泛使用的可进行自由定义的标签的可用性，并提高互联网个性化推荐（即区分用户进行项目推荐）的推荐质量。 0008 本发明解决其技术问题所采用的技术方案是：本发明将标签标准化，即将用户的自定义标签映射到语义较明确的标准标签上，再利用标准标签建立用户兴趣模型，然。

20、后根据用户的兴趣模型计算用户之间的相似度，建立近邻用户群，再基于已有的项目评分数据和改进的Slope one算法预测用户对未评项目的评分，进而实现个性化推荐，其目标是解决标签的语义模糊问题，降低用户兴趣模型的维度，在不增加时间消耗的情况下，提高推荐算法的准确度，减少推荐算法的计算量及物理空间消耗。 0009 社交网络中标签是用户在无规律约束的条件下自主创造的，用户可以使用若干标签来标注若干项目，同一项目可以被多个标签标注。虽然计算机不能够像人脑一样直接理解或纠正标签的语义，但是通过标签与项目之间的关系，可以从标注的项目中反映出标签的含义。本发明中使用如下概。

21、念和计算公式： 0010 （1）标准标签（Standard Tag）：语义公认明确的标签，且各标签之间的相关度很小。初始标准标签集合由人为制定的标准标签组成，并存入标准标签库。以后根据用户自定义标签标注的信息按照一定的规则适当扩充标准标签库。 0011 （2）标签标准化：将用户的自定义标签映射到标准标签上的过程。无法映射的用户自定义标签可暂时作为标准标签，但不并入标准标签库。 0012 （3）属性共现率：在若干属性中出现同一个词的概率，也简称为共现率。例如，属性值” ab” 在下列属性序列” ab|cd” 、 ” a|ab|s” 、 ” xcd|ab” 。

22、、 ” iuy|ab|dfw” （各个属性值之间用” |” 分隔）中的共献率为 1。 0013 （4）标签 ti和 tj的互信息 I(ti;tj) 以及熵 H(ti) 定义为： 0014 式（1） 0015 H(ti) -p(ti)logp(ti) 式（2） 0016 其中， p(ti,tj) 是指 ti和 tj标记在同一资源上的概率，即：（和分别指标签 ti和 tj标注的资源集合， n 为标签总数，此外，资源总数远大于 1）； p(ti)、说明书 CN 103678431 A 6 3/6 页 7 p(tj) 分别代表标签 ti、 tj标记资源的概率，即： 0。

23、017 理论上互信息的值可以用来直接表示标签相关度的大小，但是由于其取值范围难以控制，本发明对互信息的大小做了归一化处理，用以表示标签之间的相关度。标签 ti和 tj的相关度 rij定义为： 0018 式（3） 0019 其中 I(ti;tj) 和 H(ti) 定义见式（1）和式（2）。当 ti和 tj标注的资源完全相同时， rij=1，标签 ti和 tj完全相关；当 ti和 tj标注的资源完全不同时， rij=0，标签 ti和 tj完全不相关；其他情况下 00，即 TP中还剩有一些自定义标签未被映射到标准标签上，设此时 TP tp1,tp2,.,tpm。

24、， M=|TP|，即 M=m，那么将这些标签相互聚类，选出聚类中心，暂时作为标准标签（称为弱标准标签），且不并入标准标签库，过程如下： 0036 步骤 41) 按照式（3）计算集合 TP中所有标签之间的相关度，由式（4）得到 MM 维标签相关度矩阵，记为 RL； 0037 步骤 42) 找出矩阵 RL除主对角线以外的最大元素 rls，若 rls小于阀值，则转步骤 44)，否则对于标签 tpl和 tps，若其中一个标签已被聚类，设为 tx，则将另一个 ty聚到与其相同的类中，删除矩阵RL的ty行， m=m-1，否则设其中标记了较多资源的标签。

25、为tx，另一个为 ty，以标签 tx作为聚类中心（聚类中心作为弱标准标签，类中其他标签都映射到它），将 ty聚集到以 tx为中心的类中，删除矩阵 RL的 tx和 ty行， m=m-2 ； 0038 步骤 43) 对矩阵 mM 矩阵 RL重复执行步骤 42)，直到 m 为 0，聚类停止； 0039 步骤 44) 设步骤 42) 和 43) 得到的类聚集结果为 C(2) cn+1,cn+2,.,cn+h ；设 C C(1)+C(2)， C 中每个类中的其他标签都映射到聚类中心。C(1)中所有类的聚类中心即为标准标签库中的标签。 C(2)中所有类的聚类中心以及最终无法聚类的。

26、自定义标签（最终的RL中各行表示的标签）构成弱标准标签集合。标准标签库中标签与弱标准标签一起构成本轮的标准标签集合。 0040 二、项目评分的推荐方法主要步骤包括 0041 步骤 1) 利用标准标签生成用户的兴趣模型，使用基于向量空间模型的表示法建立用户的兴趣模型。记当前标准标签集合为 TS， TS=t1,t2,.,tn， n=|TS|，用户兴趣模型为： (t1,w(t1),(t2,w(t2),.,(tn,w(tn)，其中ti(1in)表示用户的兴趣项（也即标准标签）， w(ti) 表示用户对兴趣项 ti的权重。用户 ui的兴趣模型中的任一兴趣项权重采用 TF-I。

27、DF 方法计算： 0042 式（5）说明书 CN 103678431 A 8 5/6 页 9 0043 其中 TS 为标准标签集合，用户集合为 U， t TS， N=|U|， ui U，表示用户 ui使用标签 t 的次数， nt为 U 中使用过标签 t 的用户数。 0044 步骤 2) 计算用户之间的相似度并获悉各个用户的近邻用户群。利用余弦相似度计算用户之间的相似性，与某用户相似度最高的 K 个用户构成该用户的近邻用户群。基于余弦相似度的用户 ui和 uj之间的相似度为： 0045 式（6） 0046 其中 Ii和 Ij为用户 ui和 uj的兴趣模型向量， wik和。

28、 wjk分别指用户 ui和 uj对兴趣项 tk的兴趣度。 0047 步骤3)基于用户u对若干项目j的评分，以及其他用户对项目j和项目i的评分，预测用户 u 对未评项目 i 的评分。分为两步： 0048 步骤 31) 按本发明定义的基于用户相似度的项目评分平均差值计算公式，估计用户 u 对项目 i 和项目 j 的评分差值 0049 式（7） 0050 其中， sim(u,v) 是用户 u 和 v 之间的相似度，见式（6）；分别表示用户 v 对项目 i 和项目 j 的评分。是所有用户对所有评价过的项目的评分集合， Si,j() 表示用户 u 的近邻用户群中同时对项目 i 和。

29、项目 j 评分的用户集合， v Si,j() ； 0051 步骤 32) 按下式预测用户 u 对未评项目 i 的评分： 0052 式（8） 0053 其中 S(u) 代表用户 u 评价过的项目集合， |Si,j()| 表示用户 u 的近邻用户群中同时对项目 i 和项目 j 评分的用户数，表示用户 u 对项目 j 的评分，见式（7）； 0054 步骤 4) 重复步骤 3)，由式（8）可知，只要有近邻用户的相关评分可以参考，用户 u 可以得到对所有未评项目的评分，将预测评分为 Top-N 项目推荐给用户 u。 0055 本发明的有益效果： 1、通过解决标签的语义问题，提。

30、高了用户兴趣模型的准确性。 2、经标准化后得到的标准标签的数量可远远小于系统中用户自定义标签的数量，且标准标签的数量在短时间内不会有明显变化。3、在利用本发明时，利用标准标签建立的用户兴趣模型可以离线计算。4、本发明利用用户的兴趣模型计算用户之间的相似度，并为目标用户建立相似用户群，缩小了目标用户的相关项目评分搜索范围，减少了算法的计算量，改进了 Slope one 算法的项目评分预测，有效地提高了兴趣爱好相近的用户对预测评分的贡献，从而提高了项目推荐的精准度。5、本发明是一种策略性方法，可以应用于使用标签对资源项目进行自由分类，且提供用户对项目进行随意评。

31、分功能的某些社交网络中，作为个性化推荐方法；也可根据本发明开发基于标准标签的用户爱好统计分析系统。说明书 CN 103678431 A 9 6/6 页 10 0056 说明书附图 0057 图 1 基于标准标签和项目评分推荐方法的主要过程具体实施方式： 0058 在一个系统中，任意一个用户都使用标签标记过项目，也有对项目的评分记录（这些评分是对任意项目的评分，不一定是对标签标注过的项目）。现针对这个系统开发个性化推荐的应用，为用户提供个性化推荐服务。 0059 具体实施方案为： 0060 （1）选择该系统的热门标签作为标准标签，或者根据应用领域人工建立标。

32、准标签库； 0061 （2）将所有用户的自定义标签映射到标准标签上： 0062 （21）将用户的自定义标签与标准标签做简单的字符串匹配，匹配成功的直接将其映射到标准标签上，否则转步骤（22）。 0063 （22）若某用户自定义标签标注的所有项目中含有共现率为 1 的属性值，则将所有这样的属性值作为标准标签，并将该用户自定义标签映射到这些标准标签上，若这些标准标签不在标准标签库中，还将它们并入标准标签库以扩充标准标签库。若不存在这样的属性，则转步骤（23）。 0064 （23）使用基于互信息的标签聚类方法，将步骤（21）和步骤（22）标准化失。

33、败的所有用户的自定义标签通过聚类映射到弱标准标签上。弱标准标签和标准标签库中的标签构成当前标准标签集合。 0065 （3）利用当前标准标签建立用户兴趣模型，模型基于向量空间模型的表示方法，使用标准标签作为兴趣项，并使用 TF-IDF 方法计算兴趣项的权重。 0066 （4）针对步骤（3）计算出的用户兴趣模型向量，使用余弦相似度公式计算用户之间的相似度。 0067 （5）选出前 K 个相似度最大的用户构成目标用户的近邻用户群。 0068 （6）在近邻用户群内，利用改进的项目评分平均差值公式计算目标用户的未评项目与其各已评项目之间的评分差值。 0069 （7）按预测公式（8）预测目标用户对未评价项目的评分，将预测评分为 Top-N 的项目推荐给目标用户。说明书 CN 103678431 A 10 1/1 页 11 图 1 说明书附图 CN 103678431 A 11 。

摘要
申请专利号：	CN201310101242.5	申请日：	2013.03.26
公开号：	CN103678431A	公开日：	2014.03.26
当前法律状态：	授权	有效性：	有权
法律详情：	授权\|\|\|实质审查的生效IPC(主分类):G06F 17/30申请日:20130326\|\|\|公开
IPC分类号：	G06F17/30	主分类号：	G06F17/30
申请人：	南京邮电大学
发明人：	成卫青; 杨晶; 洪龙; 杨庚; 黄卫东; 吴旭东; 唐旋
地址：	210003 江苏省南京市新模范马路66号
优先权：
专利代理机构：	南京知识律师事务所 32207	代理人：	汪旭东
PDF完整版下载：	PDF下载

内容摘要

基于标准标签和项目评分的推荐方法具有如下特征：本发明将标签标准化，即将用户的自定义标签映射到语义较明确的标准标签上，再利用标准标签建立用户兴趣模型，然后根据用户的兴趣模型计算用户之间的相似度，建立近邻用户群，再基于目标用户及其近邻用户的项目评分和改进的Slope one算法预测用户对未评项目的评分，进而实现个性化推荐，可显著提高Web2.0互联网上广泛使用的可进行自由定义的标签的可用性，利用基于标准标签的用户兴趣模型计算用户之间的相似度，并为目标用户建立相似用户群，能够缩小目标用户的相关项目评分搜索范围，减少算法的计算量，改进了Slope one算法的项目评分预测，提高了兴趣爱好相近的用户对预测评分的贡献，从而提高互联网个性化推荐质量。

权利要求书

权利要求书
1. 一种标签标准化，其特征主要在于自定义标签的标准化步骤，
步骤1)根据个性化推荐应用环境，选择网站提供的热门标签作为标准标签，或根据应用领域人工定义标准标签，建立标准标签库；
步骤2)对每个用户自定义标签做如下操作，
步骤21)将其与标准标签做简单的字符串匹配，若匹配成功则直接将其映射到标准标签上，否则转步骤22)；
步骤22)若该用户自定义标签标注的所有项目中含有共现率为1的属性值，则将所有这样的属性值作为标准标签，并将该用户自定义标签映射到这些标准标签上，并将它们并入标准标签库；若不存在这样的属性，则转步骤3)；
步骤3)使用基于互信息的标签聚类方法，将步骤1)和步骤2)标准化失败的所有用户的自定义标签映射到标准标签库中的标签上；设此时自定义标签集合为TP，含m个标签；标准标签库中的标签组成集合TS，含n个标签；将TS中的标签作为聚类中心；相关阀值为δ，当标签间的相关度小于δ时，认为标签之间不相关；分为以下几步：
步骤31)按照式（3）计算集合TP和TS中所有标签之间的相关度；式（3）为其中I(ti;tj)和H(ti)定义见式（1）和式（2）；
式（1）为I(ti;tj)=p(ti,tj)logp(ti,tj)p(ti)p(tj),]]>式（2）为H(ti)＝-p(ti)logp(ti)，其中，p(ti,tj)是指ti和tj标记在同一资源上的概率，即：（和分别指标签ti和tj标注的资源集合，n为标签总数，此外，资源总数远大于1）；p(ti)、p(tj)分别代表标签ti、tj标记资源的概率，即：p(ti)=|Pti|/|∪k=1nPtk|,]]>p(tj)=|Ptj|/|∪k=1nPtk|;]]>
步骤32)由式（4）得到标签相关度矩阵R，式（4）为其中，m为待标准化的用户自定义标签个数，n为聚类中心的标签个数或拟作为聚类中心的标签个数，rij为标签相关度，见式（3）；
步骤33)找出R中最大的元素rij，若其小于阀值δ，则转步骤4)，否则将标签tpi聚集到以标签tsj为中心的类中，令TP=TP-{tpi}，m=m-1，删除矩阵R的第i行，得到更新的m ×n维矩阵R；
步骤34)对矩阵R重复执行步骤33)，直到m为0，聚类停止；
步骤4)步骤3)得到的类聚集结果为C(1)＝{c1,c2,...,cn}，ci代表以标准标签tsi(1≤i≤n)为聚类中心的类；此时，若m>0，即TP中还剩有M(M=m)个自定义标签未被映射到标准标签上，则将这些标签相互聚类，选出聚类中心，暂时作为标准标签（称为弱标准标签），且不并入标准标签库，过程如下：
步骤41)按照式（3）计算集合TP中所有标签之间的相关度，由式（4）得到M×M维标签相关度矩阵，记为RL；
步骤42)找出矩阵RL除主对角线以外的最大元素rls，若rls小于阀值δ，则转步骤44)，否则对应标签tpl和tps，若其中一个标签已被聚类，设为tx，则将另一个ty聚到与其相同的类中，删除矩阵RL的ty行，m=m-1，否则设其中标记了较多资源的标签为tx，另一个为ty，以标签tx作为聚类中心，聚类中心作为弱标准标签，类中其他标签都映射到它，将ty聚集到以tx为中心的类中，删除矩阵RL的tx和ty行，m=m-2；
步骤43)对矩阵m×M矩阵RL重复执行步骤42)，直到m为0，聚类停止；
步骤44)设步骤42)和43)得到的类聚集结果为C(2)＝{cn+1,cn+2,...,cn+h}；设C＝C(1)+C(2)，C中每个类中的其他标签都映射到聚类中心；C(2)中所有类的聚类中心以及最终无法聚类的自定义标签，最终的RL中各行表示的标签，构成弱标准标签集合；标准标签库中标签与弱标准标签一起构成本轮的标准标签集合。

2. 一种基于标准标签和项目评分的推荐方法，方法包括权利要求1所述的自定义标签的标准化，基于标准标签建立用户兴趣模型，计算用户相似度，以及基于相似用户的相关评分和用户相似度预测用户对项目的评分，其特征在于方法所包含的步骤：
步骤1)利用权利要求1的标准标签生成用户的兴趣模型，使用基于向量空间模型的表示法建立用户的兴趣模型；记当前标准标签集合为TS，TS={t1,t2,...,tn}，n=|TS|，用户兴趣模型为：{(t1,w(t1)),(t2,w(t2)),...,(tn,w(tn))}，其中ti(1≤i≤n)表示用户的兴趣项（也即标准标签），w(ti)表示用户对兴趣项ti的权重；用户ui的兴趣模型中的任一兴趣项权重采用TF-IDF方法按式（5）计算，公式（5）为其中TS为标准标签集合，用户集合为U，t∈TS，N=|U|，ui∈U，表示用户ui使用标签t的次数，nt为U中使用过标签t的用户数；
步骤2)计算用户之间的相似度并获悉各个用户的近邻用户群；按式（6）利用余弦相似度计算用户之间的相似性，与某用户相似度最高的K个用户构成该用户的近邻用户群；式（6）为sim(ui,uj)=cos(Ii,Ij)=Ii·Ij||Ii||||Ij||=Σk=1nwikwjkΣk=1nwik2Σk=1nwjk2,]]>其中Ii和Ij为用户ui和uj的兴趣模型向量，wik和wjk分别指用户ui和uj对兴趣项tk的兴趣度；
步骤3)基于用户u对若干项目j的评分，以及其他用户对项目j和项目i的评分，预测用户u对未评项目i的评分；分为两步：
步骤31)按本发明定义的基于用户相似度的项目评分平均差值计算公式（7），估计用户u对项目i和项目j的评分差值式（7）为devi,ju=Σv&Element;Si,j(χ)sim(u,v)(vitemi-vitemj)Σv&Element;Si,j(χ)sim(u,v),]]>其中，sim(u,v)是用户u和v之间的相似度，见式（6）；分别表示用户v对项目i和项目j的评分。χ是所有用户对所有评价过的项目的评分集合，Si,j(χ)表示用户u的近邻用户群中同时对项目i和项目j评分的用户集合，v∈Si,j(χ)；
步骤32)按式（8）预测用户u对未评项目i的评分，式（8）为u^itemi=Σj&Element;S(u)(devi,ju+uitemj)|Si,j(χ)|Σj&Element;S(u)|Si,j(χ)|,i&NotElement;S(u),]]>其中S(u)代表用户u评价过的项目集合，|Si,j(χ)|表示用户u的近邻用户群中同时对项目i和项目j评分的用户数，表示用户u对项目j的评分，见式（7）；
步骤4)重复步骤3)，由式（8）可知，只要有近邻用户的相关评分可以参考，用户u可以得到对所有未评项目的评分，将预测评分为Top-N项目推荐给用户u。

说明书

说明书一种基于标准标签和项目评分的推荐方法
技术领域
本发明涉及一种标签标准化和自动快速地向社交网络用户进行个性化推荐的解决方案。主要用于解决如何有效利用用户自定义标签和用户对一些项目的评分进行个性化推荐的问题，属于数据挖掘技术领域。
背景技术
随着网络时代的来临，互联网的规模不断扩大，复杂多样的信息充斥着网络，同时也带来了信息“超负载（information overload）”的问题。用户无法在过量的信息中迅速获取对自己有用的资源，降低了信息的利用率，许多有用的信息不能被及时发现甚至不能被发现，造成了“资源浪费”。个性化推荐系统(personalized recommender system）的出现很好地解决了这个问题。个性化推荐研究利用用户预先提供的数据或是利用数据挖掘等技术从用户的历史记录中收集用户的偏好，帮助用户获取感兴趣的信息，结合推荐算法，为用户推荐其可能感兴趣的资源。本发明中，每项资源也称为项目。如果推荐系统能够为用户提供高质量的推荐服务，将会在提高用户忠诚度和防止用户流失方面发挥很大的作用。
用户兴趣模型和个性化推荐算法是个性化推荐技术中的两个重要核心，用户兴趣模型的质量关系着用户的兴趣爱好能否被正确的表示，而高效的推荐方法则是推荐质量的良好保证。用户兴趣模型是一种形式化的，可计算的数据结构，模型的兴趣特征是影响用户兴趣模型质量的主要因素。近年来，Web2.0环境下信息组织方式之一标签逐渐进入研究者们的视野，标签因为其自由定义、无约束、可共享等特点被认为是一种包含了用户兴趣的“关键词”，并逐渐应用在个性化推荐领域。事实上，只要用户创建的标签能够被自己理解，标签自身真正的含义与用户的意图是否相符无关紧要，因此标签存在较严重的语义问题，这种语义问题也直接导致了用户兴趣模型准确率的降低；个性化推荐算法根据用户的兴趣爱好为其做出合适的推荐，直接关系个性化推荐系统的质量和性能。Slope one算法具有较好的推荐质量和推荐速度，常被用来做实时推荐，但是同时也存在着以下问题影响着算法的运算效率和精度：
（1）相关的项目评分数量可能很大。项目的评分预测是全局的，用户对某未评项目j的评分是根据其他用户对相关项目与项目j的平均评分差值以及该用户已有项目评分来预测的。随着相关的项目评分数据的增多，计算项目j与其他项目评分差将是一个非常大的开销，不仅会对推荐的精度造成影响，对算法的运算速度也会产生一定的影响。
（2）用户针对性不强。用户u对项目j的预测评分是涉及到所有对项目j评价过的用户，这种计算方式过滤掉了一些不相关的用户，但是由于面向的是全局用户，一些满足项目评分要求但是兴趣完全相反的用户也会被计算在内，从而会导致预测结果的偏差。例如预测UserC对项目i的评分，设UserA与UserC的兴趣爱好相同，对项目的评分习惯也类似，UserB与UserA、UserC的兴趣完全不同，对项目的喜爱程度也完全不同，那么可能出现根据UserA对项目的评价，预测得到UserC对项目i的评分为5，而根据UserA和UserB对项目的评价，预测得到UserC对项目i评分为2，显然后一个预测结果不合情理。
综上可见，标签不能准确表达用户的兴趣爱好；传统的Slope one算法虽然避免计算用户相似度，减少了计算时间，却避免不了极大的计算量和物理空间消耗；传统的Slope one的预测精度也有一定的提高空间。
发明内容
本发明的目的：提供一种先将自定义标签映射为标准标签，再基于标准标签建立用户兴趣模型，再基于兴趣模型计算用户相似度获悉近邻用户群，进而基于相关用户评分信息以及用户相似度对目标用户进行项目推荐的互联网智能推荐方法，以及实现流程，用于解决当前标签存在的语义模糊、难以利用的问题，以及当前简单利用标签的个性化推荐方法准确度不高、计算量大、空间消耗过大等问题。本发明可显著提高Web2.0互联网上广泛使用的可进行自由定义的标签的可用性，并提高互联网个性化推荐（即区分用户进行项目推荐）的推荐质量。
本发明解决其技术问题所采用的技术方案是：本发明将标签标准化，即将用户的自定义标签映射到语义较明确的标准标签上，再利用标准标签建立用户兴趣模型，然后根据用户的兴趣模型计算用户之间的相似度，建立近邻用户群，再基于已有的项目评分数据和改进的Slope one算法预测用户对未评项目的评分，进而实现个性化推荐，其目标是解决标签的语义模糊问题，降低用户兴趣模型的维度，在不增加时间消耗的情况下，提高推荐算法的准确度，减少推荐算法的计算量及物理空间消耗。
社交网络中标签是用户在无规律约束的条件下自主创造的，用户可以使用若干标签来标注若干项目，同一项目可以被多个标签标注。虽然计算机不能够像人脑一样直接理解或纠正标签的语义，但是通过标签与项目之间的关系，可以从标注的项目中反映出标签的含义。本发明中使用如下概念和计算公式：
（1）标准标签（Standard Tag）：语义公认明确的标签，且各标签之间的相关度很小。初始标准标签集合由人为制定的标准标签组成，并存入标准标签库。以后根据用户自定义标签标注的信息按照一定的规则适当扩充标准标签库。
（2）标签标准化：将用户的自定义标签映射到标准标签上的过程。无法映射的用户自定义标签可暂时作为标准标签，但不并入标准标签库。
（3）属性共现率：在若干属性中出现同一个词的概率，也简称为共现率。例如，属性值”ab”在下列属性序列”ab|cd”、”a|ab|s”、”xcd|ab”、”iuy|ab|dfw”（各个属性值之间用”|”分隔）中的共献率为1。
（4）标签ti和tj的互信息I(ti;tj)以及熵H(ti)定义为：
I(ti;tj)=p(ti,tj)logp(ti,tj)p(ti)p(tj)]]>   式（1）
H(ti)＝-p(ti)logp(ti)   式（2）
其中，p(ti,tj)是指ti和tj标记在同一资源上的概率，即：（和分别指标签ti和tj标注的资源集合，n为标签总数，此外，资源总数远大于1）；p(ti)、p(tj)分别代表标签ti、tj标记资源的概率，即：p(ti)=|pti|/|∪k=1nPtk|,]]>p(tj)=|Ptj|/|∪k=1nPtk|.]]>
理论上互信息的值可以用来直接表示标签相关度的大小，但是由于其取值范围难以控制，本发明对互信息的大小做了归一化处理，用以表示标签之间的相关度。标签ti和tj的相关度rij定义为：
rij=I(ti;tj)H(ti)+H(tj)2]]>   式（3）
其中I(ti;tj)和H(ti)定义见式（1）和式（2）。当ti和tj标注的资源完全相同时，rij=1，标签ti和tj完全相关；当ti和tj标注的资源完全不同时，rij=0，标签ti和tj完全不相关；其他情况下0<rij<1。
（5）标签的相关度矩阵R定义为：
   式（4）
其中，m为待标准化的用户自定义标签个数，n为聚类中心的标签个数或拟作为聚类中心的标签个数，rij为标签相关度，见式（3）。
本发明提出的基于标准标签和用户项目评分的推荐方法，主要包括自定义标签的标准化、用户兴趣模型建立、近邻用户群发现、预测项目评分和推荐等过程，如图1所示。针对标签存在的语义问题，本发明提出一组标签标准化手段提高标签标准化效率和准确率，可有效改善标签的语义模糊问题，同时避免已有方法常采用的复杂语义分析过程。本发明的标签标准化，指将用户自定义标签映射到标准标签，包括3个方法：（1）字符串匹配法，将自定义标签与标准标签库中的标签进行简单的字符串匹配；（2）基于属性共现率的方法；（3）基于聚类的方法。其中方法2和方法3各有所长，可在较大程度上弥补彼此的不足，进而保证标签标准化的准确高效。本发明提出利用基于标准标签的用户兴趣模型来计算用户相似度，再得到近邻用户群，并提出了基于用户相似度的项目评分平均差值计算公式，从而改进了Slope one算法的项目评分预测。本发明提出的推荐方法适用于用户使用自定义标签标记项目（资源），且每个用户对一些项目有评分（不局限于对标注过的项目有评分）的场景。
方法流程：
一、标签标准化主要步骤包括：
步骤1)根据个性化推荐应用环境，选择网站提供的热门标签作为标准标签，或者根据应用领域人工定义标准标签，建立标准标签库；
步骤2)对每个用户自定义标签做如下操作，
步骤21)将其与标准标签做简单的字符串匹配，若匹配成功则直接将其映射到标准标签上，否则转步骤22)；
步骤22)若该用户自定义标签标注的所有项目中含有共现率为1的属性值，则将所有这样的属性值作为标准标签，并将该用户自定义标签映射到这些标准标签上，若这些标准标签不在标准标签库中，则将它们并入标准标签库以扩充标准标签库。若不存在这样的属性，则转步骤3)；
步骤3)使用基于互信息的标签聚类方法，将步骤1)和步骤2)标准化失败的所有用户的自定义标签映射到标准标签库中的标签上。设此时自定义标签集合TP＝{tp1,tp2,...,tpm}，m=|TP|；标准标签库中的标签组成集合TS＝{ts1,ts2,...,tsn}，n=|TS|，将TS中的标签作为聚类中心；相关阀值为δ，当标签间的相关度小于δ时，认为标签之间不相关。分为以下几步：
步骤31)按照式（3）计算集合TP和TS中所有标签之间的相关度；
步骤32)由式（4）得到标签相关度矩阵R；
步骤33)找出R中最大的元素rij，若其小于阀值δ，则转步骤4)，否则将标签tpi聚集到以标签tsj为中心的类中，令TP=TP-{tpi}，m=m-1，删除矩阵R的第i行，得到更新的m×n维矩阵R；
步骤34)对矩阵R重复执行步骤33)，直到m为0，聚类停止；
步骤4)步骤3)得到的类聚集结果为C(1)＝{c1,c2,...,cn}，ci代表以标准标签tsi(1≤i≤n)为聚类中心的类。如果m>0，即TP中还剩有一些自定义标签未被映射到标准标签上，设此时TP＝{tp1,tp2,...,tpm}，M=|TP|，即M=m，那么将这些标签相互聚类，选出聚类中心，暂时作为标准标签（称为弱标准标签），且不并入标准标签库，过程如下：
步骤41)按照式（3）计算集合TP中所有标签之间的相关度，由式（4）得到M×M维标签相关度矩阵，记为RL；
步骤42)找出矩阵RL除主对角线以外的最大元素rls，若rls小于阀值δ，则转步骤44)，否则对于标签tpl和tps，若其中一个标签已被聚类，设为tx，则将另一个ty聚到与其相同的类中，删除矩阵RL的ty行，m=m-1，否则设其中标记了较多资源的标签为tx，另一个为ty，以标签tx作为聚类中心（聚类中心作为弱标准标签，类中其他标签都映射到它），将ty聚集到以tx为中心的类中，删除矩阵RL的tx和ty行，m=m-2；
步骤43)对矩阵m×M矩阵RL重复执行步骤42)，直到m为0，聚类停止；
步骤44)设步骤42)和43)得到的类聚集结果为C(2)＝{cn+1,cn+2,...,cn+h}；设C＝C(1)+C(2)，C中每个类中的其他标签都映射到聚类中心。C(1)中所有类的聚类中心即为标准标签库中的标签。C(2)中所有类的聚类中心以及最终无法聚类的自定义标签（最终的RL中各行表示的标签）构成弱标准标签集合。标准标签库中标签与弱标准标签一起构成本轮的标准标签集合。
二、项目评分的推荐方法主要步骤包括
步骤1)利用标准标签生成用户的兴趣模型，使用基于向量空间模型的表示法建立用户的兴趣模型。记当前标准标签集合为TS，TS={t1,t2,...,tn}，n=|TS|，用户兴趣模型为：{(t1,w(t1)),(t2,w(t2)),...,(tn,w(tn))}，其中ti(1≤i≤n)表示用户的兴趣项（也即标准标签），w(ti)表示用户对兴趣项ti的权重。用户ui的兴趣模型中的任一兴趣项权重采用TF-IDF方法计算：
w(t)=cit×log(N/nt+0.01)Σt&Element;TS[cit×log(N/nt+0.01)]2]]>式（5）
其中TS为标准标签集合，用户集合为U，t∈TS，N=|U|，ui∈U，表示用户ui使用标签t的次数，nt为U中使用过标签t的用户数。
步骤2)计算用户之间的相似度并获悉各个用户的近邻用户群。利用余弦相似度计算用户之间的相似性，与某用户相似度最高的K个用户构成该用户的近邻用户群。基于余弦相似度的用户ui和uj之间的相似度为：
sim(ui,uj)=cos(Ii,Ij)=Ii·Ij||Ii||||Ij||=Σk=1nwikwjkΣk=1nwik2Σk=1nwjk2]]>   式（6）
其中Ii和Ij为用户ui和uj的兴趣模型向量，wik和wjk分别指用户ui和uj对兴趣项tk的兴趣度。
步骤3)基于用户u对若干项目j的评分，以及其他用户对项目j和项目i的评分，预测用户u对未评项目i的评分。分为两步：
步骤31)按本发明定义的基于用户相似度的项目评分平均差值计算公式，估计用户u对项目i和项目j的评分差值
devi,ju=Σv&Element;Si,j(χ)sim(u,v)(vitemi-vitemj)Σv&Element;Si,j(χ)sim(u,v)]]>   式（7）
其中，sim(u,v)是用户u和v之间的相似度，见式（6）；分别表示用户v对项目i和项目j的评分。χ是所有用户对所有评价过的项目的评分集合，Si,j(χ)表示用户u的近邻用户群中同时对项目i和项目j评分的用户集合，v∈Si,j(χ)；
步骤32)按下式预测用户u对未评项目i的评分：
u^itemi=Σj&Element;S(u)(devi,ju+uitemj)|Si,j(χ)|Σj&Element;S(u)|Si,j(χ)|,i&NotElement;S(u)]]>   式（8）
其中S(u)代表用户u评价过的项目集合，|Si,j(χ)|表示用户u的近邻用户群中同时对项目i和项目j评分的用户数，表示用户u对项目j的评分，见式（7）；
步骤4)重复步骤3)，由式（8）可知，只要有近邻用户的相关评分可以参考，用户u可以得到对所有未评项目的评分，将预测评分为Top-N项目推荐给用户u。
本发明的有益效果：1、通过解决标签的语义问题，提高了用户兴趣模型的准确性。2、经标准化后得到的标准标签的数量可远远小于系统中用户自定义标签的数量，且标准标签的数量在短时间内不会有明显变化。3、在利用本发明时，利用标准标签建立的用户兴趣模型可以离线计算。4、本发明利用用户的兴趣模型计算用户之间的相似度，并为目标用户建立相似用户群，缩小了目标用户的相关项目评分搜索范围，减少了算法的计算量，改进了Slope one算法的项目评分预测，有效地提高了兴趣爱好相近的用户对预测评分的贡献，从而提高了项目推荐的精准度。5、本发明是一种策略性方法，可以应用于使用标签对资源项目进行自由分类，且提供用户对项目进行随意评分功能的某些社交网络中，作为个性化推荐方法；也可根据本发明开发基于标准标签的用户爱好统计分析系统。
说明书附图
图1基于标准标签和项目评分推荐方法的主要过程
具体实施方式：
在一个系统中，任意一个用户都使用标签标记过项目，也有对项目的评分记录（这些评分是对任意项目的评分，不一定是对标签标注过的项目）。现针对这个系统开发个性化推荐的应用，为用户提供个性化推荐服务。
具体实施方案为：
（1）选择该系统的热门标签作为标准标签，或者根据应用领域人工建立标准标签库；
（2）将所有用户的自定义标签映射到标准标签上：
（21）将用户的自定义标签与标准标签做简单的字符串匹配，匹配成功的直接将其映射到标准标签上，否则转步骤（22）。
（22）若某用户自定义标签标注的所有项目中含有共现率为1的属性值，则将所有这样的属性值作为标准标签，并将该用户自定义标签映射到这些标准标签上，若这些标准标签不在标准标签库中，还将它们并入标准标签库以扩充标准标签库。若不存在这样的属性，则转步骤（23）。
（23）使用基于互信息的标签聚类方法，将步骤（21）和步骤（22）标准化失败的所有用户的自定义标签通过聚类映射到弱标准标签上。弱标准标签和标准标签库中的标签构成当前标准标签集合。
（3）利用当前标准标签建立用户兴趣模型，模型基于向量空间模型的表示方法，使用标准标签作为兴趣项，并使用TF-IDF方法计算兴趣项的权重。
（4）针对步骤（3）计算出的用户兴趣模型向量，使用余弦相似度公式计算用户之间的相似度。
（5）选出前K个相似度最大的用户构成目标用户的近邻用户群。
（6）在近邻用户群内，利用改进的项目评分平均差值公式计算目标用户的未评项目与其各已评项目之间的评分差值。
（7）按预测公式（8）预测目标用户对未评价项目的评分，将预测评分为Top-N的项目推荐给目标用户。