《一种基于标准标签和项目评分的推荐方法.pdf》由会员分享,可在线阅读,更多相关《一种基于标准标签和项目评分的推荐方法.pdf(11页完整版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 103678431 A (43)申请公布日 2014.03.26 CN 103678431 A (21)申请号 201310101242.5 (22)申请日 2013.03.26 G06F 17/30(2006.01) (71)申请人 南京邮电大学 地址 210003 江苏省南京市新模范马路 66 号 (72)发明人 成卫青 杨晶 洪龙 杨庚 黄卫东 吴旭东 唐旋 (74)专利代理机构 南京知识律师事务所 32207 代理人 汪旭东 (54) 发明名称 一种基于标准标签和项目评分的推荐方法 (57) 摘要 基于标准标签和项目评分的推荐方法具有如 下特征 : 本发明将标。
2、签标准化, 即将用户的自定 义标签映射到语义较明确的标准标签上, 再利用 标准标签建立用户兴趣模型, 然后根据用户的兴 趣模型计算用户之间的相似度, 建立近邻用户群, 再基于目标用户及其近邻用户的项目评分和改进 的 Slope one 算法预测用户对未评项目的评分, 进而实现个性化推荐, 可显著提高 Web2.0 互联网 上广泛使用的可进行自由定义的标签的可用性, 利用基于标准标签的用户兴趣模型计算用户之间 的相似度, 并为目标用户建立相似用户群, 能够缩 小目标用户的相关项目评分搜索范围, 减少算法 的计算量, 改进了 Slope one 算法的项目评分预 测, 提高了兴趣爱好相近的用户对预。
3、测评分的贡 献, 从而提高互联网个性化推荐质量。 (51)Int.Cl. 权利要求书 3 页 说明书 6 页 附图 1 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书3页 说明书6页 附图1页 (10)申请公布号 CN 103678431 A CN 103678431 A 1/3 页 2 1. 一种标签标准化, 其特征主要在于自定义标签的标准化步骤, 步骤 1) 根据个性化推荐应用环境, 选择网站提供的热门标签作为标准标签, 或根据应 用领域人工定义标准标签, 建立标准标签库 ; 步骤 2) 对每个用户自定义标签做如下操作, 步骤 21) 将其与标准标签做简单的字符。
4、串匹配, 若匹配成功则直接将其映射到标准标 签上, 否则转步骤 22) ; 步骤 22) 若该用户自定义标签标注的所有项目中含有共现率为 1 的属性值, 则将所有 这样的属性值作为标准标签, 并将该用户自定义标签映射到这些标准标签上, 并将它们并 入标准标签库 ; 若不存在这样的属性, 则转步骤 3) ; 步骤 3) 使用基于互信息的标签聚类方法, 将步骤 1) 和步骤 2) 标准化失败的所有用户 的自定义标签映射到标准标签库中的标签上 ; 设此时自定义标签集合为 TP, 含 m 个标签 ; 标 准标签库中的标签组成集合 TS, 含 n 个标签 ; 将 TS中的标签作为聚类中心 ; 相关阀值为。
5、 , 当标签间的相关度小于 时, 认为标签之间不相关 ; 分为以下几步 : 步 骤 31) 按 照 式 (3)计 算 集 合 TP和 TS中 所 有 标 签 之 间 的 相 关 度 ; 式 (3)为 其中 I(ti;tj) 和 H(ti) 定义见式 (1) 和式 (2) ; 式 (1)为式 (2)为 H(ti) -p(ti)logp(ti),其 中, p(ti,tj) 是指 ti和 tj标记在同一资源上的概率, 即 :(和分别指标签 ti和 tj标注的资源集合, n 为标签总数, 此外, 资源总数远大于 1) ; p(ti)、 p(tj) 分别代表标 签 ti、 tj标记资源的概率, 即 : 。
6、步骤 32) 由式 (4) 得到标签相关度矩阵 R, 式 (4) 为其 中, m 为待标准化的用户自定义标签个数, n 为聚类中心的标签个数或拟作为聚类中心的标 签个数, rij为标签相关度, 见式 (3) ; 步骤 33) 找出 R 中最大的元素 rij, 若其小于阀值 , 则转步骤 4), 否则将标签 tpi聚集 到以标签 tsj为中心的类中, 令 TP=TP-tpi, m=m-1, 删除矩阵 R 的第 i 行, 得到更新的 mn 维矩阵 R ; 步骤 34) 对矩阵 R 重复执行步骤 33), 直到 m 为 0, 聚类停止 ; 步骤 4) 步骤 3) 得到的类聚集结果为 C(1) c1,。
7、c2,.,cn, ci代表以标准标签 tsi(1 i n) 为聚类中心的类 ; 此时, 若 m0, 即 TP中还剩有 M(M=m) 个自定义标签未被映 射到标准标签上, 则将这些标签相互聚类, 选出聚类中心, 暂时作为标准标签 (称为弱标准 权 利 要 求 书 CN 103678431 A 2 2/3 页 3 标签) , 且不并入标准标签库, 过程如下 : 步骤 41) 按照式 (3) 计算集合 TP中所有标签之间的相关度, 由式 (4) 得到 MM 维标签 相关度矩阵, 记为 RL; 步骤42)找出矩阵RL除主对角线以外的最大元素rls, 若rls小于阀值, 则转步骤44), 否则对应标签 。
8、tpl和 tps, 若其中一个标签已被聚类, 设为 tx, 则将另一个 ty聚到与其相同的 类中, 删除矩阵 RL的 ty行, m=m-1, 否则设其中标记了较多资源的标签为 tx, 另一个为 ty, 以 标签tx作为聚类中心, 聚类中心作为弱标准标签, 类中其他标签都映射到它, 将ty聚集到以 tx为中心的类中, 删除矩阵 RL的 tx和 ty行, m=m-2 ; 步骤 43) 对矩阵 mM 矩阵 RL重复执行步骤 42), 直到 m 为 0, 聚类停止 ; 步骤 44) 设步骤 42) 和 43) 得到的类聚集结果为 C(2) cn+1,cn+2,.,cn+h ; 设 C C(1)+C(2。
9、), C 中每个类中的其他标签都映射到聚类中心 ; C(2)中所有类的聚类中心以及最终无 法聚类的自定义标签, 最终的RL中各行表示的标签, 构成弱标准标签集合 ; 标准标签库中标 签与弱标准标签一起构成本轮的标准标签集合。 2. 一种基于标准标签和项目评分的推荐方法, 方法包括权利要求 1 所述的自定义标签 的标准化, 基于标准标签建立用户兴趣模型, 计算用户相似度, 以及基于相似用户的相关评 分和用户相似度预测用户对项目的评分, 其特征在于方法所包含的步骤 : 步骤1)利用权利要求1的标准标签生成用户的兴趣模型, 使用基于向量空间模型的表 示法建立用户的兴趣模型 ; 记当前标准标签集合为 。
10、TS, TS=t1,t2,.,tn, n=|TS|, 用户兴 趣模型为 : (t1,w(t1),(t2,w(t2),.,(tn,w(tn), 其中 ti(1 i n) 表示用户的兴趣 项 (也即标准标签) , w(ti)表示用户对兴趣项ti的权重 ; 用户ui的兴趣模型中的任一兴趣项 权重采用 TF-IDF 方法按式 (5) 计算, 公式 (5) 为其中 TS 为标 准标签集合, 用户集合为 U, t TS, N=|U|, ui U, 表示用户 ui使用标签 t 的次数, nt为 U 中使用过标签 t 的用户数 ; 步骤 2) 计算用户之间的相似度并获悉各个用户的近邻用户群 ; 按式 (6) 。
11、利用余弦相似 度计算用户之间的相似性, 与某用户相似度最高的 K 个用户构成该用户的近邻用户群 ; 式 (6) 为其中 Ii和 Ij为用户 ui和 uj的兴 趣模型向量, wik和 wjk分别指用户 ui和 uj对兴趣项 tk的兴趣度 ; 步骤 3) 基于用户 u 对若干项目 j 的评分, 以及其他用户对项目 j 和项目 i 的评分, 预 测用户 u 对未评项目 i 的评分 ; 分为两步 : 步骤 31) 按本发明定义的基于用户相似度的项目评分平均差值计算公式 (7) , 估计用 户 u 对项目 i 和项目 j 的评分差值式 (7) 为其中, sim(u,v) 是用户 u 和 v 之间的相似度。
12、, 见式 (6) ;分别表示用户 v 对项目 i 和项目 权 利 要 求 书 CN 103678431 A 3 3/3 页 4 j 的评分。 是所有用户对所有评价过的项目的评分集合, Si,j() 表示用户 u 的近邻用户 群中同时对项目 i 和项目 j 评分的用户集合, v Si,j() ; 步 骤 32) 按 式 (8) 预 测 用 户 u 对 未 评 项 目 i 的 评 分,式 (8) 为 其 中 S(u) 代 表 用 户 u 评 价 过 的 项 目 集 合, |Si,j()|表示用户u的近邻用户群中同时对项目i和项目j评分的用户数,表示用户 u 对项目 j 的评分,见式 (7) ; 步。
13、骤 4) 重复步骤 3), 由式 (8) 可知, 只要有近邻用户的相关评分可以参考, 用户 u 可以 得到对所有未评项目的评分, 将预测评分为 Top-N 项目推荐给用户 u。 权 利 要 求 书 CN 103678431 A 4 1/6 页 5 一种基于标准标签和项目评分的推荐方法 技术领域 0001 本发明涉及一种标签标准化和自动快速地向社交网络用户进行个性化推荐的解 决方案。 主要用于解决如何有效利用用户自定义标签和用户对一些项目的评分进行个性化 推荐的问题, 属于数据挖掘技术领域。 背景技术 0002 随着网络时代的来临, 互联网的规模不断扩大, 复杂多样的信息充斥着网络, 同时 也带。
14、来了信息 “超负载 (information overload) ” 的问题。用户无法在过量的信息中迅速 获取对自己有用的资源, 降低了信息的利用率, 许多有用的信息不能被及时发现甚至不能 被发现, 造成了 “资源浪费” 。个性化推荐系统 (personalized recommender system) 的出 现很好地解决了这个问题。 个性化推荐研究利用用户预先提供的数据或是利用数据挖掘等 技术从用户的历史记录中收集用户的偏好, 帮助用户获取感兴趣的信息, 结合推荐算法, 为 用户推荐其可能感兴趣的资源。本发明中, 每项资源也称为项目。如果推荐系统能够为用 户提供高质量的推荐服务, 将会在提。
15、高用户忠诚度和防止用户流失方面发挥很大的作用。 0003 用户兴趣模型和个性化推荐算法是个性化推荐技术中的两个重要核心, 用户兴趣 模型的质量关系着用户的兴趣爱好能否被正确的表示, 而高效的推荐方法则是推荐质量的 良好保证。用户兴趣模型是一种形式化的, 可计算的数据结构, 模型的兴趣特征是影响用 户兴趣模型质量的主要因素。近年来, Web2.0 环境下信息组织方式之一标签逐渐进入研究 者们的视野, 标签因为其自由定义、 无约束、 可共享等特点被认为是一种包含了用户兴趣的 “关键词” , 并逐渐应用在个性化推荐领域。事实上, 只要用户创建的标签能够被自己理解, 标签自身真正的含义与用户的意图是否。
16、相符无关紧要, 因此标签存在较严重的语义问题, 这种语义问题也直接导致了用户兴趣模型准确率的降低 ; 个性化推荐算法根据用户的兴趣 爱好为其做出合适的推荐, 直接关系个性化推荐系统的质量和性能。 Slope one算法具有较 好的推荐质量和推荐速度, 常被用来做实时推荐, 但是同时也存在着以下问题影响着算法 的运算效率和精度 : 0004 (1) 相关的项目评分数量可能很大。 项目的评分预测是全局的, 用户对某未评项目 j 的评分是根据其他用户对相关项目与项目 j 的平均评分差值以及该用户已有项目评分来 预测的。随着相关的项目评分数据的增多, 计算项目 j 与其他项目评分差将是一个非常大 的开。
17、销, 不仅会对推荐的精度造成影响, 对算法的运算速度也会产生一定的影响。 0005 (2) 用户针对性不强。用户 u 对项目 j 的预测评分是涉及到所有对项目 j 评价过 的用户, 这种计算方式过滤掉了一些不相关的用户, 但是由于面向的是全局用户, 一些满足 项目评分要求但是兴趣完全相反的用户也会被计算在内, 从而会导致预测结果的偏差。例 如预测 UserC 对项目 i 的评分, 设 UserA 与 UserC 的兴趣爱好相同, 对项目的评分习惯也类 似, UserB 与 UserA、 UserC 的兴趣完全不同, 对项目的喜爱程度也完全不同, 那么可能出现 根据 UserA 对项目的评价, 。
18、预测得到 UserC 对项目 i 的评分为 5, 而根据 UserA 和 UserB 对 项目的评价, 预测得到 UserC 对项目 i 评分为 2, 显然后一个预测结果不合情理。 说 明 书 CN 103678431 A 5 2/6 页 6 0006 综上可见, 标签不能准确表达用户的兴趣爱好 ; 传统的 Slope one 算法虽然避 免计算用户相似度, 减少了计算时间, 却避免不了极大的计算量和物理空间消耗 ; 传统的 Slope one 的预测精度也有一定的提高空间。 发明内容 0007 本发明的目的 : 提供一种先将自定义标签映射为标准标签, 再基于标准标签建立 用户兴趣模型, 再基。
19、于兴趣模型计算用户相似度获悉近邻用户群, 进而基于相关用户评分 信息以及用户相似度对目标用户进行项目推荐的互联网智能推荐方法, 以及实现流程, 用 于解决当前标签存在的语义模糊、 难以利用的问题, 以及当前简单利用标签的个性化推荐 方法准确度不高、 计算量大、 空间消耗过大等问题。本发明可显著提高 Web2.0 互联网上广 泛使用的可进行自由定义的标签的可用性, 并提高互联网个性化推荐 (即区分用户进行项 目推荐) 的推荐质量。 0008 本发明解决其技术问题所采用的技术方案是 : 本发明将标签标准化, 即将用户的 自定义标签映射到语义较明确的标准标签上, 再利用标准标签建立用户兴趣模型, 然。
20、后根 据用户的兴趣模型计算用户之间的相似度, 建立近邻用户群, 再基于已有的项目评分数据 和改进的Slope one算法预测用户对未评项目的评分, 进而实现个性化推荐, 其目标是解决 标签的语义模糊问题, 降低用户兴趣模型的维度, 在不增加时间消耗的情况下, 提高推荐算 法的准确度, 减少推荐算法的计算量及物理空间消耗。 0009 社交网络中标签是用户在无规律约束的条件下自主创造的, 用户可以使用若干标 签来标注若干项目, 同一项目可以被多个标签标注。虽然计算机不能够像人脑一样直接理 解或纠正标签的语义, 但是通过标签与项目之间的关系, 可以从标注的项目中反映出标签 的含义。本发明中使用如下概。
21、念和计算公式 : 0010 (1) 标准标签 (Standard Tag) : 语义公认明确的标签, 且各标签之间的相关度很 小。初始标准标签集合由人为制定的标准标签组成, 并存入标准标签库。以后根据用户自 定义标签标注的信息按照一定的规则适当扩充标准标签库。 0011 (2) 标签标准化 : 将用户的自定义标签映射到标准标签上的过程。无法映射的用 户自定义标签可暂时作为标准标签, 但不并入标准标签库。 0012 (3) 属性共现率 : 在若干属性中出现同一个词的概率, 也简称为共现率。例如, 属 性值” ab” 在下列属性序列” ab|cd” 、 ” a|ab|s” 、 ” xcd|ab” 。
22、、 ” iuy|ab|dfw” (各个属性值之间 用” |” 分隔) 中的共献率为 1。 0013 (4) 标签 ti和 tj的互信息 I(ti;tj) 以及熵 H(ti) 定义为 : 0014 式 (1) 0015 H(ti) -p(ti)logp(ti) 式 (2) 0016 其中, p(ti,tj) 是指 ti和 tj标记在同一资源上的概率, 即 :( 和分别指标签 ti和 tj标注的资源集合, n 为标签总数, 此外, 资源总数远大于 1) ; p(ti)、 说 明 书 CN 103678431 A 6 3/6 页 7 p(tj) 分别代表标签 ti、 tj标记资源的概率, 即 : 0。
23、017 理论上互信息的值可以用来直接表示标签相关度的大小, 但是由于其取值范围难 以控制, 本发明对互信息的大小做了归一化处理, 用以表示标签之间的相关度。标签 ti和 tj的相关度 rij定义为 : 0018 式 (3) 0019 其中 I(ti;tj) 和 H(ti) 定义见式 (1) 和式 (2) 。当 ti和 tj标注的资源完全相同时, rij=1, 标签 ti和 tj完全相关 ; 当 ti和 tj标注的资源完全不同时, rij=0, 标签 ti和 tj完全不 相关 ; 其他情况下 00, 即 TP中还剩有一些自定义标签未被映射到标 准标签上, 设此时 TP tp1,tp2,.,tpm。
24、, M=|TP|, 即 M=m, 那么将这些标签相互聚类, 选出聚 类中心, 暂时作为标准标签 (称为弱标准标签) , 且不并入标准标签库, 过程如下 : 0036 步骤 41) 按照式 (3) 计算集合 TP中所有标签之间的相关度, 由式 (4) 得到 MM 维 标签相关度矩阵, 记为 RL; 0037 步骤 42) 找出矩阵 RL除主对角线以外的最大元素 rls, 若 rls小于阀值 , 则转步 骤 44), 否则对于标签 tpl和 tps, 若其中一个标签已被聚类, 设为 tx, 则将另一个 ty聚到与其 相同的类中, 删除矩阵RL的ty行, m=m-1, 否则设其中标记了较多资源的标签。
25、为tx, 另一个为 ty, 以标签 tx作为聚类中心 (聚类中心作为弱标准标签, 类中其他标签都映射到它) , 将 ty聚 集到以 tx为中心的类中, 删除矩阵 RL的 tx和 ty行, m=m-2 ; 0038 步骤 43) 对矩阵 mM 矩阵 RL重复执行步骤 42), 直到 m 为 0, 聚类停止 ; 0039 步骤 44) 设步骤 42) 和 43) 得到的类聚集结果为 C(2) cn+1,cn+2,.,cn+h ; 设 C C(1)+C(2), C 中每个类中的其他标签都映射到聚类中心。C(1)中所有类的聚类中心即为标 准标签库中的标签。 C(2)中所有类的聚类中心以及最终无法聚类的。
26、自定义标签 (最终的RL中 各行表示的标签) 构成弱标准标签集合。标准标签库中标签与弱标准标签一起构成本轮的 标准标签集合。 0040 二、 项目评分的推荐方法主要步骤包括 0041 步骤 1) 利用标准标签生成用户的兴趣模型, 使用基于向量空间模型的表示法建 立用户的兴趣模型。记当前标准标签集合为 TS, TS=t1,t2,.,tn, n=|TS|, 用户兴趣模型 为 : (t1,w(t1),(t2,w(t2),.,(tn,w(tn), 其中ti(1in)表示用户的兴趣项 (也即 标准标签) , w(ti) 表示用户对兴趣项 ti的权重。用户 ui的兴趣模型中的任一兴趣项权重采 用 TF-I。
27、DF 方法计算 : 0042 式 (5) 说 明 书 CN 103678431 A 8 5/6 页 9 0043 其中 TS 为标准标签集合, 用户集合为 U, t TS, N=|U|, ui U, 表示用户 ui使 用标签 t 的次数, nt为 U 中使用过标签 t 的用户数。 0044 步骤 2) 计算用户之间的相似度并获悉各个用户的近邻用户群。利用余弦相似度 计算用户之间的相似性, 与某用户相似度最高的 K 个用户构成该用户的近邻用户群。基于 余弦相似度的用户 ui和 uj之间的相似度为 : 0045 式 (6) 0046 其中 Ii和 Ij为用户 ui和 uj的兴趣模型向量, wik和。
28、 wjk分别指用户 ui和 uj对兴 趣项 tk的兴趣度。 0047 步骤3)基于用户u对若干项目j的评分, 以及其他用户对项目j和项目i的评分, 预测用户 u 对未评项目 i 的评分。分为两步 : 0048 步骤 31) 按本发明定义的基于用户相似度的项目评分平均差值计算公式, 估计用 户 u 对项目 i 和项目 j 的评分差值 0049 式 (7) 0050 其中, sim(u,v) 是用户 u 和 v 之间的相似度, 见式 (6) ;分别表示用户 v 对项目 i 和项目 j 的评分。 是所有用户对所有评价过的项目的评分集合, Si,j() 表示 用户 u 的近邻用户群中同时对项目 i 和。
29、项目 j 评分的用户集合, v Si,j() ; 0051 步骤 32) 按下式预测用户 u 对未评项目 i 的评分 : 0052 式 (8) 0053 其中 S(u) 代表用户 u 评价过的项目集合, |Si,j()| 表示用户 u 的近邻用户群中 同时对项目 i 和项目 j 评分的用户数,表示用户 u 对项目 j 的评分,见式 (7) ; 0054 步骤 4) 重复步骤 3), 由式 (8) 可知, 只要有近邻用户的相关评分可以参考, 用户 u 可以得到对所有未评项目的评分, 将预测评分为 Top-N 项目推荐给用户 u。 0055 本发明的有益效果 : 1、 通过解决标签的语义问题, 提。
30、高了用户兴趣模型的准确性。 2、 经标准化后得到的标准标签的数量可远远小于系统中用户自定义标签的数量, 且标准标 签的数量在短时间内不会有明显变化。3、 在利用本发明时, 利用标准标签建立的用户兴趣 模型可以离线计算。4、 本发明利用用户的兴趣模型计算用户之间的相似度, 并为目标用户 建立相似用户群, 缩小了目标用户的相关项目评分搜索范围, 减少了算法的计算量, 改进了 Slope one 算法的项目评分预测, 有效地提高了兴趣爱好相近的用户对预测评分的贡献, 从 而提高了项目推荐的精准度。5、 本发明是一种策略性方法, 可以应用于使用标签对资源项 目进行自由分类, 且提供用户对项目进行随意评。
31、分功能的某些社交网络中, 作为个性化推 荐方法 ; 也可根据本发明开发基于标准标签的用户爱好统计分析系统。 说 明 书 CN 103678431 A 9 6/6 页 10 0056 说明书附图 0057 图 1 基于标准标签和项目评分推荐方法的主要过程 具体实施方式 : 0058 在一个系统中, 任意一个用户都使用标签标记过项目, 也有对项目的评分记录 (这 些评分是对任意项目的评分, 不一定是对标签标注过的项目) 。现针对这个系统开发个性化 推荐的应用, 为用户提供个性化推荐服务。 0059 具体实施方案为 : 0060 (1) 选择该系统的热门标签作为标准标签, 或者根据应用领域人工建立标。
32、准标签 库 ; 0061 (2) 将所有用户的自定义标签映射到标准标签上 : 0062 (21) 将用户的自定义标签与标准标签做简单的字符串匹配, 匹配成功的直接将其 映射到标准标签上, 否则转步骤 (22) 。 0063 (22) 若某用户自定义标签标注的所有项目中含有共现率为 1 的属性值, 则将所有 这样的属性值作为标准标签, 并将该用户自定义标签映射到这些标准标签上, 若这些标准 标签不在标准标签库中, 还将它们并入标准标签库以扩充标准标签库。若不存在这样的属 性, 则转步骤 (23) 。 0064 (23) 使用基于互信息的标签聚类方法, 将步骤 (21) 和步骤 (22) 标准化失。
33、败的所 有用户的自定义标签通过聚类映射到弱标准标签上。 弱标准标签和标准标签库中的标签构 成当前标准标签集合。 0065 (3) 利用当前标准标签建立用户兴趣模型, 模型基于向量空间模型的表示方法, 使 用标准标签作为兴趣项, 并使用 TF-IDF 方法计算兴趣项的权重。 0066 (4) 针对步骤 (3) 计算出的用户兴趣模型向量, 使用余弦相似度公式计算用户之间 的相似度。 0067 (5) 选出前 K 个相似度最大的用户构成目标用户的近邻用户群。 0068 (6) 在近邻用户群内, 利用改进的项目评分平均差值公式计算目标用户的未评项 目与其各已评项目之间的评分差值。 0069 (7) 按预测公式 (8) 预测目标用户对未评价项目的评分, 将预测评分为 Top-N 的项 目推荐给目标用户。 说 明 书 CN 103678431 A 10 1/1 页 11 图 1 说 明 书 附 图 CN 103678431 A 11 。