《基于LDA主题模型的微博用户兴趣的挖掘方法及系统.pdf》由会员分享,可在线阅读,更多相关《基于LDA主题模型的微博用户兴趣的挖掘方法及系统.pdf(18页完整版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 103970863 A (43)申请公布日 2014.08.06 CN 103970863 A (21)申请号 201410193287.4 (22)申请日 2014.05.08 G06F 17/30(2006.01) (71)申请人 清华大学 地址 100084 北京市海淀区 100084-82 信箱 (72)发明人 徐华 黄笑秋 王玮 (74)专利代理机构 北京清亦华知识产权代理事 务所 ( 普通合伙 ) 11201 代理人 张大威 (54) 发明名称 基于 LDA 主题模型的微博用户兴趣的挖掘方 法及系统 (57) 摘要 本发明公开了一种基于 LDA 主题模型的。
2、微博 用户兴趣的挖掘方法, 包括以下步骤 : 从微博中 采集用户关系信息和用户标签信息 ; 将用户关系 信息集成至 LDA 主题模型中 ; 根据兴趣类别从用 户标签信息中分别为每个主题选定一个标签作为 种子词, 并提取多个种子词以将多个种子词集成 至LDA主题模型中, 以利用LDA主题模型对用户的 兴趣进行挖掘。 本发明实施例的挖掘方法, 通过采 集用户关系信息和用户标签信息, 从而根据用户 关系信息和用户标签信息深入的挖掘隐藏在用户 关系和用户标签当中的用户兴趣和用户标签的对 应关系, 找出用户在不同兴趣领域的分布。 本发明 还公开了一种基于 LDA 主题模型的微博用户兴趣 的挖掘系统。 (。
3、51)Int.Cl. 权利要求书 3 页 说明书 11 页 附图 3 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书3页 说明书11页 附图3页 (10)申请公布号 CN 103970863 A CN 103970863 A 1/3 页 2 1. 一种基于 LDA 主题模型的微博用户兴趣的挖掘方法, 其特征在于, 包括以下步骤 : 从微博中采集用户关系信息和用户标签信息, 其中, 所述用户标签信息包括多个用户 标签 ; 将所述用户关系信息集成至隐式狄利克雷分配 LDA 主题模型中, 所述 LDA 主题模型根 据兴趣类别设置有多个主题 ; 以及 根据所述兴趣类别从所述。
4、用户标签信息中分别为每个主题选定一个标签作为种子词, 并提取多个种子词以将所述多个种子词集成至所述 LDA 主题模型中, 以利用所述 LDA 主题 模型对用户的兴趣进行挖掘。 2.根据权利要求1所述的方法, 其特征在于, 在将所述用户关系信息集成至所述LDA主 题模型中之后, 还包括 : 将Topic-in-set先验、 狄利克雷森林先验和层次非对称先验集成至所述LDA主题模型 中。 3. 根据权利要求 2 所述的方法, 其特征在于, 所述用户关系信息、 Topic-in-set 先验、 狄利克雷森林先验和层次非对称先验根据以下公式进行采样, 以集成至所述 LDA 主题模型 中 : 其中,为文。
5、档 d 在狄利克雷森林中节点 s 上分配的词的数目, 为所述狄利克雷 森林的超参数, 为软约束的参数,为所述文档 d 分配至主题 k 上的数目 ,(k) 为指 示器函数,为主题 v 在所述狄利克雷森林上的边的权重, Cv(s i) 为所述主题 v 的狄利 克雷树中, 同时属于叶子节点 wi的祖先以及所述节点 s 的孩子节点的节点集合,为所述 主题 v 的狄利克雷树中, 所述叶子节点 wi的祖先的节点集合。 4. 根据权利要求 1 所述的方法、 其特征在于, 从所述用户标签信息中提取所述多个种 子词, 并将所述多个种子词集成至所述 LDA 主题模型中, 进一步包括 : 通过计算每个剩余标签与所述。
6、每个主题的种子词的共现, 为所述每个主题选定预设个 数标签作为所述种子词的候选词, 并集成至所述 LDA 主题模型中, 以对所述种子词进行补 充。 5. 根据权利要求 4 所述的方法, 其特征在于, 根据以下公式计算所述每个剩余标签与 所述每个主题的种子词的共现 : 权 利 要 求 书 CN 103970863 A 2 2/3 页 3 其中, r 为所述种子词, m 为剩余标签中的一个, Pr,m表示所述种子词 r 和所述剩余标签 中的一个 m 共同出现的概率, Pr表示所述种子词 r 出现的概率, Pm则为所述剩余标签中的 一个 m 出现的概率。 6. 一种基于 LDA 主题模型的微博用户兴。
7、趣的挖掘系统, 其特征在于, 包括 : 采集模块, 用于从微博中采集用户关系信息和用户标签信息, 其中, 所述用户标签信息 包括多个用户标签 ; 集成模块, 用于将所述用户关系信息集成至 LDA 主题模型中, 其中, 所述 LDA 主题模型 根据兴趣类别设置有多个主题 ; 以及 提取模块, 用于根据所述兴趣类别从所述用户标签信息中分别为每个主题选定一个标 签作为种子词, 并提取多个种子词以将所述多个种子词集成至所述 LDA 主题模型中, 以利 用所述 LDA 主题模型对用户的兴趣进行挖掘。 7. 根据权利要求 6 所述的系统, 其特征在于, 所述集成模块还用于将 Topic-in-set 先 。
8、验、 狄利克雷森林先验和层次非对称先验集成至所述 LDA 主题模型中。 8. 根据权利要求 7 所述的系统, 其特征在于, 所述用户关系信息验、 Topic-in-set 先 验、 狄利克雷森林先验和层次非对称先验根据以下公式进行采样, 以集成到所述 LDA 主题 模型中 : 其中,为文档 d 在狄利克雷森林中节点 s 上分配的词的数目, 为所述狄利克雷 森林的超参数, 为软约束的参数,为所述文档 d 分配至主题 k 上的数目, (k) 为指 示器函数,为主题 v 在所述狄利克雷森林上的边的权重, Cv(s i) 为所述主题 v 的狄利 克雷树中, 同时属于叶子节点 wi的祖先以及所述节点 s。
9、 的孩子节点的节点集合,为所述 主题 v 的狄利克雷树中, 所述叶子节点 wi的祖先的节点集合。 9. 根据权利要求 6 所述的系统, 其特征在于, 所述提取模块还用于通过计算每个剩余 标签与所述每个主题的种子词的共现, 为所述每个主题选定预设个数标签作为所述种子词 的候选词, 并集成至所述 LDA 主题模型中, 以对所述种子词进行补充。 10. 根据权利要求 9 所述的系统, 其特征在于, 根据以下公式计算所述每个剩余标签与 权 利 要 求 书 CN 103970863 A 3 3/3 页 4 所述每个主题的种子词的共现 : 其中, r 为所述种子词, m 为所述剩余标签中的一个, Pr,m。
10、表示所述种子词 r 和所述剩余 标签中的一个 m 共同出现的概率, Pr表示所述种子词 r 出现的概率, Pm则为所述剩余标签 中的一个 m 出现的概率。 权 利 要 求 书 CN 103970863 A 4 1/11 页 5 基于 LDA 主题模型的微博用户兴趣的挖掘方法及系统 技术领域 0001 本发明涉及计算机应用与互联网技术领域, 特别涉及一种基于 LDA(Latent Dirichlet Allocation, 隐式狄利克雷分配)主题模型的微博用户兴趣的挖掘方法及系统。 背景技术 0002 近些年, 许多用户开始通过微博例如推特或者新浪微博向他人分享自己的想法或 者展示自己, 例如用。
11、户在社交网络中通过各种社交行为如发微博或者给某种资源点赞, 从 而分享自己的想法或者展示自己。 因此, 在某种程度上, 用户的社交行为或者微博可以显示 用户的兴趣领域。 举例而言, 新浪微博的用户可以给自己加上标签信息, 以用来展示自己的 不同, 因此用户标签信息可以显示用户的兴趣。 另外, 由于用户之间的关系不仅仅能表现他 们的交往关系, 也能展示他们之间有共同的兴趣, 因此用户关系信息也能被用来做用户兴 趣的挖掘。 0003 然而, 虽然对如何从用户的社交行为或者微博中挖掘兴趣信息做了很多研究, 但 是都忽略了用户标签信息和用户关系信息, 尤其是基于新浪微博的研究并没有考虑用户标 签信息,。
12、 且由于基于推特的研究并没有这种资源, 所以也没有考虑标签信息, 导致无法深入 的挖掘隐藏在用户关系和标签当中的用户兴趣和用户标签的对应关系。 发明内容 0004 本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此, 本发明的 一个目的在于提出一种能深入的挖掘隐藏在用户关系和用户标签当中的用户兴趣和用户 标签的对应关系的基于 LDA 主题模型的微博用户兴趣的挖掘方法。 0005 本发明的另一个目的在于提出一种基于 LDA 主题模型的微博用户兴趣的挖掘系 统。 0006 为达到上述目的, 本发明一方面实施例提出了一种基于 LDA 主题模型的微博用户 兴趣的挖掘方法, 包括以下步骤 : 。
13、从微博中采集用户关系信息和用户标签信息, 其中, 所述 用户标签信息包括多个用户标签 ; 将所述用户关系信息集成至隐式狄利克雷分配 LDA 主题 模型中, 所述 LDA 主题模型根据兴趣类别设置有多个主题 ; 以及根据所述兴趣类别从所述 用户标签信息中分别为每个主题选定一个标签作为种子词, 并提取多个种子词以将所述多 个种子词集成至所述 LDA 主题模型中, 以利用所述 LDA 主题模型对用户的兴趣进行挖掘。 0007 根据本发明实施例的基于 LDA 主题模型的微博用户兴趣的挖掘方法, 通过采集用 户关系信息和用户标签信息, 并将用户关系信息集成至 LDA 主题模型中, 且从用户标签信 息中提。
14、取出多个种子词, 以将多个种子词集成至LDA模型中, 实现利用LDA主题模型对用户 的兴趣进行挖掘, 可以深入的挖掘隐藏在用户关系和标签当中的用户兴趣和用户标签的对 应关系, 找出用户在不同兴趣领域的分布。 0008 另外, 根据本发明上述实施例的基于 LDA 主题模型的微博用户兴趣的挖掘方法还 可以具有如下附加的技术特征 : 说 明 书 CN 103970863 A 5 2/11 页 6 0009 在本发明的一个实施例中, 在将所述用户关系信息集成至所述 LDA 主题模型中之 后, 还包括 : 将Topic-in-set先验、 狄利克雷森林先验和层次非对称先验集成至所述LDA主 题模型中。 。
15、0010 进一步地, 在本发明的一个实施例中, 所述用户关系信息、 Topic-in-set 先验、 狄 利克雷森林先验和层次非对称先验根据以下公式进行采样, 以集成至所述 LDA 主题模型 中 : 0011 0012 其中,为文档 d 在狄利克雷森林中节点 s 上分配的词的数目, 为所述狄利 克雷森林的超参数, 为软约束的参数,为文档所述 d 分配至主题 k 上的数目, (k) 为指示器函数,为主题 v 在所述狄利克雷森林上的边的权重, Cv(s i) 为所述主题 v 的 狄利克雷树中, 同时属于叶子节点 wi的祖先以及所述节点 s 的孩子节点的节点集合,为 所述主题 v 的狄利克雷树中, 。
16、所述叶子节点 wi的祖先的节点集合。 0013 进一步地, 在本发明的一个实施例中, 从所述用户标签信息中提取所述多个种子 词, 并将所述多个种子词集成至所述 LDA 主题模型中, 进一步包括 : 通过计算每个剩余标签 与所述每个主题的种子词的共现, 为所述每个主题选定预设个数标签作为所述种子词的候 选词, 并集成至所述 LDA 主题模型中, 以对所述种子词进行补充。 0014 进一步地, 在本发明的一个实施例中, 根据以下公式计算所述每个剩余标签与所 述每个主题的种子词的共现 : 0015 0016 其中, r 为所述种子词, m 为剩余标签中的一个, Pr,m表示所述种子词 r 和所述剩余。
17、 标签中的一个 m 共同出现的概率, Pr表示所述种子词 r 出现的概率, Pm则为所述剩余标签 中的一个 m 出现的概率。 0017 本发明另一方面实施例提出了一种基于 LDA 主题模型的微博用户兴趣的挖掘系 统, 包括 : 根据本发明实施例的采集模块, 用于从微博中采集用户关系信息和用户标签信 息, 其中, 所述用户标签信息包括多个用户标签 ; 集成模块, 用于将所述用户关系信息集成 至LDA主题模型中, 其中, 所述LDA主题模型根据兴趣类别设置有多个主题 ; 以及提取模块, 用于根据所述兴趣类别从所述用户标签信息中分别为每个主题选定一个标签作为种子词, 说 明 书 CN 1039708。
18、63 A 6 3/11 页 7 并提取多个种子词以将所述多个种子词集成至所述 LDA 主题模型中, 以利用所述 LDA 主题 模型对用户的兴趣进行挖掘。 0018 根据本发明实施例的基于 LDA 主题模型的微博用户兴趣的挖掘系统, 通过采集用 户关系信息和用户标签信息, 并将用户关系信息集成至 LDA 主题模型中, 且从用户标签信 息中提取出多个种子词, 以将多个种子词集成至LDA模型中, 实现利用LDA主题模型对用户 的兴趣进行挖掘, 可以深入的挖掘隐藏在用户关系和标签当中的用户兴趣和用户标签的对 应关系, 找出用户在不同兴趣领域的分布。 0019 另外, 根据本发明上述实施例的基于 LDA。
19、 主题模型的微博用户兴趣的挖掘系统还 可以具有如下附加的技术特征 : 0020 在本发明的一个实施例中, 所述集成模块还用于将 Topic-in-set 先验、 狄利克雷 森林先验和层次非对称先验集成至所述 LDA 主题模型中。 0021 进一步地, 在本发明的一个实施例中, 所述用户关系信息验、 Topic-in-set 先验、 狄利克雷森林先验和层次非对称先验根据以下公式进行采样, 以集成到所述 LDA 主题模型 中 : 0022 0023 其中,为文档 d 在狄利克雷森林中节点 s 上分配的词的数目, 为所述狄利 克雷森林的超参数, 为软约束的参数,为所述文档 d 分配至主题 k 上的数。
20、目, (k) 为指示器函数,为主题 v 在所述狄利克雷森林上的边的权重, Cv(s i) 为所述主题 v 的 狄利克雷树中, 同时属于叶子节点 wi的祖先以及所述节点 s 的孩子节点的节点集合,为 所述主题 v 的狄利克雷树中, 所述叶子节点 wi的祖先的节点集合。 0024 进一步地, 在本发明的一个实施例中, 所述提取模块还用于通过计算每个剩余标 签与所述每个主题的种子词的共现, 为所述每个主题选定预设个数标签作为所述种子词的 候选词, 并集成至所述 LDA 主题模型中, 以对所述种子词进行补充。 0025 进一步地, 在本发明的一个实施例中, 根据以下公式计算所述每个剩余标签与所 述每个。
21、主题的种子词的共现 : 0026 0027 其中, r 为所述种子词, m 为所述剩余标签中的一个, Pr,m表示所述种子词 r 和所述 说 明 书 CN 103970863 A 7 4/11 页 8 剩余标签中的一个 m 共同出现的概率, Pr表示所述种子词 r 出现的概率, Pm则为所述剩余 标签中的一个 m 出现的概率。 0028 本发明附加的方面和优点将在下面的描述中部分给出, 部分将从下面的描述中变 得明显, 或通过本发明的实践了解到。 附图说明 0029 本发明上述的和 / 或附加的方面和优点从下面结合附图对实施例的描述中将变 得明显和容易理解, 其中 : 0030 图1为根据本发。
22、明一个实施例的基于LDA主题模型的微博用户兴趣的挖掘方法的 流程图 ; 0031 图2为根据本发明一个具体实施例的基于LDA主题模型的微博用户兴趣的挖掘方 法的流程图 ; 0032 图 3 为根据本发明一个实施例的基于不同先验的主题模型结果示意图 ; 0033 图4为根据本发明一个实施例的基于LDA主题模型的微博用户兴趣的挖掘系统的 结构示意图 ; 以及 0034 图5为根据本发明一个具体实施例的基于LDA主题模型的微博用户兴趣的挖掘系 统的结构示意图。 具体实施方式 0035 下面详细描述本发明的实施例, 所述实施例的示例在附图中示出, 其中自始至终 相同或类似的标号表示相同或类似的元件或具。
23、有相同或类似功能的元件。 下面通过参考附 图描述的实施例是示例性的, 仅用于解释本发明, 而不能解释为对本发明的限制。 0036 下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。 为了简 化本发明的公开, 下文中对特定例子的部件和设置进行描述。当然, 它们仅仅为示例, 并且 目的不在于限制本发明。 此外, 本发明可以在不同例子中重复参考数字和/或字母。 这种重 复是为了简化和清楚的目的, 其本身不指示所讨论各种实施例和 / 或设置之间的关系。此 外, 本发明提供了的各种特定的工艺和材料的例子, 但是本领域普通技术人员可以意识到 其他工艺的可应用于性和 / 或其他材料的使用。另外。
24、, 以下描述的第一特征在第二特征之 “上” 的结构可以包括第一和第二特征形成为直接接触的实施例, 也可以包括另外的特征形 成在第一和第二特征之间的实施例, 这样第一和第二特征可能不是直接接触。 0037 在本发明的描述中, 需要说明的是, 除非另有规定和限定, 术语 “安装” 、“相连” 、 “连接” 应做广义理解, 例如, 可以是机械连接或电连接, 也可以是两个元件内部的连通, 可 以是直接相连, 也可以通过中间媒介间接相连, 对于本领域的普通技术人员而言, 可以根据 具体情况理解上述术语的具体含义。 0038 下面参照附图描述根据本发明实施例提出的基于 LDA 主题模型的微博用户兴趣 的挖。
25、掘方法及系统, 首先将参照附图描述根据本发明实施例提出的基于 LDA 主题模型的微 博用户兴趣的挖掘方法。参照图 1 所示, 该挖掘方法包括以下步骤 : 0039 S101, 从微博中采集用户关系信息和用户标签信息, 其中, 用户标签信息包括多个 用户标签。 说 明 书 CN 103970863 A 8 5/11 页 9 0040 在本发明的一个实施例中, 如图 2 所示, 本发明实施例基于 API(Application Programming Interface, 应用程序编程接口)通过网络爬虫定期从微博中爬取微博用户信 息, 并提取微博用户信息中的用户关系信息和用户标签信息, 保证了信息。
26、的实时性。 0041 S102, 将用户关系信息集成至 LDA 主题模型中, LDA 主题模型根据兴趣类别设置有 多个主题。 0042 在本发明的一个实施例中, 在将用户关系信息集成至 LDA 主题模型中之后, 还包 括 : 将Topic-in-set先验、 狄利克雷森林(Dirichlet Forest)先验和层次非对称先验集成 至 LDA 主题模型中。 0043 其中, 参照图 2 所示, 主题模型是一个无监督的学习算法, 根据约束聚类方法的性 质, 先验知识可以更加有效的提升聚类效果, 使聚类效果更加符合预期。具体地, 主题模 型是当前很常用的文本挖掘模型, 本发明实施例的 LDA 主题。
27、模型集成了 Topic-in-set 先 验, Dirichlet Forest 先验, 层次非对称先验和用户关系先验四种先验知识, 可以理解为 对 LDA 主题模型进行改进, 改进后的 LDA 主题模型也可以称为兴趣挖掘模型。进一步地, 在 Topic-in-set 先验中, 主题和标签之间通过添加了 Topic-must-link, 从而固定种子 词的主题分布。在 Dirichlet Forest 先验中, 标签和标签之间通过添加了 Must-link 和 Cannot-link, 从而引导部分标签的主题分布, 并且考虑到整个文档不同类别标签数量的不 平衡性, 层次非对称先验也被引入 LA。
28、D 主题模型中, 实现使整个主题模型更加贴近数据集。 另外, 由于用户关系也会影响用户兴趣领域的分布, 所以将用户关系作为先验知识, 并集成 至 LDA 主题模型中。 0044 具体地, 在本发明的一个实施例中, 用户关系信息、 Topic-in-set 先验、 狄利克雷 森林先验和层次非对称先验根据以下公式进行采样, 以集成至 LDA 主题模型中 : 0045 0046 其中,为文档 d 在狄利克雷森林中节点 s 上分配的词的数目, 为狄利克雷 森林的超参数, 为软约束的参数,为文档 d 分配至主题 k 上的数目, (k) 为指示器 函数,为主题 v 在狄利克雷森林上的边的权重, Cv(s 。
29、i) 为主题 v 的狄利克雷树中, 同 时属于叶子节点 wi的祖先以及节点 s 的孩子节点的节点集合,为主题 v 的狄利克雷树 中, 叶子节点 wi的祖先的节点集合。在本发明的实施例中, 采样公式将四种先验结合起来, 以共同影响标签信息的主题分布。换言之, 本发明实施例的 LDA 主题模型通过整合用户关 系信息、 Topic-in-set 先验、 狄利克雷森林先验和层次非对称先验约束 LDA 主题模型, 并且 说 明 书 CN 103970863 A 9 6/11 页 10 通过采样公式来融合这些先验知识和 LDA 主题模型。 0047 S103, 根据兴趣类别从用户标签信息中分别为每个主题选。
30、定一个标签作为种子 词, 并提取多个种子词以将多个种子词集成至LDA主题模型中, 以利用LDA主题模型对用户 的兴趣进行挖掘。 0048 进一步地, 在本发明的一个实施例中, 从用户标签信息中提取多个种子词, 并将多 个种子词集成至 LDA 主题模型中, 进一步包括 : 通过计算每个剩余标签与每个主题的种子 词的共现, 为每个主题选定预设个数标签作为种子词的候选词, 并集成至 LDA 主题模型中, 以对种子词进行补充。 0049 其中, 在本发明的一个实施例中, 根据以下公式计算每个剩余标签与每个主题的 种子词的共现 : 0050 0051 其中, r 为种子词, m 为剩余标签中的一个, P。
31、r,m表示 r 和 m 共同出现的概率, Pr表 示 r 出现的概率, Pm则为 m 出现的概率。 0052 在本发明的一个实施例中, 参照图 2 所示, 四种先验集成兴趣分布采样过程为迭 代采样过程, 并且可以利用不同先验的在LDA主题模型对用户兴趣进行挖掘, 例如LDA主题 模型可以集成用户关系信息、 Topic-in-set 先验、 狄利克雷森林先验和层次非对称先验中 的一个或者多个。 0053 具体地, 本发明的一个实施例中, 首先预定义 K 个主题, 然后为每一个主题选择种 子标签即种子词作为 Topic-in-set 的知识。需要说明的是, 这里每个主题的部分标签可能 相同, 因为。
32、这些标签体现出用户兴趣领域, 所以希望有 Topic-in-set 知识的 LDA 模型可以 产生与预定义的兴趣领域相关的主题。 0054 进一步地, 在本发明的实施例中, 为了能够获取这些标签, 首先选择了每个兴趣领 域最有代表性的标签即种子词 r, 计算种子词 r 和剩余所有标签中的一个 m 即每个剩余标 签之间共同出现的概率, 然后每个标签在每个主题下都按照共现的结果进行排序, 最后每 个主题下的前预设个数例如前 K 个标签被选为种子词的候选词。例如设置 K 为 5, 则取每 个主题下前五个标签即词选为种子标签即种子词的候选词, 并且将 Topic-must-link 放 在种子标签和相。
33、应的主题之间。换言之, 本发明实施例通过从用户标签信息中抽取种子 词作为先验知识, 集成到改进后的 LDA 主题模型中, 首先根据设定的兴趣类别, 为每一个 兴趣领域即主题选定一个种子词, 例如 “旅游” 、“游戏” 等, 再利用 PMI(Pointwise Mutual Information, 点互式信息 ) 作为评价标准, 以即根据每个剩余标签与每个主题的种子词的 共现, 为每个主题的种子词额外选出一部分标签补充到种子词中, 实现对用户的兴趣挖掘 可以基于种子词分析微博用户的兴趣领域。 0055 进一步地, 图 3 为根据本发明一个实施例的基于不同先验的主题模型结果示意 图。其中, TI。
34、S-LDA 约束主题模型为只集成了 Topic-in-set 先验的 LDA 主题模型, DT-LDA 约束主题模型为集成了 Topic-in-set 先验和狄利克雷森林先验的 LDA 主题模型, ADT-LDA 约束主题模型为集成了Topic-in-set先验、 狄利克雷森林先验和层次非对称先验的LDA主 题模型, DR-LDA 约束主题模型为集成了用户关系信息、 Topic-in-set 先验、 狄利克雷森林 说 明 书 CN 103970863 A 10 7/11 页 11 先验和层次非对称先验的 LDA 主题模型。如图 3 所示, 不同种类的标签信息被分配到不同 的主题中, 且合理的先。
35、验知识能够帮助主题产生更好的聚类效果, 即随着先验知识的增加, 聚类效果越来越好, 更加符合预期, 因此本发明实施例优选为利用 DR-LDA 约束主题模型即 集成了上述四种先验的 LDA 主题模型, 以从用户标签信息和用户关系信息中挖掘用户的兴 趣信息, 找出用户在不同兴趣领域的分布。 0056 根据本发明实施例的基于 LDA 主题模型的微博用户兴趣的挖掘方法, 通过采集用 户关系信息和用户标签信息, 并将用户关系信息、 Topic-in-set 先验、 狄利克雷森林先验和 层次非对称先验集成至 LDA 主题模型中, 且从用户标签信息中提取出多个种子词, 以将多 个种子词集成至LDA模型中, 。
36、实现利用LDA主题模型对用户的兴趣进行挖掘, 可以深入的挖 掘隐藏在用户关系和标签当中的用户兴趣和用户标签的对应关系, 找出用户在不同兴趣领 域的分布。 0057 图4为根据本发明实施例的基于LDA主题模型的微博用户兴趣的挖掘系统的结构 示意图。参照图 4 所示, 根据本发明实施例的基于 LDA 主题模型的微博用户兴趣的挖掘系 统 ( 以下简称系统 100) 包括 : 采集模块 10、 集成模块 20 和提取模块 30。 0058 其中, 采集模块 10 用于从微博中采集用户关系信息和用户标签信息, 其中, 用户 标签信息包括多个用户标签。集成模块 20 用于将用户关系信息集成至 LDA 主题。
37、模型中, 其 中, LDA 主题模型根据兴趣类别设置有多个主题。提取模块 30 用于根据兴趣类别从用户标 签信息中分别为每个主题选定一个标签作为种子词, 并提取多个种子词以将多个种子词集 成至 LDA 主题模型中, 以利用 LDA 主题模型对用户的兴趣进行挖掘。 0059 在本发明的一个实施例中, 如图2所示, 本发明实施例基于API通过网络爬虫定期 从微博中爬取微博用户信息, 并提取微博用户信息中的用户关系信息和用户标签信息, 保 证了信息的实时性。 0060 在本发明的一个实施例中, 集成模块20还用于将Topic-in-set先验、 狄利克雷森 林先验和层次非对称先验集成至 LDA 主题。
38、模型中。 0061 其中, 参照图 2 所示, 主题模型是一个无监督的学习算法, 根据约束聚类方法的性 质, 先验知识可以更加有效的提升聚类效果, 使聚类效果更加符合预期。具体地, 主题模 型是当前很常用的文本挖掘模型, 本发明实施例的 LDA 主题模型集成了 Topic-in-set 先 验, Dirichlet Forest 先验, 层次非对称先验和用户关系先验四种先验知识, 可以理解为 对 LDA 主题模型进行改进, 改进后的 LDA 主题模型也可以称为兴趣挖掘模型。进一步地, 在 Topic-in-set 先验中, 主题和标签之间通过添加了 Topic-must-link, 从而固定种。
39、子 词的主题分布。在 Dirichlet Forest 先验中, 标签和标签之间通过添加了 Must-link 和 Cannot-link, 从而引导部分标签的主题分布, 并且考虑到整个文档不同类别标签数量的不 平衡性, 层次非对称先验也被引入 LAD 主题模型中, 实现使整个主题模型更加贴近数据集。 另外, 由于用户关系也会影响用户兴趣领域的分布, 所以将用户关系作为先验知识, 并集成 至 LDA 主题模型中。 0062 具体地, 在本发明的一个实施例中, 用户关系信息、 Topic-in-set 先验、 Dirichlet 先验和层次非对称先验根据以下公式进行采样, 以集成至 LDA 主题。
40、模型中 : 说 明 书 CN 103970863 A 11 8/11 页 12 0063 0064 其中,为文档 d 在狄利克雷森林中节点 s 上分配的词的数目, 为狄利克雷 森林的超参数, 为软约束的参数,为文档 d 分配至主题 k 上的数目, (k) 为指示器 函数,为主题 v 在狄利克雷森林上的边的权重, Cv(s i) 为主题 v 的狄利克雷树中, 同 时属于叶子节点 wi的祖先以及节点 s 的孩子节点的节点集合,为主题 v 的狄利克雷树 中, 叶子节点 wi的祖先的节点集合。 0065 在本发明的实施例中, 采样公式将四种先验结合起来, 以共同影响标签信息的主 题分布。换言之, 本发。
41、明实施例的 LDA 主题模型通过整合用户关系信息、 Topic-in-set 先 验、 狄利克雷森林先验和层次非对称先验约束 LDA 主题模型, 并且通过采样公式来融合这 些先验知识和 LDA 主题模型。 0066 进一步地, 在本发明的一个实施例中, 提取模块 30 还用于通过计算每个剩余标签 与每个主题的种子词的共现, 为每个主题选定预设个数标签作为种子词的候选词, 并集成 至 LDA 主题模型中, 以对种子词进行补充。 0067 其中, 在本发明的一个实施例中, 根据以下公式计算每个剩余标签与每个主题的 种子词的共现 : 0068 0069 其中, r 为种子词, m 为剩余标签中的一个。
42、, Pr,m表示 r 和 m 共同出现的概率, Pr表 示 r 出现的概率, Pm则为 m 出现的概率。 0070 在本发明的一个实施例中, 参照图 2 所示, 四种先验集成兴趣分布采样过程为迭 代采样过程, 并且可以利用不同先验的在LDA主题模型对用户兴趣进行挖掘, 例如LDA主题 模型可以集成用户关系信息、 Topic-in-set 先验、 狄利克雷森林先验和层次非对称先验中 的一个或者多个。 0071 具体地, 本发明的一个实施例中, 首先预定义 K 个主题, 然后为每一个主题选择种 子标签即种子词作为 Topic-in-set 的知识。需要说明的是, 这里每个主题的部分标签可能 相同,。
43、 因为这些标签体现出用户兴趣领域, 所以希望有 Topic-in-set 知识的 LDA 模型可以 产生与预定义的兴趣领域相关的主题。 0072 进一步地, 在本发明的实施例中, 为了能够获取这些标签, 首先选择了每个兴趣领 说 明 书 CN 103970863 A 12 9/11 页 13 域最有代表性的标签即种子词r, 计算种子词r和剩余所有标签中的一个m即每个剩余标签 之间共同出现的概率, 然后每个标签在每个主题下都按照共现的结果进行排序, 最后每个 主题下的前预设个数例如前K个标签被选为种子词的候选词。 例如设置K为5, 则取每个主 题下前五个标签即词选为种子标签即种子词的候选词, 并。
44、且将 Topic-must-link 放在种子 标签和相应的主题之间。换言之, 本发明实施例通过从用户标签信息中抽取种子词作为先 验知识, 集成到改进后的 LDA 主题模型中, 首先根据设定的兴趣类别, 为每一个兴趣领域即 主题选定一个种子词, 例如 “旅游” 、“游戏” 等, 再利用 PMI 作为评价标准, 以根据每个剩余 标签与每个主题的种子词的共现, 为每个主题的种子词额外选出一部分标签补充到种子词 中, 实现对用户的兴趣挖掘可以基于种子词分析微博用户的兴趣领域。 0073 进一步地, 图 3 为根据本发明一个实施例的基于不同先验的主题模型结果示意 图。其中, TIS-LDA 约束主题模。
45、型为只集成了 Topic-in-set 先验的 LDA 主题模型, DT-LDA 约束主题模型为集成了 Topic-in-set 先验和狄利克雷森林先验的 LDA 主题模型, ADT-LDA 约束主题模型为集成了Topic-in-set先验、 狄利克雷森林先验和层次非对称先验的LDA主 题模型, DR-LDA 约束主题模型为集成了用户关系信息、 Topic-in-set 先验、 狄利克雷森林 先验和层次非对称先验的 LDA 主题模型。如图 3 所示, 不同种类的标签信息被分配到不同 的主题中, 且合理的先验知识能够帮助主题产生更好的聚类效果, 即随着先验知识的增加, 聚类效果越来越好, 更加符。
46、合预期, 因此本发明实施例优选为利用 DR-LDA 约束主题模型即 集成了上述四种先验的 LDA 主题模型, 以从用户标签信息和用户关系信息中挖掘用户的兴 趣信息, 找出用户在不同兴趣领域的分布。 0074 进一步地, 在本发明的一个实施例中, 参照图 5 所示, 上述的挖掘系统 100 还可以 包括 : 前台展示界面模块 40 和展示界面模块接口 50。 0075 其中, 前台展示界面模块 40 用于给用户例如微博用户兴趣挖掘系统的使用者提 供良好的操作界面, 以方便用户查看当前兴趣领域的大致分布, 例如用户自己或其他人的 兴趣分布, 并查找与自己兴趣相近的微博用户。界面展示模块接口 50 。
47、分别与采集模块 10、 集成模块 20、 提取模块 30 和前台界面展示模块 40 相连, 界面展示模块接口 50 用于提供前 台展示界面模块 40 和后台程序的接口, 即前台展示界面模块 40 可以通过界面展示模块接 口 50 调用采集模块 10、 集成模块 20 和提取模块 30, 以方便程序聚类结果可以展示到前台 界面上。 0076 另外, 在本发明的一个实施例中, 该挖掘系统 100 的上述采集模块 10、 集成模块 20、 提取模块 30、 前台界面展示模块 40 和界面展示模块接口 50 均在 Windows 下用 java、 Python 和 JSP 语言开发实现。进一步地, 基。
48、于上述开发平台, 该挖掘系统 100 的部署运行 需要如下几个层次运行环境的支撑。首先在操作系统层, 挖掘系统 100 需要在 Windows XP 或其兼容的操作系统平台之上运行, 同时还需要程序运行支撑环境, 也就是 java 和 Python 运行支撑环境。当具备了上述支撑环境时, 该挖掘系统 100 即可正常运行。而用户只需要 通过网页浏览器访问系统就能浏览自己感兴趣的产品的评论的分析结果。 0077 根据本发明实施例的基于 LDA 主题模型的微博用户兴趣的挖掘系统, 通过采集用 户关系信息和用户标签信息, 并将用户关系信息、 Topic-in-set 先验、 狄利克雷森林先验和 层次。
49、非对称先验集成至 LDA 主题模型中, 且从用户标签信息中提取出多个种子词, 以将多 个种子词集成至LDA模型中, 实现利用LDA主题模型对用户的兴趣进行挖掘, 可以深入的挖 说 明 书 CN 103970863 A 13 10/11 页 14 掘隐藏在用户关系和标签当中的用户兴趣和用户标签的对应关系, 找出用户在不同兴趣领 域的分布。 0078 流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为, 表示包括 一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、 片段或部 分, 并且本发明的优选实施方式的范围包括另外的实现, 其中可以不按所示出或讨论的顺 序, 包括根据所涉及的功能按基本同时的方式或按相反的顺序, 来执行功能, 这应被本发明 的实施例所属技术领域的技术人员所理解。 0079 在流程图中表示或在此以其他方式描述的逻辑和 / 或步骤, 例如, 可以被。