《一种话题信息展现方法和装置.pdf》由会员分享,可在线阅读,更多相关《一种话题信息展现方法和装置.pdf(16页完整版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 103177024 A (43)申请公布日 2013.06.26 CN 103177024 A *CN103177024A* (21)申请号 201110439258.8 (22)申请日 2011.12.23 G06F 17/30(2006.01) (71)申请人 微梦创科网络科技 (中国) 有限公司 地址 100080 北京市海淀区海淀北二街 10 号 701 室 (72)发明人 伏圣国 董恭谨 朱红垒 井辉 白栓虎 (74)专利代理机构 中国商标专利事务所有限公 司 11234 代理人 万学堂 (54) 发明名称 一种话题信息展现方法和装置 (57) 摘要 本发明。
2、的实施例提供了一种话题信息展现方 法和装置, 可解决现有技术话题展现不准确、 不及 时的问题。所述方法包括 : 接收信息 ; 对接收的信 息进行预处理 ; 对预处理的信息进行话题发现 ; 展现发现的话题信息。 根据本发明实施例, 可以及 时地发现新话题及其子话题(相关焦点), 一定程 度上解决了人工整理话题带来的及时性及覆盖面 不足的缺点, 具有重要的现实意义。 话题的自动追 踪可以串联相关话题及事件, 从而让用户了解某 个话题的来龙去脉, 也有着重要的意义。 (51)Int.Cl. 权利要求书 2 页 说明书 11 页 附图 2 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请。
3、 权利要求书2页 说明书11页 附图2页 (10)申请公布号 CN 103177024 A CN 103177024 A *CN103177024A* 1/2 页 2 1. 一种话题信息展现方法, 其特征在于, 包括 : 接收信息 ; 对接收的信息进行预处理 ; 对预处理的信息进行话题发现 ; 展现发现的话题信息。 2. 根据权利要求 1 所述的方法, 其特征在于, 所述接收信息是指接收预定时间片段内 的信息。 3. 根据权利要求 1 所述的方法, 其特征在于, 所述对接收的信息进行预处理具体包括 : 对所述信息进行分词。 4. 根据权利要求 3 所述的方法, 其特征在于, 所述对接收的信息进。
4、行预处理还包括 : 对 分词获得的词进行词性标注。 5. 根据权利要求 4 所述的方法, 其特征在于, 在对接收的信息进行预处理之前, 还执行 步骤 : 对所接收的信息进行文本分类和 / 或广告及作弊过滤。 6. 根据权利要求 1 所述的方法, 其特征在于, 所述对预处理的信息进行话题发现具体 包括 : 采用增量聚类和主题模型对预处理的信息进行话题发现。 7. 根据权利要求 6 所述的方法, 其特征在于, 所述步骤采用增量聚类和主题模型对预 处理的信息进行话题发现具体包括 : 利用主题模型对预处理的信息进行主题分析, 得到每个信息的主题向量 ; 根据每个信息的主题向量的相似度进行增量聚类, 该。
5、聚类即为话题。 8. 根据权利要求 7 所述的方法, 其特征在于, 所述根据每个信息的主题向量的相似度 进行增量聚类具体包括 : 判断当前信息的主题向量与每一个聚类中所有信息的平均主题向量的相似度是否大 于预定值, 若是, 将当前信息填加到该聚类中, 否则, 将当前信息作为一个新的聚类。 9. 根据权利要求 7 所述的方法, 其特征在于, 在执行根据每个信息的主题向量的相似 度进行增量聚类步骤之后, 还执行步骤 : 对聚类按其包含的信息数进行排序。 10. 根据权利要求 9 所述的方法, 其特征在于, 所述展现发现的话题信息步骤具体包 括 : 在网页上或在电子屏上展现包含的信息数排名最多的预定。
6、个数话题。 11. 根据权利要求 7 所述的方法, 其特征在于, 在执行根据每个信息的主题向量的相似 度进行增量聚类步骤之后, 还执行下述任一步骤或下述步骤的任意组合 : 抽取话题包含的 关键词 ; 话题去噪 ; 抽取话题的摘要 ; 抽取话题的发起人、 意见领袖及传播关系 ; 追踪话题。 12. 根据权利要求 11 所述的方法, 其特征在于, 所述展现发现的话题信息步骤具体包 括 : 在网页上或在电子屏上展现抽取话题包含的关键词和 / 或抽取话题的摘要。 13. 一种话题信息展现装置, 其特征在于, 包括 : 接收单元, 用于接收信息 ; 预处理单元, 用于对接收的信息进行预处理 ; 话题发现。
7、单元, 用于对预处理的信息进行话题发现 ; 展现单元, 用于展现发现的话题信息。 14. 根据权利要求 13 所述的装置, 其特征在于, 所述话题发现单元具体包括 : 主题模型单元, 用于利用主题模型对预处理的信息进行主题分析, 得到每个信息的主 权 利 要 求 书 CN 103177024 A 2 2/2 页 3 题向量 ; 聚类单元, 用于根据每个信息的主题向量的相似度进行增量聚类, 该聚类即为话题。 15. 根据权利要求 13 所述的装置, 其特征在于, 所述装置还包括 : 排序单元 : 用于对聚 类按其包含的信息数进行排序。 16. 根据权利要求 13 所述的装置, 其特征在于, 所述。
8、装置还包括 : 话题处理单元, 用于 执行下述任一步骤或下述步骤的任意组合 : 抽取话题包含的关键词 ; 话题去噪 ; 抽取话题 的摘要 ; 抽取话题的发起人、 意见领袖及传播关系 ; 追踪话题。 权 利 要 求 书 CN 103177024 A 3 1/11 页 4 一种话题信息展现方法和装置 技术领域 0001 本发明涉及一种信息技术, 尤其涉及一种话题信息展现方法和装置。 背景技术 0002 互联网因即时性强、 互动性好成为人们日常获取新闻的重要途径之一, 并受到政 府、 金融、 企业、 情报等各领域关注。 由于网络中的重要信息常会被海量数据淹没, 因此建立 以话题为主线的信息组织模式、。
9、 快速有效地检测出并展现网上新话题和热点话题有着重要 的意义。 0003 微博的出现为话题的发现和跟踪提供了另一应用前景。 微博用户呈现非常广阔的 兴趣, 用户关注的焦点随事件发生而迁移 ; 由于大量繁杂无用信息的充斥, 有很多有兴趣的 内容无法及时浮现出来 ; 话题自动识别和跟踪可以及时发现用户感兴趣的话题, 来吸引更 多人参与、 讨论 ; 通过跟踪来挖掘原创及其作者, 提升用户的成就感和满意度, 特别是草根 用户。 从商业意义来讲, 有关话题内容展现地方, 更容易投放广告。 同时对于热门话题, 还可 引起领导层的关注, 为国家治理提供及时信息。因此, 展现热门话题有着十分重大的意义。 为了。
10、展现热门话题, 必须首先发现话题, 下面简要介绍发现话题的方法。 0004 话题发现及追踪通常以大规模新闻流为研究对象, 通过分析新闻报道, 发现热点 话题并持续跟踪下去, 最后将涉及某个话题的新闻报道组织起来以某种方式呈现给用户, 方便用户及时了解当前热点话题以及事件的发展, 在应对当前信息爆炸问题方面有着重要 的意义。 0005 在话题发现的实践中, 话题发现主要有以下方式 : 0006 1、 人工编辑, 通过监视媒体或相关微博可以找出可能的热门话题。 0007 2、 用户用特定符号 ( 如 #) 设定话题。 0008 人工编辑整理的话题虽然准确度比较高, 但是话题的及时性、 覆盖面都有不。
11、足之 处, 同时人工编辑有较大的主观性, 整理的话题基本都是众所周知的话题, 对于某些话题的 子话题以及还未传播开的次重要话题不能有效并及时地发现。同时, 很多话题随着时间的 推移讨论重点也在发生变化, 而人工编辑难于及时捕捉话题的谈论焦点 ( 子话题 )。 0009 在微博中系统规定用户可以使用特定符号(如#)来确定完整的语义单位(两个# 之间的内容可以为 “话题” 或 “类别” 关键词 ), 但使用 # 的用户只占极少数, 而且使用量在 下降, 同时滥用 # 进行作弊的用户也很多。 0010 还可通过词频统计的方法从某种程度上识别话题, 但是我们知道词和话题具有本 质意义上的区别。词是广泛。
12、的语义单位, 而话题通常由若干个词组合而成, 如 “日本地震” 、 “温州动车追尾事故” 等代表特定的内容。所以用词来代表话题很明显不够精确。 0011 综上所述, 现有技术发现的话题还存在着许多不足之处, 如话题不准确、 话题发现 不及时。 0012 因此, 由于话题发现是话题展现的前提, 话题展现的过程也同样存在上述缺点。 说 明 书 CN 103177024 A 4 2/11 页 5 发明内容 0013 本发明的实施例提供了一种话题信息展现方法和装置, 可解决现有技术话题展现 不准确、 不及时的问题。 0014 本发明的实施例提供了一种话题信息展现方法, 其特征在于, 包括 : 接收信息。
13、 ; 对 接收的信息进行预处理 ; 对预处理的信息进行话题发现 ; 展现发现的话题信息。 0015 所述接收信息是指接收预定时间片内的信息。 0016 所述对接收的信息进行预处理具体包括 : 对所述信息进行分词。 0017 所述对接收的信息进行预处理还包括 : 对分词获得的词进行词性标注。 0018 在对接收的信息进行预处理之前, 还执行步骤 : 对所接收的信息进行文本分类和 / 或广告及作弊过滤。 0019 所述对预处理的信息进行话题发现具体包括 : 采用增量聚类和主题模型对预处理 的信息进行话题发现。 0020 所述步骤采用增量聚类和主题模型对预处理的信息进行话题发现具体包括 : 利用 主。
14、题模型对预处理后的信息进行主题分析, 得到每个信息的主题向量 ; 根据每个信息的主 题向量的相似度进行增量聚类, 该聚类即为话题。 0021 所述根据每个信息的主题向量的相似度进行增量聚类具体包括 : 判断当前信息的 主题向量与每一个聚类中所有信息的平均主题向量的相似度是否大于预定值, 若是, 将当 前信息填加到该聚类中, 否则, 将当前信息作为一个新的聚类。 0022 在执行根据每个信息的主题向量的相似度进行增量聚类步骤之后, 还执行步骤 : 对聚类按其包含的信息数进行排序。 0023 所述展现发现的话题信息步骤具体包括 : 在网页上或在电子屏上展现包含的信息 数排名最多的预定个数话题。 0。
15、024 在执行根据每个信息的主题向量的相似度进行增量聚类步骤之后, 还执行下述任 一步骤或下述步骤的任意组合 : 抽取话题包含的关键词 ; 话题去噪 ; 抽取话题的摘要 ; 抽取 话题的发起人、 意见领袖及传播关系 ; 追踪话题。 0025 所述展现发现的话题信息步骤具体包括 : 在网页上或在电子屏上展现抽取话题包 含的关键词和 / 或抽取话题的摘要。 0026 本发明还提供了一种话题信息展现装置, 包括 : 接收单元, 用于接收信息 ; 预处理 单元, 用于对接收的信息进行预处理 ; 话题发现单元, 用于对预处理的信息进行话题发现 ; 展现单元, 用于展现发现的话题信息。 0027 根据本发。
16、明实施例, 可以及时地发现新话题及其子话题 ( 相关焦点 ), 一定程度上 解决了人工整理话题带来的及时性及覆盖面不足的缺点, 具有重要的现实意义。 0028 话题的自动追踪可以串联相关话题及事件, 从而让用户了解某个话题的来龙去 脉, 也有着重要的意义。 附图说明 0029 图 1 示出了本发明实施例话题信息展现的流程 ; 0030 图 2 示出了本发明实施例展现话题信息装置。 说 明 书 CN 103177024 A 5 3/11 页 6 具体实施方式 0031 为了便于本领域一般技术人员理解和实现本发明, 现结合附图描绘本发明的实施 例。 0032 对于话题发现的问题, 在理论上有两类算。
17、法 : (1) 基于聚类的方法 : 如增量信息聚 类、 基于全局信息的聚类 (K-means, 层次聚类 ) 等。(2) 基于主题模型的方法。 0033 话题发现及追踪通常以大规模新闻流为研究对象, 所以单路径聚类算法是一种普 遍采用的算法。此外主题模型方法近年来得到了充分的重视和深入的研究, 普林斯顿大学 的 David M.Blei 首先提出了 LDA 模型, 用一个服从 Dirichlet 分布的 K 维隐含随机变量表 示文档的主题混合比例, 模拟文档的产生过程, 利用LDA产生的不同隐含主题(每个主题都 可以用不同的词来表示, 它可以将词形不同, 但意义相同的词关联到一起 ) 来决定话。
18、题的 方法近年来也被普遍采用。 0034 本实施例提供了一种话题信息展现方法, 包括步骤 : 接收信息 ; 对接收的信息进 行预处理 ; 从预处理的信息中进行话题发现 ; 展现所发现的话题信息。 图1示出了本实施例 的话题信息展现方法。下面对各个步骤进行详细介绍。 0035 1、 接收信息 0036 接收信息可以是接收各种信息, 尤指接收某一时间片内的某一类信息, 如某个时 间片内的所有行业或某一特定行业的信息, 更具体地说, 某个时间片的化学行业、 计算机行 业、 物理行业、 军事行业、 财经行业等行业的信息。 上述信息通常以若干个文本方式存在, 如 一条微博就是一条信息, 两个小时片内的所。
19、有信息 ( 微博 ) 可能有数百万之多。在本发明 中, 以微博作为信息为例说明话题发现方法。 0037 2、 对接收的信息进行预处理 0038 即对接收的信息进行分词和词性标注, 然后取名词、 动词等词性的词作为关键词。 分词及词性标注主要用于选择每个信息文本的核心关键词, 抛弃停用词等非核心关键词, 关键词的选择一方面可以提高后续文本处理的速度, 另一方面可以降低非核心词引起的噪 声问题。 为了实现只针对某类信息进行话题发现, 我们需要对接收的所有信息进行分类, 如 化学类、 计算机类、 物理类、 军事类、 财经类等。 为了加快预处理过程, 在进行预处理之前, 还 要对所接收的所有信息进行广。
20、告及作弊过滤。 0039 文本分类 0040 我们利用文本分类来限定待分析信息的类别, 实现对某一行业的话题发现。随着 互联网的飞速发展, 网上电子文档的信息量成爆炸趋势, 大规模的文本处理已经成为一个 挑战, 而文本自动分类是将文本划分到预定义的类中, 帮助人们检索、 查询、 过滤和利用信 息的有效手段。分类算法有两大类 : 基于规则的方法和基于统计机器学习的方法。基于 规则的方法费时费力, 难以保证一致性和准确性, 而且领域移植性差 ; 基于统计机器学习 的方法快速, 领域移植性好。统计机器学习的方法主要有罗基奥方法 (Rocchio method)、 贝叶斯方法、 KNN 方法、 决策树。
21、方法 (decision tree)、 决策规则分类方法 (Decision Rule Classifier)、 神经网络方法 (Neural Networks)、 支持向量机 (SVM)、 基于投票的方法 (voting method) 等。 0041 经典的贝叶斯分类法分类速度快, 本申请中我们即采用了这种分类法对某一时间 片内的微博文本集进行分类, 如将微博文本集分为 : 时政类、 财经类、 体育类、 娱乐类等 22 说 明 书 CN 103177024 A 6 4/11 页 7 个类别。然后对不同类别的微博文本集合进行话题识别, 这样便于我们得到不同类别的话 题。 0042 广告及作弊。
22、过滤 0043 微博信息量大, 充斥着大量的广告和作弊微博, 而所谓的话题并不包含广告, 所以 过滤掉这些广告和作弊微博不仅可以降低需要处理的数据量, 同时可以降低这些微博对后 续处理产生的干扰, 有利于后续话题挖掘和追踪。 0044 3、 从预处理的信息中进行话题发现 0045 话题发现和追踪系统通常采用增量聚类或主题模型的方法。 0046 基于增量聚类的算法将相似度大于一定阈值的样本聚到一起, 相似度计算通常是 基于词特征的相似度, 所以对属于同一话题但词特征相似度小于阈值的样本却无能为力, 一定程度上造成了话题的重复, 但是增量聚类方法聚类速度快, 同时不需要事先指定聚类 数, 可以有效。
23、地保证话题的召回率。 0047 基于主题模型的方法需要人工预先指定主题数 K, 然后通过无监督的学习, 得到 K 个主题, 将得到的主题作为话题, K 值指定的过大会造成识别出的话题之间出现冗余, 需要 进行去重, K 值指定的过小会造成识别出的话题召回率较低, 所以确定合理的 K 值难度较 大。 实际上这种将主题作为话题方式是不妥的, 因为话题与某个事件相关, 而主题可以涵盖 多个类似的事件, 也就是说主题涵盖的范围比话题大, 直接将主题作为话题并不能真正地 表示一个话题。 然而主题模型可以进行潜在语义分析, 每个主题对应一系列关键词, 主题可 以认为是位于文档和词之间的潜在语义特征, 这种。
24、潜在语义特征可以对词空间起到降维的 作用, 可以关联词形不同但语义相同或相关的词, 尤其是在短文本相似度计算过程中, 潜在 语义特征 ( 主题向量 ) 效果要优于词向量, 这也是我们利用主题模型的原因。 0048 基于以上两种算法的优缺点, 结合微博数据量大, 噪声多的特点, 本发明将两种算 法进行了结合, 采用基于主题模型和增量聚类相结合的话题发现算法, 首先利用主题模型 对某个时间片的分类别信息进行主题分析, 得到每个主题的主题词列表以及每篇博文的主 题向量, 然后基于每篇博文的主题向量采用余弦相似度公式进行增量聚类, 进而得到多个 不同的聚类, 通过对这些聚类进行打分排序, 最终选择一定。
25、数量的聚类作为话题。 0049 下面介绍主题模型和增量聚类话题相结合以发现话题的方法。 0050 (1)、 主题模型 0051 一个文本通常包括讨论的若干主题, 而文本中的特定词汇体现出所讨论的特定主 题。 在统计自然语言处理中, 为文本主题建模的方法是视主题为词汇的概率分布, 文本为这 些主题的随机混合。 0052 PLSA(Probabilistic Latent Semantic Analysis, 概 率 潜 在 语 义 分 析 ) 和 LDA(Latent Dirichlet Allocation, 语义狄利克雷分配 ) 是目前较常用的主题模型。目前 的主题模型一般基于同样的思想 -。
26、 文本是若干主题的随机混合。不同的模型会进一步作不 同的统计假设, 以不同的方式获取模型参数。 0053 与 PLSA 模型相比, LDA 称得上是完全的生成模型。LDA 在文本到主题一层引入了 dirichlet( 狄利克雷 ) 分布, 这是它优于 PLSA 的地方, 使得模型参数的数量不会随着语料 库的扩大而增多。 0054 本文采用LDA主题模型进行博文主题向量分析, 下面我们简要介绍LDA主题模型。 说 明 书 CN 103177024 A 7 5/11 页 8 0055 LDA 模型 0056 假设有 T 个主题, 则所给文本中的第 i 个词汇 wi在这篇文本中的概率可以表示如 下 。
27、: 0057 0058 其中, zj是潜在主题, 表明第 i 个词汇 wi取自该主题, P(wi|zj) 是词汇 wi属于第 j 个主题 ( 即 zj) 的概率, P(zj) 表示第 j 个主题属于当前文本的概率。假定 T 个主题形成 D 个文本以 W 个词汇表示, 为记叙方便, 令表示对于第 j 个主题, W 个词汇上 的多项分布, 其中w是W个词汇表中的词汇 ; 令表示对于文本d, T个主题上的多 项分布, 于是文本 d 中词汇 w 的概率为 : 0059 0060 LDA 模型在 (d)上作 Dirichlet() 的先验概率假设, 使得模型易于处理训练语 料之外的新文本。为了便于模型参。
28、数的推理, 本文除了在 (d)上作对称的 Dirichlet() 的先验概率假设外, 在上亦作对称的 Dirichlet() 的先验概率假设, 如下 : 0061 0062 0063 这里的 可以理解为, 在见到语料库的任何词汇之前, 从主题抽样获得的词汇出 现频数, 而 可以理解为, 在见到任何文档文字之前, 主题被抽样的频数。尽管 和 的 具体取值会影响到主题及词汇被利用的程度, 但不同的主题被利用的方式几乎没有变化, 不同的词汇被利用的方式也基本相同, 因此可以假定对称的 Dirichlet 分布, 即所有的 取相同的值, 所有的 取相同的值。 0064 根据LDA模型, 我们对待分析博。
29、文集进行训练或推理, 得到每篇博文的主题(潜在 语义 ) 向量, 这些主题向量用作增量聚类中的相似度计算, 这也是我们利用 LDA 模型的原 因。 0065 示例 : 0066 微博1 :【注意 : 我国出现四种新版高仿假钞! 】 最近, 杭州市萧山公安分局发现, 社 会上出现了以 TJ55、 AZ88、 WL15、 YX86 开头新版假钞。这些假钞仿真度和伪造技术比之前 出现的 HD 开头的假币更高, 假币上都印有水印、 安全线、 阴阳互补对印图案等伪造标志。一 旦发现, 请及时报案! 0067 微博2 :【4新版假钞仿真度超HD版央行称制假技术无突破】 近期, 我国部分地区出 现以 TJ5。
30、5、 AZ88、 WL15、 YX86 开头的新版假钞。央行称, 假币在制作技术上没有新的突破。 0068 微博 1 和 2 采用基于词向量 ( 见表 1) 的方式计算得到的相似度值会比较低 (0.477959), 因此传统的基于词向量的单路径聚类算法很难将这两条微博聚到一起, 但采 用 LDA 模型, 可以分别把两条微博的词特征向量转换为主体分布概率为单位的主题向量 ( 见表 2 和表 3), 通过主题向量我们可以获悉当前微博哪些主题是主要主题 ( 每个主题由 说 明 书 CN 103177024 A 8 6/11 页 9 多个不同的词及概率表示, 见表 4), 基于主题向量计算得到相似度值。
31、会较高 (0.884017)。 主题数的选择可以针对文本的特点进行反复实验得到。 目前在我们的应用系统中主题数设 定为 200。表 1 和表 2 给出了在实验中选择 10 个主题获得的微博 1 和 2 的主题向量, 其中 每个元素代表对应主题的分布概率。 0069 表 1 微博 1 和 2 的词向量 0070 0071 表 2 微博 1 的主题向量 0072 主题编号 1 2 3 4 5 6 7 8 9 10 主题分布概率 0.00 0.40 0.00 0.10 0.15 0.00 0.25 0.10 0.00 0.00 0073 表 3 微博 2 的主题向量 0074 主题编号 1 2 3 。
32、4 5 6 7 8 9 10 主题分布概率 0.00 0.75 0.00 0.00 0.1 0.00 0.15 0.00 0.00 0.00 0075 表 4 微博 1 中主题 2 和主题 7 包含的前 5 个主题词及概率 说 明 书 CN 103177024 A 9 7/11 页 10 0076 0077 利用如下公式对博文进行分数计算 : 0078 0079 其中, Scroei为此微博分数, zj为此微博第 j 个主题的分布概率值, zmax为此微博 所有主题分布概率值中的最大值, T 为主题数。该分数用作后面聚类的排序。 0080 (2)、 增量聚类话题方法 0081 通常的聚类是基于。
33、全局信息的聚类, 即在整个数据集合上进行聚类, 但基于全局 信息的聚类通常需要指定聚类数, 但是聚类数目我们事先无法确定, 所以一般只能给出一 个估计数 ; 同时基于全局信息的聚类算法复杂度太高, 一般不适合数据规模较大的聚类。 0082 基于以上考虑, 本发明选用速度性能更好且不需要指定聚类数的单路径增量聚类 方法, 也就是说在作出最终的决策前, 只看前面已经处理过的文本及其对应的聚类。 0083 当接收并预处理完某个时间片内的所有信息 ( 微博 ) 后, 我们将信息按照一定的 顺序(如信息发布时间, 信息内容长度)进行增量聚类, 如果发现当前微博与之前的所有的 聚类都不相关 ( 基于主题向。
34、量进行相似度计算 ), 则检测到一个潜在的新话题类, 否则将该 微博加入相关聚类中。 0084 综上所述, 本发明的采用主题模型和增量聚类话题相结合以发现话题的方法如 下。首先利用 LDA 主题模型对某个时间片的分类别信息进行主题分析, 得到每篇博文的主 题向量 ( 每一维代表一个主题 ), 然后根据每篇博文的主题向量的相似度进行增量聚类, 该 聚类即为话题, 具体而言, 判断当前博文的主题向量与每一个聚类中所有博文的平均主题 向量的相似度是否大于预定值, 若是, 将当前博文填加到该聚类中, 否则, 将当前博文作为 一个新的聚类。 这样, 就可得到多个不同的聚类, 通过对这些聚类计算权重(公式。
35、如下), 然 后按权重排序, 最终选择一定数量的聚类作为话题。 0085 0086 其中, Ci表示第 i 个聚类包含的微博数,N 表示所有聚类包含的 微博数 ; Score(ui) 表示微博用户的权威度, 取值为 0-1 ; Score(Cij) 为第 i 个聚类中第 j 个 微博的分数。 0087 根据每个聚类的权重值, 对所有的聚类进行排序, 取一定数量且满足一定阈值的 聚类作为话题, 在实验中设定的阈值为聚类包含的微博数目, 如大于 100。 0088 4、 展现所发现的话题 0089 所述展现发现的话题信息步骤具体包括 : 在网页上或在电子屏上展现发现的话题 信息。话题信息包括话题本。
36、身、 及由话题得到的摘要、 关键词及话题的发起人、 意见领袖及 说 明 书 CN 103177024 A 10 8/11 页 11 传播关系等。下面描述由话题得到其它话题信息的方法。 0090 抽取话题包含的关键词 0091 识别出某个话题后, 我们可以抽取该话题的相关关键词, 比如参与该话题的相关 人物, 话题的相关地点等。采用传统的 tf( 词频 )*idf( 逆文档频率 ) 的方式对关键词进 行权重计算, 同时计算部分关键词对之间的点互信息值 ( 公式其中 p(x, y) 表示关键词 x 与 y 共同出现的概率, p(x) 表示关键词 x 出现的概率, p(y) 表示关键 词 y 出现的。
37、概率 ), 根据关键词对的互信息值及包含的关键词权重, 选取一定数量的关键词 作为该话题的关键词集合。 0092 具体算法流程如下 : 0093 (1) 对话题类相关的所有博文进行分词处理, 去掉停用词。 0094 (2)计算每个关键词的词频(tf)值, 将log(tf)*idf(逆文档频率)值作为关键词 的权值。 0095 (3) 将所有关键词按照权值排序, 取一定数量的关键词 ( 如 100)。 0096 (4) 根据公式计算每对关键词对的点互信息值, 通过点互信 息值和包含的关键词计算每对关键词的权重, 计算公式如下 : 0097 I(x, y)*(idfx*log(tf)x+idfy*。
38、log(tfy), 其中 idfx表示关键词 x 的逆文档频率, tfx表示关键词 x 的频率。 0098 (5)对(4)中得到的所有关键词对根据其权重进行排序(排序越高, 则关键词越重 要 ), 从中取一定数量的关键词作为该话题的关键词。 0099 话题去噪 0100 识别出某个话题类后, 总会有一些噪音微博, 这些微博不属于这个话题, 但相似度 计算也比较高, 因此需要去除掉这些微博, 去噪过程为 : 分析话题类相关的博文包含的话题 关键词个数, 将个数小于 3 个的博文去掉。 0101 抽取话题的摘要 0102 话题摘要主要是为了让用户能够根据一个短语或几个短语的组合对整个话题有 一个整。
39、体性的了解, 辅助用户了解该话题阐述的主要内容或者观点。具体算法如下 : 0103 对话题类相关的所有博文进行分词, 去掉停用词。 0104 抽取包含有至少两个话题关键词的所有N元词组(N越大, N元词组的含义越丰富, 但是鉴于表示话题的摘要有长度要求, 所以我们只统计三元词组 )。 0105 根据三元词组出现的频次以及包含的关键词权重计算三元组的得分, 计算公式 : f 为三元组的频次, N 为该三元组包含的关键词个数, 根据得分对所有三元组 进行排序。 0106 从前到后将有前缀或后缀有重叠词的三元组进行拼接, 将拼接的三元组得分进行 加和得到拼接后的字符串得分, 根据得分对原三元组和拼接。
40、得到的三元组进行排序。 0107 根据限定的摘要字数, 从上述排序后的结果中选择 N 个 ( 如 2 个 ) 没有交集的字 符串进行再次拼接, 形成最终的话题摘要。 说 明 书 CN 103177024 A 11 9/11 页 12 0108 示例话题 : 0109 0110 说 明 书 CN 103177024 A 12 10/11 页 13 0111 抽取话题的发起人、 意见领袖及传播关系。 0112 发现每个话题后, 可以分析每个话题类内相关博文的转发和评论关系, 同时记录 参与转发和评论的相关用户, 分析每个用户的参与时间及参与程度, 得到每个话题类的发 起人、 意见领袖以及每个话题类。
41、的用户传播路径。 0113 追踪话题 0114 利用话题识别技术识别出各个时间片的话题后, 可能会出现不同时间片存在相同 的话题, 所以话题的自动追踪或关联变得非常重要, 一方面可以将事件发展的来龙去脉以 及各个时间片的焦点话题呈现给用户, 另一方面我们可以标示出新识别出的话题。 0115 话题追踪的具体流程 : 0116 加载历史时间片的话题聚类结果。 0117 抽取每个时间片及每个话题的相关关键词、 原创 UID( 用户标识 ) 以及 # 话题等。 0118 对当前时间片的每个话题与历史话题做关联计算。 0119 将关联度最大的话题作为当前话题的关联话题。 0120 实验结果及分析 012。
42、1 我们抽取了 2011 年 5 月 19 号某一个时间段的所有微博数据, 通过本发明提出的 算法进行话题的自动发现和追踪。然后, 通过比较人工整理结果与本发明自动识别出的话 题数据, 发现大约有 70的相对重要的话题数据可以通过此方法自动识别并加以追踪。 0122 在微博中用户对话题的访问量占总的内容访问量的比重较大。 话题发现和跟踪技 术在微博中的用途主要有两个方面, 一个是建立话题榜, 另一个是话题搜索功能来满足用 户对内容的访问需求。 0123 话题信息榜 0124 话题信息榜可以是用来呈现话题信息的单独页面, 也可以是电子显示屏。一些重 要的话题信息也可呈现在用户主页上。 这样用户可。
43、以通过一种直接快捷的方式发现微博中 用户讨论的主要内容, 从而提高用户的满意度。话题发现和跟踪技术可用来帮助编辑提供 说 明 书 CN 103177024 A 13 11/11 页 14 热点内容, 以及与话题有关的属性, 如重要博文, 与之相关的人物、 地点、 媒体和用户等。编 辑根据提供的内容进行筛选出重要话题, 同时要对一些内容作人工补充和修改。 0125 话题搜索 0126 话题搜索是微博搜索的一个重要功能。通常的做法是用户在博文中设定 “话题标 题” , 用 # 号放置在待搜索的话题标题的两端, 把该话题标题对应的关键词加入到搜索的索 引当中。这种方法最大的问题在于, 用户通常不会自。
44、主设定话题标题 ; 对同一内容, 不同的 用户有不同的设定词语 ; 有的用户用此方法作弊发广告等内容。 0127 本发明的话题发现和跟踪技术可以找到与话题相关的关键词、 用户、 地点等信息, 并通过该信息做索引而找出相关话题 ; 也可通过将识别出的话题摘要及对应的关键词等信 息做索引找出相关话题。 当用户搜索微博的时候, 对搜索查询分词, 用查询对应的关键词搜 索话题的关键词索引, 最终得到多个话题摘要, 将得到的话题摘要展现给用户, 提示这些话 题含有与查询相关的信息。 0128 根据本发明实施例, 可以及时地发现新话题及其子话题 ( 相关焦点 ), 一定程度上 解决了人工整理话题带来的及时。
45、性及覆盖面不足的缺点, 也可以有效地辅助人工做话题及 其子话题的整理, 具有重要的现实意义。 0129 话题的自动追踪可以串联相关话题及事件, 从而让用户了解某个话题的来龙去 脉, 也有着重要的意义。 0130 实施例二 0131 如图 2 所示, 本实施例提供了一种话题信息展现装置, 包括 : 接收单元, 用于接收 信息 ; 预处理单元, 用于对接收的信息进行预处理 ; 话题发现单元, 用于对预处理的信息进 行话题发现 ; 展现单元, 用于展现发现的话题信息 ; 0132 话题发现单元具体包括 : 主题模型单元, 用于利用主题模型对预处理的信息进行 主题分析, 得到每个信息的主题向量 ; 聚。
46、类单元, 用于根据每个信息的主题向量的相似度进 行增量聚类, 该聚类即为话题。所述装置还包括 : 排序单元 : 用于对聚类按其包含的信息数 进行排序 ; 话题处理单元, 用于执行下述任一步骤或下述步骤的任意组合 : 抽取话题包含 的关键词 ; 话题去噪 ; 抽取话题的摘要 ; 抽取话题的发起人、 意见领袖及传播关系 ; 追踪话 题。 0133 本实施例的各个单元的工作原理可参见实施例一的描述。 0134 虽然通过实施例描绘了本发明, 但本领域普通技术人员知道, 在不脱离本发明的 精神和实质的情况下, 就可使本发明有许多变形和变化, 本发明的范围由所附的权利要求 来限定。 说 明 书 CN 103177024 A 14 1/2 页 15 图 1 说 明 书 附 图 CN 103177024 A 15 2/2 页 16 图 2 说 明 书 附 图 CN 103177024 A 16 。