《基于微博的突发事件分析方法.pdf》由会员分享,可在线阅读,更多相关《基于微博的突发事件分析方法.pdf(9页完整版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 104281608 A (43)申请公布日 2015.01.14 CN 104281608 A (21)申请号 201310284163.2 (22)申请日 2013.07.08 G06F 17/30(2006.01) G06F 17/27(2006.01) (71)申请人 上海锐英软件技术有限公司 地址 201207 上海市浦东新区张江高科技园 区郭守敬路 498 号 12 幢 21401-21403 室 (72)发明人 肖江 王光平 李文骏 (54) 发明名称 基于微博的突发事件分析方法 (57) 摘要 本发明公开了一种基于微博的突发事件分析 方法, 所述基于微博。
2、的突发事件分析方法包括以 下步骤 : 步骤一, 分析突发词, 突发词的分析与之 前技术方法不同之处主要在于, 采用时域和频域 两个特征判断词特征轨迹的非周期突发性 ; 步骤 二, 将突发词在微博项中同时出现的情况将不同 的主题词聚类, 一类突发词则对应一个突发事件, 为了更好的描述突发事件, 可以读取最早发布的 事件相关微博的正文部分来作为突发事件的描 述 ; 步骤三, 以网页的形式展现突发事件的分析 结果。 本发明可以在直接应用到微博预警系统中, 将突发事件的关注程度量化为事件在微博用户发 表言论中出现的比例, 并及时作出预警, 达到舆情 监控管理的目的。 (51)Int.Cl. 权利要求书。
3、 1 页 说明书 6 页 附图 1 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书1页 说明书6页 附图1页 (10)申请公布号 CN 104281608 A CN 104281608 A 1/1 页 2 1. 一种基于微博的突发事件分析方法, 其特征在于, 所述基于微博的突发事件分析方 法包括以下步骤 : 步骤一, 分析突发词, 突发词的分析与之前技术方法不同之处主要在于, 采用时域和频 域两个特征判断词特征轨迹的非周期突发性 ; 步骤二, 将突发词在微博项中同时出现的情况将不同的主题词聚类, 一类突发词则对 应一个突发事件, 为了更好的描述突发事件, 可以读取最。
4、早发布的事件相关微博的正文部 分来作为突发事件的描述 ; 步骤三, 以网页的形式展现突发事件的分析结果。 2. 如权利要求 1 所述的基于微博的突发事件分析方法, 其特征在于, 所述步骤一中的 突发词特征轨迹要确定判断词在一段时间的突发性, 首先要记录词的频率在这段时间中的 变化状况, 即突发词的特征轨迹。 3. 如权利要求 2 所述的基于微博的突发事件分析方法, 其特征在于, 所述特征轨迹的 构建过程中, 要考虑特征值的度量选择和时间单元长度的选择。 4. 如权利要求 1 所述的基于微博的突发事件分析方法, 其特征在于, 所述基于微博的 突发事件分析方法应用于微博预警系统中, 微博预警系统包。
5、括微博采集模块、 微博分析模 块。 5. 如权利要求 4 所述的基于微博的突发事件分析方法, 其特征在于, 所述微博采集模 块负责对互联网上的新浪、 腾讯、 twitter 这三大微博系统进行实时采集、 跟踪、 监控, 微博 采集模块中的一项关键技术是智能信息采集技术, 采用智能分布式协同爬虫, 可动态配置 爬虫服务器数量以及爬虫数量, 在不同的采集需求下动态增减使用在采集上的计算资源。 6. 如权利要求 4 所述的基于微博的突发事件分析方法, 其特征在于, 所述微博分析模 块是将经过微博采集模块得到的信息, 经过微博分析模块进行信息去重、 传播链分析、 趋势 分析等获取到有价值的微博情报, 。
6、实时的分析出舆论热点, 把握微博情报的一些动向。 权 利 要 求 书 CN 104281608 A 2 1/6 页 3 基于微博的突发事件分析方法 技术领域 0001 本发明涉及一种分析方法, 特别是涉及一种基于微博的突发事件分析方法。 背景技术 0002 随着互联网技术的飞速发展, 网络微博已一跃成为继新闻、 论坛之后的中国互联 网的第三大舆情源。由于微博每日有千亿级数据量以及难以想象的信息分享速度, 使得各 类机构、 企业不得不重视微博中涉及到自身的数据。 相关学者、 广告商以及政治活动家很早 就已经将大规模的在线社交网络, 如微博平台, 视作一个具备了解思想传播、 社会联系等功 能的真实。
7、网络, 尤其在微博平台中言论自由、 传播速度快的情况下, 突发事件更加可能伴随 着谣言和负面言论进行广泛快速的传播, 形成严重的舆论危机。 然而目前, 通过人工的方法 去收集所有的相关数据几乎是不可能完成的, 更谈不上对这些海量数据进行分析、 整理。 所 以, 通过计算机的手段运用适当的方法, 及时把握微博上的突发事件及其信息传播规律, 具 有重要的社会意义。 0003 目前基于微博的突发事件分析的研究很少, 但是对于热点话题有一些相关研究, 由于热点话题可以作为突发事件的一部分, 故可以对热点话题分析方法的研究可做为本发 明的技术背景。 无论是热点话题还是突发话题的发现其实都是将话题或事件的。
8、主题词作为 一个重要的线索, 而对于词的突发性判定, 经典的方法就是 Kleinberg.J 提出的一种鉴别 电子邮件或新闻文本流中词的爆发的文本挖掘算法, 主要思想是根据文本流中信息的初始 时间序列利用自动机的状态序列来模拟文本流, 其中的每个状态都是根据随着状态序号变 大而增强的时间分布函数来发出信息, 当文本流处于序号最大的状态时即作为一个突发。 而 He.Q 则是根据词特征形成的时间序列的频谱特征来进行特征词分类, 将具有高主周期 和高主功率谱的词作为突发词, 从而可进一步通过突发词的特征时间序列找出词的突发时 间, 同时再根据突发词在文档中的出现将它们组成重要的非周期事件。Fung,。
9、 G.P.C. 定义 突发事件是在文本流的某个时间窗中大量同时出现的突发词的最小集合, 其方法也是通过 词特征时间序列的特征分布来定义突发词, 而后得出描述突发事件的最小突发词的集合, 并找到突发事件的热门时间。 0004 上述的方法并非是针对微博信息的, 同时进行突发事件检索时, 都是从突发时间 的来进行主题的词的判断, 然而在微博监控中突发事件往往还包含热点事件, 仅仅从时间 上来判断突发事件具有一定的局限性, 效果也不理想。 发明内容 0005 本发明所要解决的技术问题是提供一种基于微博的突发事件分析方法, 其可以在 直接应用到微博预警系统中, 将突发事件的关注程度量化为事件在微博用户发。
10、表言论中出 现的比例, 并及时作出预警, 达到舆情监控管理的目的。 0006 本发明是通过下述技术方案来解决上述技术问题的 : 一种基于微博的突发事件分 析方法, 其特征在于, 所述基于微博的突发事件分析方法包括以下步骤 : 说 明 书 CN 104281608 A 3 2/6 页 4 步骤一, 分析突发词, 突发词的分析与之前技术方法不同之处主要在于, 采用时域和频 域两个特征判断词特征轨迹的非周期突发性 ; 步骤二, 将突发词在微博项中同时出现的情况将不同的主题词聚类, 一类突发词则对 应一个突发事件, 为了更好的描述突发事件, 可以读取最早发布的事件相关微博的正文部 分来作为突发事件的描。
11、述 ; 步骤三, 以网页的形式展现突发事件的分析结果。 0007 优选地, 所述步骤一中的突发词特征轨迹要确定判断词在一段时间的突发性, 首 先要记录词的频率在这段时间中的变化状况, 即突发词的特征轨迹。 0008 优选地, 所述特征轨迹的构建过程中, 要考虑特征值的度量选择和时间单元长度 的选择。 0009 优选地, 所述基于微博的突发事件分析方法应用于微博预警系统中, 微博预警系 统包括微博采集模块、 微博分析模块。 0010 优选地, 所述微博采集模块负责对互联网上的新浪、 腾讯、 twitter 这三大微博系 统进行实时采集、 跟踪、 监控, 微博采集模块中的一项关键技术是智能信息采集。
12、技术, 采用 智能分布式协同爬虫, 可动态配置爬虫服务器数量以及爬虫数量, 在不同的采集需求下动 态增减使用在采集上的计算资源。 0011 优选地, 所述微博分析模块是将经过微博采集模块得到的信息, 经过微博分析模 块进行信息去重、 传播链分析、 趋势分析等获取到有价值的微博情报, 实时的分析出舆论热 点, 把握微博情报的一些动向。 0012 本发明的积极进步效果在于 : 由于微博是个新生事物, 对微博舆情的认识仍处于 摸索之中, 所以本发明在微博突发事件分析方法上的创新, 必然是对微博舆情的深入研究 的提供良好的理论基础, 同时对传统概念里的突发事件作出了补充, 增加了热点事件的内 容, 形。
13、成一种成熟的分析管理模式。 特别是在当前微博仍在迅猛发展的过程之中, 各种新情 况新问题的不断出现, 注定了对微博舆情的研究必然要紧跟形势、 不断引入新概念的过程, 只有这样才能使相关部门及时掌握和调整工作方向, 采取更加有效和主动的策略予以应 对。 因此, 本发明通过全面深入地研究微博舆论的中的突发事件的分析, 并将其应用到微博 预警系统之中, 对互联网上的新浪、 腾讯、 twitter 这三大微博系统进行数据采集, 提取出有 效的信息后, 然后将这些情报通过界面显示给用户, 进一步的明确当前时期微博舆情的处 理策略, 具有很强的现实意义。 附图说明 0013 图 1 为本发明基于微博的突发。
14、事件分析方法的流程图。 具体实施方式 0014 下面结合附图给出本发明较佳实施例, 以详细说明本发明的技术方案。 0015 如图 1 所示, 本发明基于微博的突发事件分析方法包括以下步骤 : 步骤一, 分析突发词, 突发词的分析与之前技术方法不同之处主要在于, 采用时域和频 域两个特征判断突发词特征轨迹的非周期突发性 ; 步骤二, 将突发词在微博项中同时出现的情况将不同的主题词聚类, 一类突发词则对 说 明 书 CN 104281608 A 4 3/6 页 5 应一个突发事件, 为了更好的描述突发事件, 可以读取最早发布的事件相关微博的正文部 分来作为突发事件的描述 ; 步骤三, 以网页的形式。
15、展现突发事件的分析结果。 0016 所述步骤一中的突发词特征轨迹要确定判断词在一段时间的突发性, 首先要记录 词的频率在这段时间中的变化状况, 即突发词的特征轨迹, 这是一个数值序列, 表示为如下 式 (1) : 式 (1) yt是一个整体, 表示的是突发词的特征轨迹。 0017 在特征轨迹的构建过程中, 要考虑特征值的度量选择和时间单元长度的选择。这 里根据微博数据的特征, 选择时间单元为天, 特征值则用 DF-VALUE 值来度量, 计算公式为 式 (2) : 式 (2) 式中表示第 t 天包含特征 f 的文档数 ;表示第 t 天的总文档数 ;表示包 含特征 f 的总文档数 ; N 表示时。
16、间窗 T 内的总文本数。 0018 当对每个时间单元的文档分词后, 再构建 “词 - 位置” 的倒排索引, 记录下词出现 在的微博项的编号以及在微博项正文中的序号, 根据此倒排索引进行的计算, 当所有 时间单元的计算都结束后, 则进行时间窗口内统计值的计算, 最后计算出词在每个时间 单元的 DF-VALUE 值, 从而构成特征轨迹。此外, 计算词特征轨迹的流程还可以考虑为词加 权, 如根据词所在微博项的转发或评论情况, 若微博项被转发或者评论一次, 则视为出现次 数增加一次。 0019 进行文本分词及新词发现, 形成词在文本上的索引。对微博文本分词主要采用后 向最大匹配方法, 对于在词典中不出。
17、现的字串进行单字的切分, 这种基于词典的分词方法 有较高的效率, 但对于词典中的未出现词则无能为力, 如突发事件中的人名、 地名等重要信 息都很可能是未出现的词, 所以在分词同时还要进行新词的识别。新词发现算法采用基于 统计的新词发现方法。其算法不是本发明的重点, 故不再赘述。 0020 突发词分析和突发区间的定位。在构造词特征轨迹的基础上, 对经过归一化处理 后的特征序列进行离散傅里叶变换, 根据特征轨迹时域和频域特征可将词分为高强度长周 期, 高强度短周期, 低强度长周期和低强度短周期四类, 其中具有高强度长周期类特征轨迹 的词被认定为突发词。进行分类的两个指标分别是特征轨迹时间序列的主周。
18、期和主功率 谱。由主周期值虽然可以得到词突发的周期性, 但突发的时间范围还需要进一步依靠特征 轨迹来计算。对于词的突发区间的具有以下特征 : 说 明 书 CN 104281608 A 5 4/6 页 6 (1) 突发区间内词的频率通常高于正常值 ; (2) 突发区间应该包含词的频率最高值, 即峰值 ; (3) 突发区间内特征轨迹一般呈现出在峰值左侧上升右侧下降的总趋势。 0021 根据突发区间的特点, 可制订出突发区间的界定方法 “峰值侧推算法” , 具体算法 步骤如下 : 输入 : 具有突发性的时间序列 输出 : 此时间序列的突发峰值时间为 th, 开始时间为 tb, 结束时间为 te, 算。
19、法 : 1) 首先遍历时间序列, 记录下最大值所在的时间点为 th ; 计算出序列平均值 Y ; 2) 假设当前考察时间为峰值的时间 t=th ; 3) t=t 1, 如果 ytY 并且 ytY 并且 ytyt-1, 跳至步骤 3, 否 te=t, 结束。 0022 构建突发事件。在突发词分析的基础上, 根据同一事件的不同的主题词在微博数 据中共同出现的特点, 将突发词按照共同出现的微博项数目进行聚类, 突发词的相似性度 量指标为互信息, 聚类过程采用的是层次聚类, 聚类条件为类间相似度的最大值和最小值 都满足一定阀值。整个聚类过程采用自底向上的层次聚类方法, 聚类的具体算法如下 : 输入 :。
20、 词的集合及每个词在文本中的出现情况 输出 : 若干各类, 使每一类内的相似度满足阀值 算法 : 1) 由词在文本中的出现情况计算出任两个词的相似度 ; 2) 将每个词作为一个初始类 ; 3) REPEAT ; 4) 找出不同的类中具有最大相似度的两个词所在的类 ; 5) 若两类中词的最大相似度和最小相似度分别满足一定阀值, 则合并两个类 ; 6)UNTIL 类集合不发生变化。 0023 该算法区别于传统的层次聚类算法的地方主要是, 在找到相似度最大的两个类以 后还需要考察类间的最大和最小相似度是否满足一定的阀值, 这和微博平台下的应用背景 有关, 同一事件中任意两个主题词都要有较多的共现情况。
21、。词在聚类后每类词则表示一个 突发事件, 事件的突发时间就是词类中具有最高峰值的词的突发时间。这样一类主题词可 以大致表示一个突发事件, 然而要得到更详尽的事件描述, 还需要借助已有的微博文本。 0024 本发明基于微博的突发事件分析方法可以应用于微博预警系统中, 实现对突发事 件的分析和预警功能, 为了更好的解释本发明首先对微博预警系统进行介绍。 0025 首先可以将微博预警系统的用户接口设置为高校微博预警监控系统, 监控所有与 该高校相关的微博信息, 关注高校大学生的热点话题, 热点人物, 对高校相关的突发事件及 时的进行跟踪, 对指定高校有负面影响的微博内容作出预警, 维护高校的形象, 。
22、提高教育质 量, 维护社会和谐稳定。 0026 微博预警系统包括微博采集模块、 微博分析模块等模块。 说 明 书 CN 104281608 A 6 5/6 页 7 0027 微博采集模块负责对互联网上的新浪、 腾讯、 twitter 这三大微博系统进行实时采 集、 跟踪、 监控, 微博采集模块中的一项关键技术是智能信息采集技术, 采用智能分布式协 同爬虫, 可动态配置爬虫服务器数量以及爬虫数量, 在不同的采集需求下动态增减使用在 采集上的计算资源, 通过网页采集子系统中的爬虫模块在 Internet 上获取微博信息, 可对 爬虫模块设置爬虫的数量、 抓取速度、 起始 URL、 符合采集要求的 。
23、URL 的正则表达式、 爬虫 线程终止条件等约束, 来获取相关的网页信息, 对获取的网页信息通过网页清洗模块清除 广告、 图片、 版权说明等噪声数据, 萃取出相关网页中的微博正文、 链接地址、 采集时间等数 据。 0028 微博分析模块, 是将经过微博采集模块得到的信息, 经过微博分析模块进行信息 去重、 传播链分析、 趋势分析等获取到有价值的微博情报, 实时的分析出舆论热点, 把握微 博情报的一些动向。而本发明的突发事件分析方法则主要用于微博分析模块, 涉及以下几 个方面 : 热点、 关键词发现, 采用热点权重计算模型来分析微博热度, 自动发现微博中的热点词 汇, 帮助用户直观地了解网络热点。
24、 ; 热点人物, 微博系统根据从网络获取的微博分析出热点人物 ; 趋势分析, 对于微博引起的高关注度事件, 可以及时掌握该微博的爆发点和事态, 提供 不同时段的热点事件 ; 突发事件, 短时间内发生 (24 小时之内) 的在网上引起很大反响的事件 ; 微博预警, 微博系统根据用户设置的关键词分析出微博, 并在微博预警页面显示。 0029 突发词分析的过程中, 微博文本以天为单位组织, 过滤掉非中文和信息含量小的 微博文本后, 进行文本分词及新词发现, 形成词在文本上的索引, 基于索引统计度量值, 构 建词的特征序列, 对归一化和平滑后的特征序列进行离散傅里叶变换, 考察新序列的时域 和频域两个。
25、特征, 符合高突发性和长周期性的词判定为突发词, 将突发词按照共同出现的 微博项数目进行聚类, 这样一类的主题词可以表示一个突发事件, 具体的实施步骤如下 : 一、 使用微博搜索引擎采集微博数据, 数据采集到的数据主要分两类数据进行存储, 一 类为用户数据 User, 另一类为微博数据 Tweet。注 : 这里提到的微博搜索引擎不在赘述, 主 要采用广度优先的算法进行采集。 0030 二、 使用关系型数据库存储 User 和 Tweet 数据, 供后续关联查询。 0031 三、 准备事件表 event 与关键词表 keywords, 一个事件包含多个关键词, 因此需要 使用第 3 张表将其关联。
26、 event_keywords。 0032 四、 对 Tweet 数据中的内容 content 字段使用中文分词技术, 进行分词。再利用新 词发现技术, 形成词在文本上的索引。对分词后的结果 term 进行去重, 遍历, 若关键词表中 的关键词包含该 term, 则将该关键词的 term 数计数 count+1。 0033 五、 设置一个阀值 k。假设爬虫采集速度为 s, 那么阀值应为 k=s*60/1000。该公式 表明, 如果某事件所对应的所有关键词所增加的频率为每分钟采集速度的千分之一, 同时 再考察新序列的时域和频域两个特征, 符合高突发性和长周期性的词判定为突发词, 将突 发词按照共。
27、同出现的微博项数目进行聚类, 这样一类的主题词可以表示一个突发事件, 在 结合爬虫抓取数据对突发事件进行更完善的描述, 并显示在相关页面上。 0034 六、 设置一个定时器, 该定时器会将 keywords 表中的计数 count 每 60 秒钟减 60 说 明 书 CN 104281608 A 7 6/6 页 8 (实际就是每秒中减 1, 此举是为了降低该定时器带来的性能损失) 。 0035 七、 再设置一个定时器, 每分钟查询事件表中的所有事件对应的 keywords 之和 sum 大于阀值 k 的所有事件, 并按照 sum 进行逆序排序, 即是本算法最后得出的微博突发事 件。最后将结果反馈到相关微博预警系统的相关模块或者页面当中。 0036 本领域的技术人员可以对本发明进行各种改型和改变。因此, 本发明覆盖了落入 所附的权利要求书及其等同物的范围内的各种改型和改变。 说 明 书 CN 104281608 A 8 1/1 页 9 图 1 说 明 书 附 图 CN 104281608 A 9 。