书签 分享 收藏 举报 版权申诉 / 9

基于微博的突发事件分析方法.pdf

  • 上传人:e2
  • 文档编号:4561675
  • 上传时间:2018-10-20
  • 格式:PDF
  • 页数:9
  • 大小:443.18KB
  • 摘要
    申请专利号:

    CN201310284163.2

    申请日:

    2013.07.08

    公开号:

    CN104281608A

    公开日:

    2015.01.14

    当前法律状态:

    撤回

    有效性:

    无权

    法律详情:

    发明专利申请公布后的视为撤回IPC(主分类):G06F 17/30申请公布日:20150114|||公开

    IPC分类号:

    G06F17/30; G06F17/27

    主分类号:

    G06F17/30

    申请人:

    上海锐英软件技术有限公司

    发明人:

    肖江; 王光平; 李文骏

    地址:

    201207 上海市浦东新区张江高科技园区郭守敬路498号12幢21401-21403室

    优先权:

    专利代理机构:

    代理人:

    PDF完整版下载: PDF下载
    内容摘要

    本发明公开了一种基于微博的突发事件分析方法,所述基于微博的突发事件分析方法包括以下步骤:步骤一,分析突发词,突发词的分析与之前技术方法不同之处主要在于,采用时域和频域两个特征判断词特征轨迹的非周期突发性;步骤二,将突发词在微博项中同时出现的情况将不同的主题词聚类,一类突发词则对应一个突发事件,为了更好的描述突发事件,可以读取最早发布的事件相关微博的正文部分来作为突发事件的描述;步骤三,以网页的形式展现突发事件的分析结果。本发明可以在直接应用到微博预警系统中,将突发事件的关注程度量化为事件在微博用户发表言论中出现的比例,并及时作出预警,达到舆情监控管理的目的。

    权利要求书

    权利要求书
    1.  一种基于微博的突发事件分析方法,其特征在于,所述基于微博的突发事件分析方法包括以下步骤:
    步骤一,分析突发词,突发词的分析与之前技术方法不同之处主要在于,采用时域和频域两个特征判断词特征轨迹的非周期突发性;
    步骤二,将突发词在微博项中同时出现的情况将不同的主题词聚类,一类突发词则对应一个突发事件,为了更好的描述突发事件,可以读取最早发布的事件相关微博的正文部分来作为突发事件的描述;
    步骤三,以网页的形式展现突发事件的分析结果。

    2.  如权利要求1所述的基于微博的突发事件分析方法,其特征在于,所述步骤一中的突发词特征轨迹要确定判断词在一段时间的突发性,首先要记录词的频率在这段时间中的变化状况,即突发词的特征轨迹。

    3.  如权利要求2所述的基于微博的突发事件分析方法,其特征在于,所述特征轨迹的构建过程中,要考虑特征值的度量选择和时间单元长度的选择。

    4.  如权利要求1所述的基于微博的突发事件分析方法,其特征在于,所述基于微博的突发事件分析方法应用于微博预警系统中,微博预警系统包括微博采集模块、微博分析模块。

    5.  如权利要求4所述的基于微博的突发事件分析方法,其特征在于,所述微博采集模块负责对互联网上的新浪、腾讯、twitter这三大微博系统进行实时采集、跟踪、监控,微博采集模块中的一项关键技术是智能信息采集技术,采用智能分布式协同爬虫,可动态配置爬虫服务器数量以及爬虫数量, 在不同的采集需求下动态增减使用在采集上的计算资源。

    6.  如权利要求4所述的基于微博的突发事件分析方法,其特征在于,所述微博分析模块是将经过微博采集模块得到的信息,经过微博分析模块进行信息去重、传播链分析、趋势分析等获取到有价值的微博情报,实时的分析出舆论热点,把握微博情报的一些动向。

    说明书

    说明书基于微博的突发事件分析方法
    技术领域
    本发明涉及一种分析方法,特别是涉及一种基于微博的突发事件分析方法。
    背景技术
    随着互联网技术的飞速发展,网络微博已一跃成为继新闻、论坛之后的中国互联网的第三大舆情源。由于微博每日有千亿级数据量以及难以想象的信息分享速度,使得各类机构、企业不得不重视微博中涉及到自身的数据。相关学者、广告商以及政治活动家很早就已经将大规模的在线社交网络,如微博平台,视作一个具备了解思想传播、社会联系等功能的真实网络,尤其在微博平台中言论自由、传播速度快的情况下,突发事件更加可能伴随着谣言和负面言论进行广泛快速的传播,形成严重的舆论危机。然而目前,通过人工的方法去收集所有的相关数据几乎是不可能完成的,更谈不上对这些海量数据进行分析、整理。所以,通过计算机的手段运用适当的方法,及时把握微博上的突发事件及其信息传播规律,具有重要的社会意义。
    目前基于微博的突发事件分析的研究很少,但是对于热点话题有一些相关研究,由于热点话题可以作为突发事件的一部分,故可以对热点话题分析方法的研究可做为本发明的技术背景。无论是热点话题还是突发话题的发现其实都是将话题或事件的主题词作为一个重要的线索,而对于词的突发性判定,经典的方法就是Kleinberg.J提出的一种鉴别电子邮件或新闻文本流中词的爆发的文本挖掘算法,主要思想是根据文本流中信息的初始时间序列利用自动机的状态序列来模拟文本流,其中的每个状态都是根据随着状态序号变大而增强的时间分布函数来发出信息,当文本流处于序号最大的状态时即作为一个突发。而He.Q则是根据词特征形成的时间序列的频谱特征来进行特征词分类,将具有高主周期和高主功率谱的词作为突发词,从而可进一步通过突发词的特征时间序列找出词的突发时间,同时再根据突发词在文档中的出现将它们组成重要的非周期事件。Fung,G.P.C.定义突发事件是在文本流的某个时间窗中大量同时出现的突发词的最小集合,其方法也是通过词特征时间序列的特征分布来定义突发词,而后得出描述突发事件的最小突发词的集合,并找到突发事件的热门时间。
    上述的方法并非是针对微博信息的,同时进行突发事件检索时,都是从突发时间的来进行主题的词的判断,然而在微博监控中突发事件往往还包含热点事件,仅仅从时间上来判断突发事件具有一定的局限性,效果也不理想。
    发明内容
    本发明所要解决的技术问题是提供一种基于微博的突发事件分析方法,其可以在直接应用到微博预警系统中,将突发事件的关注程度量化为事件在微博用户发表言论中出现的比例,并及时作出预警,达到舆情监控管理的目的。
    本发明是通过下述技术方案来解决上述技术问题的:一种基于微博的突发事件分析方法,其特征在于,所述基于微博的突发事件分析方法包括以下步骤:
    步骤一,分析突发词,突发词的分析与之前技术方法不同之处主要在于,采用时域和频域两个特征判断词特征轨迹的非周期突发性;
    步骤二,将突发词在微博项中同时出现的情况将不同的主题词聚类,一类突发词则对应一个突发事件,为了更好的描述突发事件,可以读取最早发布的事件相关微博的正文部分来作为突发事件的描述;
    步骤三,以网页的形式展现突发事件的分析结果。
    优选地,所述步骤一中的突发词特征轨迹要确定判断词在一段时间的突发性,首先要记录词的频率在这段时间中的变化状况,即突发词的特征轨迹。
    优选地,所述特征轨迹的构建过程中,要考虑特征值的度量选择和时间单元长度的选择。
    优选地,所述基于微博的突发事件分析方法应用于微博预警系统中,微博预警系统包括微博采集模块、微博分析模块。
    优选地,所述微博采集模块负责对互联网上的新浪、腾讯、twitter这三大微博系统进行实时采集、跟踪、监控,微博采集模块中的一项关键技术是智能信息采集技术,采用智能分布式协同爬虫,可动态配置爬虫服务器数量以及爬虫数量, 在不同的采集需求下动态增减使用在采集上的计算资源。
    优选地,所述微博分析模块是将经过微博采集模块得到的信息,经过微博分析模块进行信息去重、传播链分析、趋势分析等获取到有价值的微博情报,实时的分析出舆论热点,把握微博情报的一些动向。
    本发明的积极进步效果在于:由于微博是个新生事物,对微博舆情的认识仍处于摸索之中,所以本发明在微博突发事件分析方法上的创新,必然是对微博舆情的深入研究的提供良好的理论基础,同时对传统概念里的突发事件作出了补充,增加了热点事件的内容,形成一种成熟的分析管理模式。特别是在当前微博仍在迅猛发展的过程之中,各种新情况新问题的不断出现,注定了对微博舆情的研究必然要紧跟形势、不断引入新概念的过程,只有这样才能使相关部门及时掌握和调整工作方向,采取更加有效和主动的策略予以应对。因此,本发明通过全面深入地研究微博舆论的中的突发事件的分析,并将其应用到微博预警系统之中,对互联网上的新浪、腾讯、twitter这三大微博系统进行数据采集,提取出有效的信息后,然后将这些情报通过界面显示给用户,进一步的明确当前时期微博舆情的处理策略,具有很强的现实意义。
    附图说明
    图1为本发明基于微博的突发事件分析方法的流程图。
    具体实施方式
    下面结合附图给出本发明较佳实施例,以详细说明本发明的技术方案。
    如图1所示,本发明基于微博的突发事件分析方法包括以下步骤:
    步骤一,分析突发词,突发词的分析与之前技术方法不同之处主要在于,采用时域和频域两个特征判断突发词特征轨迹的非周期突发性;
    步骤二,将突发词在微博项中同时出现的情况将不同的主题词聚类,一类突发词则对应一个突发事件,为了更好的描述突发事件,可以读取最早发布的事件相关微博的正文部分来作为突发事件的描述;
    步骤三,以网页的形式展现突发事件的分析结果。
    所述步骤一中的突发词特征轨迹要确定判断词在一段时间的突发性,首先要记录词的频率在这段时间中的变化状况,即突发词的特征轨迹,这是一个数值序列,表示为如下式(1):
                      ………………式(1)
    yt是一个整体,表示的是突发词的特征轨迹。
    在特征轨迹的构建过程中,要考虑特征值的度量选择和时间单元长度的选择。这里根据微博数据的特征,选择时间单元为天,特征值则用DF-VALUE值来度量,计算公式为式(2):
    ……………………………………………式(2)
    式中表示第t天包含特征f的文档数;表示第t天的总文档数;表示包含特征f的总文档数;N表示时间窗T内的总文本数。
    当对每个时间单元的文档分词后,再构建“词-位置”的倒排索引,记录下词出现在的微博项的编号以及在微博项正文中的序号,根据此倒排索引进行的计算,当所有时间单元的计算都结束后,则进行时间窗口内统计值的计算,最后计算出词在每个时间单元的DF-VALUE值,从而构成特征轨迹。此外,计算词特征轨迹的流程还可以考虑为词加权,如根据词所在微博项的转发或评论情况,若微博项被转发或者评论一次,则视为出现次数增加一次。
    进行文本分词及新词发现,形成词在文本上的索引。对微博文本分词主要采用后向最大匹配方法,对于在词典中不出现的字串进行单字的切分,这种基于词典的分词方法有较高的效率,但对于词典中的未出现词则无能为力,如突发事件中的人名、地名等重要信息都很可能是未出现的词,所以在分词同时还要进行新词的识别。新词发现算法采用基于统计的新词发现方法。其算法不是本发明的重点,故不再赘述。
    突发词分析和突发区间的定位。在构造词特征轨迹的基础上,对经过归一化处理后的特征序列进行离散傅里叶变换,根据特征轨迹时域和频域特征可将词分为高强度长周期,高强度短周期,低强度长周期和低强度短周期四类,其中具有高强度长周期类特征轨迹的词被认定为突发词。进行分类的两个指标分别是特征轨迹时间序列的主周期和主功率谱。由主周期值虽然可以得到词突发的周期性,但突发的时间范围还需要进一步依靠特征轨迹来计算。对于词的突发区间的具有以下特征:
    (1)突发区间内词的频率通常高于正常值;
    (2)突发区间应该包含词的频率最高值,即峰值;
    (3)突发区间内特征轨迹一般呈现出在峰值左侧上升右侧下降的总趋势。
    根据突发区间的特点,可制订出突发区间的界定方法“峰值侧推算法”,具体算法步骤如下:
    输入:具有突发性的时间序列
    输出:此时间序列的突发峰值时间为th,开始时间为tb,结束时间为te,
    算法:
    1) 首先遍历时间序列,记录下最大值所在的时间点为th;计算出序列平均值Y;
    2) 假设当前考察时间为峰值的时间t=th;
    3) t=t?1,如果yt>Y并且yt<yt+1,跳至步骤3,否则tb=t,跳至步骤4;
    4) 假设当前考察时间为峰值时间t=th;
    5) t=t+1,如果yt>Y并且yt<yt-1,跳至步骤3,否te=t,结束。
    构建突发事件。在突发词分析的基础上,根据同一事件的不同的主题词在微博数据中共同出现的特点,将突发词按照共同出现的微博项数目进行聚类,突发词的相似性度量指标为互信息,聚类过程采用的是层次聚类,聚类条件为类间相似度的最大值和最小值都满足一定阀值。整个聚类过程采用自底向上的层次聚类方法,聚类的具体算法如下:
    输入:词的集合及每个词在文本中的出现情况
    输出:若干各类,使每一类内的相似度满足阀值
    算法:
    1) 由词在文本中的出现情况计算出任两个词的相似度;
    2) 将每个词作为一个初始类;
    3) REPEAT;
    4) 找出不同的类中具有最大相似度的两个词所在的类;
    5) 若两类中词的最大相似度和最小相似度分别满足一定阀值,则合并两个类;
    6)UNTIL类集合不发生变化。
    该算法区别于传统的层次聚类算法的地方主要是,在找到相似度最大的两个类以后还需要考察类间的最大和最小相似度是否满足一定的阀值,这和微博平台下的应用背景有关,同一事件中任意两个主题词都要有较多的共现情况。词在聚类后每类词则表示一个突发事件,事件的突发时间就是词类中具有最高峰值的词的突发时间。这样一类主题词可以大致表示一个突发事件,然而要得到更详尽的事件描述,还需要借助已有的微博文本。
    本发明基于微博的突发事件分析方法可以应用于微博预警系统中,实现对突发事件的分析和预警功能,为了更好的解释本发明首先对微博预警系统进行介绍。
    首先可以将微博预警系统的用户接口设置为高校微博预警监控系统,监控所有与该高校相关的微博信息,关注高校大学生的热点话题,热点人物,对高校相关的突发事件及时的进行跟踪,对指定高校有负面影响的微博内容作出预警,维护高校的形象,提高教育质量,维护社会和谐稳定。
    微博预警系统包括微博采集模块、微博分析模块等模块。
    微博采集模块负责对互联网上的新浪、腾讯、twitter这三大微博系统进行实时采集、跟踪、监控,微博采集模块中的一项关键技术是智能信息采集技术,采用智能分布式协同爬虫,可动态配置爬虫服务器数量以及爬虫数量, 在不同的采集需求下动态增减使用在采集上的计算资源,通过网页采集子系统中的爬虫模块在Internet上获取微博信息,可对爬虫模块设置爬虫的数量、抓取速度、起始URL、符合采集要求的URL 的正则表达式、爬虫线程终止条件等约束, 来获取相关的网页信息,对获取的网页信息通过网页清洗模块清除广告、图片、版权说明等噪声数据,萃取出相关网页中的微博正文、链接地址、采集时间等数据。
    微博分析模块,是将经过微博采集模块得到的信息,经过微博分析模块进行信息去重、传播链分析、趋势分析等获取到有价值的微博情报,实时的分析出舆论热点,把握微博情报的一些动向。而本发明的突发事件分析方法则主要用于微博分析模块,涉及以下几个方面:
    热点、关键词发现,采用热点权重计算模型来分析微博热度,自动发现微博中的热点词汇,帮助用户直观地了解网络热点;
    热点人物,微博系统根据从网络获取的微博分析出热点人物;
    趋势分析,对于微博引起的高关注度事件,可以及时掌握该微博的爆发点和事态,提供不同时段的热点事件;
    突发事件,短时间内发生(24小时之内)的在网上引起很大反响的事件;
    微博预警,微博系统根据用户设置的关键词分析出微博,并在微博预警页面显示。
    突发词分析的过程中,微博文本以天为单位组织,过滤掉非中文和信息含量小的微博文本后,进行文本分词及新词发现,形成词在文本上的索引,基于索引统计度量值,构建词的特征序列,对归一化和平滑后的特征序列进行离散傅里叶变换,考察新序列的时域和频域两个特征,符合高突发性和长周期性的词判定为突发词,将突发词按照共同出现的微博项数目进行聚类,这样一类的主题词可以表示一个突发事件,具体的实施步骤如下:
    一、使用微博搜索引擎采集微博数据,数据采集到的数据主要分两类数据进行存储,一类为用户数据User,另一类为微博数据Tweet。注:这里提到的微博搜索引擎不在赘述,主要采用广度优先的算法进行采集。
    二、使用关系型数据库存储User和Tweet数据,供后续关联查询。
    三、准备事件表event与关键词表keywords,一个事件包含多个关键词,因此需要使用第3张表将其关联event_keywords。
    四、对Tweet数据中的内容content字段使用中文分词技术,进行分词。再利用新词发现技术,形成词在文本上的索引。对分词后的结果term进行去重,遍历,若关键词表中的关键词包含该term,则将该关键词的term数计数count+1。
    五、设置一个阀值k。假设爬虫采集速度为s,那么阀值应为k=s*60/1000。该公式表明,如果某事件所对应的所有关键词所增加的频率为每分钟采集速度的千分之一,同时再考察新序列的时域和频域两个特征,符合高突发性和长周期性的词判定为突发词,将突发词按照共同出现的微博项数目进行聚类,这样一类的主题词可以表示一个突发事件,在结合爬虫抓取数据对突发事件进行更完善的描述,并显示在相关页面上。
    六、设置一个定时器,该定时器会将keywords表中的计数count每60秒钟减60(实际就是每秒中减1,此举是为了降低该定时器带来的性能损失)。
    七、再设置一个定时器,每分钟查询事件表中的所有事件对应的keywords之和sum大于阀值k的所有事件,并按照sum进行逆序排序,即是本算法最后得出的微博突发事件。最后将结果反馈到相关微博预警系统的相关模块或者页面当中。
    本领域的技术人员可以对本发明进行各种改型和改变。因此,本发明覆盖了落入所附的权利要求书及其等同物的范围内的各种改型和改变。

    关 键  词:
    基于 突发事件 分析 方法
      专利查询网所有文档均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    0条评论

    还可以输入200字符

    暂无评论,赶快抢占沙发吧。

    关于本文
    本文标题:基于微博的突发事件分析方法.pdf
    链接地址:https://www.zhuanlichaxun.net/p-4561675.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
    经营许可证编号:粤ICP备2021068784号-1