书签 分享 收藏 举报 版权申诉 / 9

面向微博文本分类的挖掘方法及系统.pdf

  • 上传人:62****3
  • 文档编号:6166174
  • 上传时间:2019-05-16
  • 格式:PDF
  • 页数:9
  • 大小:813.62KB
  • 摘要
    申请专利号:

    CN201310591482.8

    申请日:

    2013.11.21

    公开号:

    CN103593454A

    公开日:

    2014.02.19

    当前法律状态:

    驳回

    有效性:

    无权

    法律详情:

    发明专利申请公布后的驳回IPC(主分类):G06F 17/30申请公布日:20140219|||实质审查的生效IPC(主分类):G06F 17/30申请日:20131121|||公开

    IPC分类号:

    G06F17/30

    主分类号:

    G06F17/30

    申请人:

    中国科学院深圳先进技术研究院

    发明人:

    罗军; 章昉

    地址:

    518055 广东省深圳市南山区西丽大学城学苑大道1068号

    优先权:

    专利代理机构:

    深圳市科进知识产权代理事务所(普通合伙) 44316

    代理人:

    沈祖锋;郝明琴

    PDF完整版下载: PDF下载
    内容摘要

    本发明涉及一种面向微博文本分类的挖掘方法,包括如下步骤:获取现有的微博数据;对获取的微博文本进行分析和预处理;对所述微博文本的词项集合进行搜索遍历,去除停用词词项;对原始特征词项集合中的每个词项做开发检验CHI值计算,所得出的最高值的N个词项作为特征词项集,所述原始特征词项集合为所有微博文本的词项集合;对所述N个词项进行关联规则挖掘,将微博文本中的特征词项的强关联词项加入到该微博的特征词项集中,以提高微博文本分类精度。本发明还涉及一种面向微博文本分类的挖掘系统。本发明能够有效地简化原始微博文本的关联规则挖掘复杂度,且所需要分析的数据量大大减少,提高了微博文本分类精度。

    权利要求书

    权利要求书
    1.  一种面向微博文本分类的挖掘方法,其特征在于,该方法包括如下步骤:
    a.获取现有的微博数据;
    b.对获取的微博文本进行分析和预处理;
    c.对所述微博文本的词项集合进行搜索遍历,去除停用词词项;
    d.对原始特征词项集合中的每个词项做开发检验CHI值计算,所得出的最高值的N个词项作为特征词项集,所述原始特征词项集合为所有微博文本的词项集合;
    e.对所述N个词项进行关联规则挖掘,将微博文本中的特征词项的强关联词项加入到该微博的特征词项集中,以提高微博文本分类精度。

    2.  如权利要求1所述的方法,其特征在于,所述的微博数据包括:用户ID、用户名、微博文本。

    3.  如权利要求2所述的方法,其特征在于,所述的步骤b包括对所述微博文本去除标点符号等特殊符号、去除非中文字符和分词操作,得到所述微博文本的词项集合,并对该微博进行人工分类。

    4.  如权利要求3所述的方法,其特征在于,所述的所述特征词项集按照互信息值的高低排列,其中N为用户自定义,N小于总词项数目。

    5.  如权利要求4所述的方法,其特征在于,所述开发检验CHI值计算方法为:
    对于每个词分别计算得到:在这个分类下包含这个词的微博文本数量a;不在该分类下包含这个词的微博文本数量b;在这个分类下不包含这个词的微博文本数量c;不在该分类下,且不包含这个词的微博文本数量d;
    z1=a*d-b*c;
    CHI=(z1*z1*float(N))/((a+c)*(a+b)*(b+d)*(c+d)。

    6.  如权利要求5所述的方法,其特征在于,所述的步骤e包括:
    遍历获取的微博数据中的每条微博,对每条微博的特征词项集进行二元组化;
    设定支持度和置信度的阈值;
    根据设定的支持度和置信度的阈值,取强关联规则,将微博文本中的特征词项的强关联词项加入到该微博的特征词项集中。

    7.  一种面向微博文本分类的挖掘系统,其特征在于,该系统包括相互电性连接的获取模块、预处理模块、提取模块、计算模块及挖掘模块,其中:
    所述获取模块用于获取现有的微博数据;
    所述预处理模块用于对获取的微博文本进行分析和预处理;
    所述提取模块用于对所述微博文本的词项集合进行搜索遍历,去除停用词词项;
    所述计算模块用于对原始特征词项集合中的每个词项做开发检验CHI值计算,所得出的最高值的N个词项作为特征词项集,所述原始特征词项集合为所有微博文本的词项集合;
    所述挖掘模块用于对所述N个词项进行关联规则挖掘,将微博文本中的特征词项的强关联词项加入到该微博的特征词项集中,以提高微博文本分类精度。

    8.  如权利要求7所述的系统,其特征在于,所述的微博数据包括:用户ID、用户名、微博文本。

    9.  如权利要求8所述的系统,其特征在于,所述预处理模块用于对所述微博文本去除标点符号等特殊符号、去除非中文字符和分词操作, 得到所述微博文本的词项集合。

    10.  如权利要求9所述的系统,其特征在于,所述的所述特征词项集按照互信息值的高低排列,其中N为用户自定义,N小于总词项数目。

    说明书

    说明书面向微博文本分类的挖掘方法及系统
    技术领域
    本发明涉及一种面向微博文本分类的挖掘方法及系统。
    背景技术
    微博,已经成为人们进行社交的一种重要平台与媒介之一,中国有超过4亿的微博用户,而Twitter用户更是超过5亿,信息日发送量则超过2亿,成为仅次于Facebook的第二大社交网站。近年来,微博成为无数热门话题与潮流的发源地。随着新浪微博、腾讯微博等社交网站在国内的流行,微博等社会化媒体不仅成为了网民发布、共享、传播信息的平台,而且积累了大规模网民的行为数据。2012年5月,新浪微博事业部副总经理芦义指出,新浪微博注册用户已超过3亿,其中有60%的活跃用户通过移动终端登录,用户平均每天发布超过1亿条微博内容。可见微博的数据量越来越大,因而对微博数据的挖掘具有可行性、创新性以及实用性,并受到国内外学术界的广泛关注。
    在微博文本分类中,关联规则能够有效的提高分类的精度。其中,关联规则在数据集中的支持度(support)是数据集中事物同时包含X项、Y项的百分比,即概率;置信度(confidence)是数据集中事物已经包含X项的情况下,包含Y项的百分比,即条件概率。如果满足最小支持度阈值和最小置信度阈值。这些阈值是根据挖掘需要人为设定。
    现有的关联规则算法主要有两类:Apriori算法和FP-树频集算法。
    Apriori算法:首先找出所有的频集,这些项集出现的频繁性至少和预定义的最小支持度一样。然后由频集产生强关联规则,这些规则必须 满足最小支持度和最小可信度。然后使用找到的频集产生期望的规则,产生只包含集合的项的所有规则,其中每一条规则的右部只有一项。一旦生成这些规则,只有那些大于用户给定的最小可信度的规则才被留下来,使用递推的方法生成所有频集。
    FP-树频集算法:采用分而治之的策略,在经过第一遍扫描之后,把数据库中的频集压缩进一棵频繁模式树(FP-tree),同时依然保留其中的关联信息,随后再将FP-tree分化成一些条件库,每个库和一个长度为1的频集相关,然后再对这些条件库分别进行挖掘。当原始数据量很大的时候,也可以结合划分的方法,使得一个FP-tree可以放入主存中。实验表明,FP-growth对不同长度的规则都有很好的适应性,同时在效率上较之Apriori算法有巨大的提高。
    然而,对于微博这样的短文本而言,Apriori算法产生大量的候选集,以及可能需要重复扫描数据库,大大增加了挖掘复杂度和挖掘时间。FP-树频集算法虽然可以有效提高效率,但是对于短文本而言,效率依然不高。
    发明内容
    有鉴于此,有必要提供一种面向微博文本分类的挖掘方法及系统。
    本发明提供一种面向微博文本分类的挖掘方法,该方法包括如下步骤:a.获取现有的微博数据;b.对获取的微博文本进行分析和预处理;c.对所述微博文本的词项集合进行搜索遍历,去除停用词词项;d.对原始特征词项集合中的每个词项做开发检验CHI值计算,所得出的最高值的N个词项作为特征词项集,所述原始特征词项集合为所有微博文本的词项集合;e.对所述N个词项进行关联规则挖掘,将微博文本中的特征词项的强关联词项加入到该微博的特征词项集中,以提高微博文本分类精度。
    其中,所述的微博数据包括:用户ID、用户名、微博文本。
    所述的步骤b包括对所述微博文本去除标点符号等特殊符号、去除非中文字符和分词操作,得到所述微博文本的词项集合,并对该微博进行人工分类。
    所述的所述特征词项集按照互信息值的高低排列,其中N为用户自定义,N小于总词项数目。
    所述开发检验CHI值计算方法为:对于每个词分别计算得到:在这个分类下包含这个词的微博文本数量a;不在该分类下包含这个词的微博文本数量b;在这个分类下不包含这个词的微博文本数量c;不在该分类下,且不包含这个词的微博文本数量d;z1=a*d-b*c;CHI=(z1*z1*float(N))/((a+c)*(a+b)*(b+d)*(c+d)。
    所述的步骤e包括:遍历获取的微博数据中的每条微博,对每条微博的特征词项集进行二元组化;设定支持度和置信度的阈值;根据设定的支持度和置信度的阈值,取强关联规则,将微博文本中的特征词项的强关联词项加入到该微博的特征词项集中。
    本发明还提供一种面向微博文本分类的挖掘系统,包括相互电性连接的获取模块、预处理模块、提取模块、计算模块及挖掘模块,其中:所述获取模块用于获取现有的微博数据;所述预处理模块用于对获取的微博文本进行分析和预处理;所述提取模块用于对所述微博文本的词项集合进行搜索遍历,去除停用词词项;所述计算模块用于对原始特征词项集合中的每个词项做开发检验CHI值计算,所得出的最高值的N个词项作为特征词项集,所述原始特征词项集合为所有微博文本的词项集合;所述挖掘模块用于对所述N个词项进行关联规则挖掘,将微博文本中的特征词项的强关联词项加入到该微博的特征词项集中,以提高微博文本分类精度。
    其中,所述的微博数据包括:用户ID、用户名、微博文本。
    所述预处理模块用于对所述微博文本去除标点符号等特殊符号、去除非中文字符和分词操作,得到所述微博文本的词项集合。
    所述的所述特征词项集按照互信息值的高低排列,其中N为用户自定义,N小于总词项数目。
    本发明面向微博文本分类的挖掘方法及系统,综合考虑了微博的文本结构,针对微博文本短文本的特性和微博文本关联规则的必要性,提出了一种简单有效的针对微博文本分类的关联规则挖掘方法,与先前关联规则挖掘方法相比,本发明的时间复杂度大大降低,需要分析的数据量大大减少,微博文本分类精度得到显著提高。
    附图说明
    图1为本发明面向微博文本分类的挖掘方法的流程图;
    图2为本发明面向微博文本分类的挖掘系统的硬件架构图。
    具体实施方式
    下面结合附图及具体实施例对本发明作进一步详细的说明。
    参阅图1所示,是本发明面向微博文本分类的挖掘方法较佳实施例的作业流程图。
    步骤S401,获取现有的微博数据。具体而言,获取微博网站上现有的数据。受限于分析技术,本实施例仅获取内容为中文的微博数据。所述微博数据包括:用户ID、用户名、微博文本。
    步骤S402,对获取的微博文本进行分析和预处理。具体而言,对每条微博文本进行初始化处理,所述微博文本经过去除标点符号等特殊符号、去除非中文字符和分词操作后,得到所述微博文本的词项集合,并对该微博进行人工分类。
    步骤S403,对所述微博文本进行特征提取,即对所述微博文本的词项集合进行搜索遍历,去除停用词词项。
    步骤S404,对微博数据进行特征选择。具体而言,对原始特征词项集合中的每个词项做开发检验CHI值计算,所得出的最高值的N个词项作为特征词项集。其中,所述原始特征词项集合为所有微博文本的词项集合。所述特征词项集按照互信息值的高低排列,其中N为用户自定义,N小于总词项数目。
    所述开发检验CHI值计算方法如下:
    对于每个词分别计算得到:在这个分类下包含这个词的微博文本数量a;不在该分类下包含这个词的微博文本数量b;在这个分类下不包含这个词的微博文本数量c;不在该分类下,且不包含这个词的微博文本数量d。
    z1=a*d-b*c。
    CHI=(z1*z1*float(N))/((a+c)*(a+b)*(b+d)*(c+d)。
    步骤S405,对所述N个词项进行关联规则挖掘。具体步骤如下:
    1.遍历获取的微博数据中的每条微博,对每条微博的特征词项集进行二元组化,将每个二元组加入到MAP<(词项x,词项y),count>,count为该二元组出现的次数。
    2.选择特征过程中已经计算了每个词项出现的次数,设定支持度和置信度的阈值。
    21.过滤count小于微博数据的微博总数*已设定support的二元组;
    22.support(x=>y)=count/微博数据的微博总数;
    23.confidence(x=>y)=count/(a+b)。
    3.根据上述设定的支持度和置信度的阈值,取强关联规则。将微博文本中的特征词项的强关联词项加入到该微博的特征词项集中,以提高 微博文本分类精度。
    参阅图2所示,是本发明面向微博文本分类的挖掘系统的硬件架构图。该系统包括相互电性连接的获取模块、预处理模块、提取模块、计算模块及挖掘模块。
    所述获取模块用于获取现有的微博数据。具体而言,所述获取模块获取微博网站上现有的数据。受限于分析技术,本实施例仅获取内容为中文的微博数据。所述微博数据包括:用户ID、用户名、微博文本。
    所述处理模块用于对获取的图像进行去噪和增强预处理,为后期的处理和筛选做准备。具体而言,所述处理模块对所述获取的图像分别进行去噪处理及增强处理,以提高图像的识别度。
    所述预处理模块用于对获取的微博文本进行分析和预处理。具体而言,所述预处理模块对每条微博文本进行初始化处理,所述微博文本经过去除标点符号等特殊符号、去除非中文字符和分词操作后,得到所述微博文本的词项集合,并对该微博进行人工分类。
    所述提取模块用于对所述微博文本进行特征提取,即所述提取模块对所述微博文本的词项集合进行搜索遍历,去除停用词词项。
    所述计算模块用于对微博数据进行特征选择。具体而言,所述计算模块对原始特征词项集合中的每个词项做开发检验CHI值计算,所得出的最高值的N个词项作为特征词项集。其中,所述原始特征词项集合为所有微博文本的词项集合。所述特征词项集按照互信息值的高低排列,其中N为用户自定义,N小于总词项数目。
    所述计算模块计算得到所述开发检验CHI值具体如下:
    对于每个词分别计算得到:在这个分类下包含这个词的微博文本数量a;不在该分类下包含这个词的微博文本数量b;在这个分类下不包含这个词的微博文本数量c;不在该分类下,且不包含这个词的微博文本 数量d。
    z1=a*d-b*c。
    CHI=(z1*z1*float(N))/((a+c)*(a+b)*(b+d)*(c+d)。
    所述挖掘模块用于对所述N个词项进行关联规则挖掘。具体如下:
    所述挖掘模块首先遍历获取的微博数据中的每条微博,对每条微博的特征词项集进行二元组化,将每个二元组加入到MAP<(词项x,词项y),count>,count为该二元组出现的次数。
    而后选择特征过程中已经计算了每个词项出现的次数,设定支持度和置信度的阈值:过滤count小于微博数据的微博总数*已设定support的二元组;support(x=>y)=count/微博数据的微博总数;confidence(x=>y)=count/(a+b)。
    最后根据上述设定的支持度和置信度的阈值,取强关联规则。将微博文本中的特征词项的强关联词项加入到该微博的特征词项集中,以提高微博文本分类精度。
    虽然本发明参照当前的较佳实施方式进行了描述,但本领域的技术人员应能理解,上述较佳实施方式仅用来说明本发明,并非用来限定本发明的保护范围,任何在本发明的精神和原则范围之内,所做的任何修饰、等效替换、改进等,均应包含在本发明的权利保护范围之内。

    关 键  词:
    面向 文本 分类 挖掘 方法 系统
      专利查询网所有文档均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    0条评论

    还可以输入200字符

    暂无评论,赶快抢占沙发吧。

    关于本文
    本文标题:面向微博文本分类的挖掘方法及系统.pdf
    链接地址:https://www.zhuanlichaxun.net/p-6166174.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
    经营许可证编号:粤ICP备2021068784号-1