《面向微博文本分类的挖掘方法及系统.pdf》由会员分享,可在线阅读,更多相关《面向微博文本分类的挖掘方法及系统.pdf(9页完整版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 103593454 A (43)申请公布日 2014.02.19 CN 103593454 A (21)申请号 201310591482.8 (22)申请日 2013.11.21 G06F 17/30(2006.01) (71)申请人 中国科学院深圳先进技术研究院 地址 518055 广东省深圳市南山区西丽大学 城学苑大道 1068 号 (72)发明人 罗军 章昉 (74)专利代理机构 深圳市科进知识产权代理事 务所 ( 普通合伙 ) 44316 代理人 沈祖锋 郝明琴 (54) 发明名称 面向微博文本分类的挖掘方法及系统 (57) 摘要 本发明涉及一种面向微博文本分。
2、类的挖掘方 法, 包括如下步骤 : 获取现有的微博数据 ; 对获取 的微博文本进行分析和预处理 ; 对所述微博文本 的词项集合进行搜索遍历, 去除停用词词项 ; 对 原始特征词项集合中的每个词项做开发检验 CHI 值计算, 所得出的最高值的 N 个词项作为特征词 项集, 所述原始特征词项集合为所有微博文本的 词项集合 ; 对所述 N 个词项进行关联规则挖掘, 将 微博文本中的特征词项的强关联词项加入到该微 博的特征词项集中, 以提高微博文本分类精度。 本 发明还涉及一种面向微博文本分类的挖掘系统。 本发明能够有效地简化原始微博文本的关联规则 挖掘复杂度, 且所需要分析的数据量大大减少, 提 高。
3、了微博文本分类精度。 (51)Int.Cl. 权利要求书 2 页 说明书 4 页 附图 2 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书2页 说明书4页 附图2页 (10)申请公布号 CN 103593454 A CN 103593454 A 1/2 页 2 1. 一种面向微博文本分类的挖掘方法, 其特征在于, 该方法包括如下步骤 : a. 获取现有的微博数据 ; b. 对获取的微博文本进行分析和预处理 ; c. 对所述微博文本的词项集合进行搜索遍历, 去除停用词词项 ; d. 对原始特征词项集合中的每个词项做开发检验 CHI 值计算, 所得出的最高值的 N 个 。
4、词项作为特征词项集, 所述原始特征词项集合为所有微博文本的词项集合 ; e. 对所述 N 个词项进行关联规则挖掘, 将微博文本中的特征词项的强关联词项加入到 该微博的特征词项集中, 以提高微博文本分类精度。 2.如权利要求1所述的方法, 其特征在于, 所述的微博数据包括 : 用户ID、 用户名、 微博 文本。 3.如权利要求2所述的方法, 其特征在于, 所述的步骤b包括对所述微博文本去除标点 符号等特殊符号、 去除非中文字符和分词操作, 得到所述微博文本的词项集合, 并对该微博 进行人工分类。 4. 如权利要求 3 所述的方法, 其特征在于, 所述的所述特征词项集按照互信息值的高 低排列, 其。
5、中 N 为用户自定义, N 小于总词项数目。 5. 如权利要求 4 所述的方法, 其特征在于, 所述开发检验 CHI 值计算方法为 : 对于每个词分别计算得到 : 在这个分类下包含这个词的微博文本数量 a ; 不在该分类 下包含这个词的微博文本数量 b ; 在这个分类下不包含这个词的微博文本数量 c ; 不在该分 类下, 且不包含这个词的微博文本数量 d ; z1=a*d-b*c ; CHI=(z1*z1*float(N)/(a+c)*(a+b)*(b+d)*(c+d)。 6. 如权利要求 5 所述的方法, 其特征在于, 所述的步骤 e 包括 : 遍历获取的微博数据中的每条微博, 对每条微博的。
6、特征词项集进行二元组化 ; 设定支持度和置信度的阈值 ; 根据设定的支持度和置信度的阈值, 取强关联规则, 将微博文本中的特征词项的强关 联词项加入到该微博的特征词项集中。 7. 一种面向微博文本分类的挖掘系统, 其特征在于, 该系统包括相互电性连接的获取 模块、 预处理模块、 提取模块、 计算模块及挖掘模块, 其中 : 所述获取模块用于获取现有的微博数据 ; 所述预处理模块用于对获取的微博文本进行分析和预处理 ; 所述提取模块用于对所述微博文本的词项集合进行搜索遍历, 去除停用词词项 ; 所述计算模块用于对原始特征词项集合中的每个词项做开发检验 CHI 值计算, 所得 出的最高值的 N 个词。
7、项作为特征词项集, 所述原始特征词项集合为所有微博文本的词项集 合 ; 所述挖掘模块用于对所述 N 个词项进行关联规则挖掘, 将微博文本中的特征词项的强 关联词项加入到该微博的特征词项集中, 以提高微博文本分类精度。 8.如权利要求7所述的系统, 其特征在于, 所述的微博数据包括 : 用户ID、 用户名、 微博 文本。 9. 如权利要求 8 所述的系统, 其特征在于, 所述预处理模块用于对所述微博文本去除 权 利 要 求 书 CN 103593454 A 2 2/2 页 3 标点符号等特殊符号、 去除非中文字符和分词操作, 得到所述微博文本的词项集合。 10. 如权利要求 9 所述的系统, 其。
8、特征在于, 所述的所述特征词项集按照互信息值的高 低排列, 其中 N 为用户自定义, N 小于总词项数目。 权 利 要 求 书 CN 103593454 A 3 1/4 页 4 面向微博文本分类的挖掘方法及系统 技术领域 0001 本发明涉及一种面向微博文本分类的挖掘方法及系统。 背景技术 0002 微博, 已经成为人们进行社交的一种重要平台与媒介之一, 中国有超过 4 亿的微 博用户, 而 Twitter 用户更是超过 5 亿, 信息日发送量则超过 2 亿, 成为仅次于 Facebook 的 第二大社交网站。近年来, 微博成为无数热门话题与潮流的发源地。随着新浪微博、 腾讯微 博等社交网站在。
9、国内的流行, 微博等社会化媒体不仅成为了网民发布、 共享、 传播信息的平 台, 而且积累了大规模网民的行为数据。2012 年 5 月, 新浪微博事业部副总经理芦义指出, 新浪微博注册用户已超过3亿, 其中有60%的活跃用户通过移动终端登录, 用户平均每天发 布超过 1 亿条微博内容。可见微博的数据量越来越大, 因而对微博数据的挖掘具有可行性、 创新性以及实用性, 并受到国内外学术界的广泛关注。 0003 在微博文本分类中, 关联规则能够有效的提高分类的精度。其中, 关联规则在数 据集中的支持度 (support) 是数据集中事物同时包含 X 项、 Y 项的百分比, 即概率 ; 置信度 (con。
10、fidence)是数据集中事物已经包含X项的情况下, 包含Y项的百分比, 即条件概率。 如 果满足最小支持度阈值和最小置信度阈值。这些阈值是根据挖掘需要人为设定。 0004 现有的关联规则算法主要有两类 : Apriori 算法和 FP- 树频集算法。 0005 Apriori 算法 : 首先找出所有的频集, 这些项集出现的频繁性至少和预定义的最 小支持度一样。 然后由频集产生强关联规则, 这些规则必须满足最小支持度和最小可信度。 然后使用找到的频集产生期望的规则, 产生只包含集合的项的所有规则, 其中每一条规则 的右部只有一项。一旦生成这些规则, 只有那些大于用户给定的最小可信度的规则才被留。
11、 下来, 使用递推的方法生成所有频集。 0006 FP- 树频集算法 : 采用分而治之的策略, 在经过第一遍扫描之后, 把数据库中的频 集压缩进一棵频繁模式树 (FP-tree) , 同时依然保留其中的关联信息, 随后再将 FP-tree 分 化成一些条件库, 每个库和一个长度为 1 的频集相关, 然后再对这些条件库分别进行挖掘。 当原始数据量很大的时候, 也可以结合划分的方法, 使得一个 FP-tree 可以放入主存中。实 验表明, FP-growth 对不同长度的规则都有很好的适应性, 同时在效率上较之 Apriori 算法 有巨大的提高。 0007 然而, 对于微博这样的短文本而言, A。
12、priori 算法产生大量的候选集, 以及可能需 要重复扫描数据库, 大大增加了挖掘复杂度和挖掘时间。 FP-树频集算法虽然可以有效提高 效率, 但是对于短文本而言, 效率依然不高。 发明内容 0008 有鉴于此, 有必要提供一种面向微博文本分类的挖掘方法及系统。 0009 本发明提供一种面向微博文本分类的挖掘方法, 该方法包括如下步骤 : a. 获取现 有的微博数据 ; b. 对获取的微博文本进行分析和预处理 ; c. 对所述微博文本的词项集合进 说 明 书 CN 103593454 A 4 2/4 页 5 行搜索遍历, 去除停用词词项 ; d. 对原始特征词项集合中的每个词项做开发检验 C。
13、HI 值计 算, 所得出的最高值的 N 个词项作为特征词项集, 所述原始特征词项集合为所有微博文本 的词项集合 ; e. 对所述 N 个词项进行关联规则挖掘, 将微博文本中的特征词项的强关联词 项加入到该微博的特征词项集中, 以提高微博文本分类精度。 0010 其中, 所述的微博数据包括 : 用户 ID、 用户名、 微博文本。 0011 所述的步骤 b 包括对所述微博文本去除标点符号等特殊符号、 去除非中文字符和 分词操作, 得到所述微博文本的词项集合, 并对该微博进行人工分类。 0012 所述的所述特征词项集按照互信息值的高低排列, 其中 N 为用户自定义, N 小于总 词项数目。 0013。
14、 所述开发检验 CHI 值计算方法为 : 对于每个词分别计算得到 : 在这个分类下包 含这个词的微博文本数量 a ; 不在该分类下包含这个词的微博文本数量 b ; 在这个分类 下不包含这个词的微博文本数量 c ; 不在该分类下, 且不包含这个词的微博文本数量 d ; z1=a*d-b*c ; CHI=(z1*z1*float(N)/(a+c)*(a+b)*(b+d)*(c+d)。 0014 所述的步骤 e 包括 : 遍历获取的微博数据中的每条微博, 对每条微博的特征词项 集进行二元组化 ; 设定支持度和置信度的阈值 ; 根据设定的支持度和置信度的阈值, 取强 关联规则, 将微博文本中的特征词项。
15、的强关联词项加入到该微博的特征词项集中。 0015 本发明还提供一种面向微博文本分类的挖掘系统, 包括相互电性连接的获取模 块、 预处理模块、 提取模块、 计算模块及挖掘模块, 其中 : 所述获取模块用于获取现有的微博 数据 ; 所述预处理模块用于对获取的微博文本进行分析和预处理 ; 所述提取模块用于对所 述微博文本的词项集合进行搜索遍历, 去除停用词词项 ; 所述计算模块用于对原始特征词 项集合中的每个词项做开发检验CHI值计算, 所得出的最高值的N个词项作为特征词项集, 所述原始特征词项集合为所有微博文本的词项集合 ; 所述挖掘模块用于对所述 N 个词项进 行关联规则挖掘, 将微博文本中的。
16、特征词项的强关联词项加入到该微博的特征词项集中, 以提高微博文本分类精度。 0016 其中, 所述的微博数据包括 : 用户 ID、 用户名、 微博文本。 0017 所述预处理模块用于对所述微博文本去除标点符号等特殊符号、 去除非中文字符 和分词操作, 得到所述微博文本的词项集合。 0018 所述的所述特征词项集按照互信息值的高低排列, 其中 N 为用户自定义, N 小于总 词项数目。 0019 本发明面向微博文本分类的挖掘方法及系统, 综合考虑了微博的文本结构, 针对 微博文本短文本的特性和微博文本关联规则的必要性, 提出了一种简单有效的针对微博文 本分类的关联规则挖掘方法, 与先前关联规则挖。
17、掘方法相比, 本发明的时间复杂度大大降 低, 需要分析的数据量大大减少, 微博文本分类精度得到显著提高。 附图说明 0020 图 1 为本发明面向微博文本分类的挖掘方法的流程图 ; 0021 图 2 为本发明面向微博文本分类的挖掘系统的硬件架构图。 具体实施方式 说 明 书 CN 103593454 A 5 3/4 页 6 0022 下面结合附图及具体实施例对本发明作进一步详细的说明。 0023 参阅图 1 所示, 是本发明面向微博文本分类的挖掘方法较佳实施例的作业流程 图。 0024 步骤S401, 获取现有的微博数据。 具体而言, 获取微博网站上现有的数据。 受限于 分析技术, 本实施例仅。
18、获取内容为中文的微博数据。所述微博数据包括 : 用户 ID、 用户名、 微博文本。 0025 步骤S402, 对获取的微博文本进行分析和预处理。 具体而言, 对每条微博文本进行 初始化处理, 所述微博文本经过去除标点符号等特殊符号、 去除非中文字符和分词操作后, 得到所述微博文本的词项集合, 并对该微博进行人工分类。 0026 步骤 S403, 对所述微博文本进行特征提取, 即对所述微博文本的词项集合进行搜 索遍历, 去除停用词词项。 0027 步骤S404, 对微博数据进行特征选择。 具体而言, 对原始特征词项集合中的每个词 项做开发检验 CHI 值计算, 所得出的最高值的 N 个词项作为特。
19、征词项集。其中, 所述原始特 征词项集合为所有微博文本的词项集合。所述特征词项集按照互信息值的高低排列, 其中 N 为用户自定义, N 小于总词项数目。 0028 所述开发检验 CHI 值计算方法如下 : 0029 对于每个词分别计算得到 : 在这个分类下包含这个词的微博文本数量 a ; 不在该 分类下包含这个词的微博文本数量 b ; 在这个分类下不包含这个词的微博文本数量 c ; 不在 该分类下, 且不包含这个词的微博文本数量 d。 0030 z1=a*d-b*c。 0031 CHI=(z1*z1*float(N)/(a+c)*(a+b)*(b+d)*(c+d)。 0032 步骤 S405,。
20、 对所述 N 个词项进行关联规则挖掘。具体步骤如下 : 0033 1. 遍历获取的微博数据中的每条微博, 对每条微博的特征词项集进行二元组化, 将每个二元组加入到 MAP, count 为该二元组出现的次数。 0034 2. 选择特征过程中已经计算了每个词项出现的次数, 设定支持度和置信度的阈 值。 0035 21. 过滤 count 小于微博数据的微博总数 * 已设定 support 的二元组 ; 0036 22.support(x=y)=count/ 微博数据的微博总数 ; 0037 23.confidence(x=y)=count/(a+b)。 0038 3. 根据上述设定的支持度和置信。
21、度的阈值, 取强关联规则。将微博文本中的特征 词项的强关联词项加入到该微博的特征词项集中, 以提高微博文本分类精度。 0039 参阅图 2 所示, 是本发明面向微博文本分类的挖掘系统的硬件架构图。该系统包 括相互电性连接的获取模块、 预处理模块、 提取模块、 计算模块及挖掘模块。 0040 所述获取模块用于获取现有的微博数据。具体而言, 所述获取模块获取微博网站 上现有的数据。受限于分析技术, 本实施例仅获取内容为中文的微博数据。所述微博数据 包括 : 用户 ID、 用户名、 微博文本。 0041 所述处理模块用于对获取的图像进行去噪和增强预处理, 为后期的处理和筛选做 准备。 具体而言, 所。
22、述处理模块对所述获取的图像分别进行去噪处理及增强处理, 以提高图 像的识别度。 说 明 书 CN 103593454 A 6 4/4 页 7 0042 所述预处理模块用于对获取的微博文本进行分析和预处理。具体而言, 所述预处 理模块对每条微博文本进行初始化处理, 所述微博文本经过去除标点符号等特殊符号、 去 除非中文字符和分词操作后, 得到所述微博文本的词项集合, 并对该微博进行人工分类。 0043 所述提取模块用于对所述微博文本进行特征提取, 即所述提取模块对所述微博文 本的词项集合进行搜索遍历, 去除停用词词项。 0044 所述计算模块用于对微博数据进行特征选择。具体而言, 所述计算模块对。
23、原始特 征词项集合中的每个词项做开发检验 CHI 值计算, 所得出的最高值的 N 个词项作为特征词 项集。其中, 所述原始特征词项集合为所有微博文本的词项集合。所述特征词项集按照互 信息值的高低排列, 其中 N 为用户自定义, N 小于总词项数目。 0045 所述计算模块计算得到所述开发检验 CHI 值具体如下 : 0046 对于每个词分别计算得到 : 在这个分类下包含这个词的微博文本数量 a ; 不在该 分类下包含这个词的微博文本数量 b ; 在这个分类下不包含这个词的微博文本数量 c ; 不在 该分类下, 且不包含这个词的微博文本数量 d。 0047 z1=a*d-b*c。 0048 CH。
24、I=(z1*z1*float(N)/(a+c)*(a+b)*(b+d)*(c+d)。 0049 所述挖掘模块用于对所述 N 个词项进行关联规则挖掘。具体如下 : 0050 所述挖掘模块首先遍历获取的微博数据中的每条微博, 对每条微博的特征词项集 进行二元组化, 将每个二元组加入到 MAP, count 为该二元组出现 的次数。 0051 而后选择特征过程中已经计算了每个词项出现的次数, 设定支持度和置 信 度 的 阈 值 : 过 滤 count 小 于 微 博 数 据 的 微 博 总 数 * 已 设 定 support 的 二 元 组 ; support(x=y)=count/ 微博数据的微博。
25、总数 ; confidence(x=y)=count/(a+b)。 0052 最后根据上述设定的支持度和置信度的阈值, 取强关联规则。将微博文本中的特 征词项的强关联词项加入到该微博的特征词项集中, 以提高微博文本分类精度。 0053 虽然本发明参照当前的较佳实施方式进行了描述, 但本领域的技术人员应能理 解, 上述较佳实施方式仅用来说明本发明, 并非用来限定本发明的保护范围, 任何在本发明 的精神和原则范围之内, 所做的任何修饰、 等效替换、 改进等, 均应包含在本发明的权利保 护范围之内。 说 明 书 CN 103593454 A 7 1/2 页 8 图 1 说 明 书 附 图 CN 103593454 A 8 2/2 页 9 图 2 说 明 书 附 图 CN 103593454 A 9 。