1、(10)申请公布号 CN 104346459 A (43)申请公布日 2015.02.11 CN 104346459 A (21)申请号 201410629761.3 (22)申请日 2014.11.10 G06F 17/30(2006.01) (71)申请人 南京信息工程大学 地址 210044 江苏省南京市宁六路 219 号 (72)发明人 马廷淮 金传鑫 侯荣涛 田伟 薛羽 (74)专利代理机构 南京众联专利代理有限公司 32206 代理人 顾进 叶涓涓 (54) 发明名称 一种基于术语频率和卡方统计的文本分类特 征选择方法 (57) 摘要 本发明提供一种基于术语频率和卡方统计的 文本分
2、类特征选择方法, 包括如下步骤 : 对数据 集预处理 ; 把每一个数据对象转换为特征空间的 向量 ; 分别计算每个术语在每个文本分类中的最 大术语频率和平均术语频率 ; 根据平均术语频率 计算术语在每个类中的分布差异度 ; 将每个术语 的最大术语频率和分布差异度与传统的卡方统 计公式相结合, 计算每个术语在每个类中的权重, 并取最大值为术语权重 ; 将每个术语权重降序排 序, 选出权重值最大的前N个术语作为特征。 本发 明通过对传统的卡方统计进行改进, 使在某类出 现频率较高的或类内分布均匀的特征项对类别区 分的贡献度得到体现, 并修正了传统卡方统计方 法偏向于低频词的不足。 (51)Int.
3、Cl. 权利要求书 2 页 说明书 5 页 附图 2 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书2页 说明书5页 附图2页 (10)申请公布号 CN 104346459 A CN 104346459 A 1/2 页 2 1. 一种基于术语频率和卡方统计的文本分类特征选择方法, 其特征在于, 包括如下步 骤 : 步骤 (1), 对语料库数据集进行预处理 ; 步骤 (2), 对经过步骤 (1) 处理得到的数据集中的对象根据向量空间模型均表示为向 量形式, 得到数据对象向量集合 D d1,d2,.dN, 类标签集合 C c1,c2,.c|C|, dj表 示语料库数据集
4、中的一个文档 (1 j N), ck表示语料库数据集中的一个类 ; 步骤 (3), 计算术语 ti在文本分类 ck中的最大术语频率和平均术语频率; 步骤 (4), 通过下式计算术语 ti在 ck类中的分布差异度 : 其中, 表示一个很小的实数 ; 步骤 (5), 利用步骤 (3) 和步骤 (4) 得到的最大术语频率及分布差异度, 通过下式计算 该术语 ti在 ck类中的权重 : 其中, 步骤 (6), 计算得到该术语 ti在每个类中的权重, 通过下式取权重最大值为术语 ti在 语料库数据集中的权重 : 步骤 (7), 计算得到每一个术语在语料库数据集中的权重, 并降序排列, 选出值最大的 前
5、N 个术语作为特征。 2. 根据权利要求 1 所述的基于术语频率和卡方统计的文本分类特征选择方法, 其特征 在于 : 所述步骤 (1) 对语料库数据集进行预处理时包括去停用词、 中文分词步骤。 3. 根据权利要求 2 所述的基于术语频率和卡方统计的文本分类特征选择方法, 其特征 在于 : 所述去停用词步骤采用由百度停用词列表、 哈工大停用词表和四川大学机器智能实 验室停用词库 3 个词库结合得到的停用表进行去停用词操作。 4. 根据权利要求 2 所述的基于术语频率和卡方统计的文本分类特征选择方法, 其 特征在于 : 所述中文分词步骤采用中国科学院计算技术研究所研制的汉语词法分析系统 ICTCL
6、AS 进行中文分词操作。 5.根据权利要求13中任意一项所述的于术语频率和卡方统计的文本分类特征选择 方法, 其特征在于, 所述术语频率和平均术语频率通过下式计算 : 权 利 要 求 书 CN 104346459 A 2 2/2 页 3 其中, tfij为术语 ti在属于 ck类的各个文档 dj中的术语频率。 权 利 要 求 书 CN 104346459 A 3 1/5 页 4 一种基于术语频率和卡方统计的文本分类特征选择方法 技术领域 0001 本发明属于文本挖掘与信息检索领域, 具体涉及的是一种基于术语频率和卡方统 计的文本分类特征选择方法。 背景技术 0002 文本分类 (Text Cl
7、assifi cation 或 Text Categorization) 是预先设定的类别集 合, 根据文本内容确定文本所属类型。 在文本分类中, 通常用向量空间模型作为文本的表示 模型, 该模型是应用效果最好的文本表示模型之一 ; 文本中的词或词组作为特征, 但是在大 量的特征中, 存在很多冗余特征和噪声特征, 而庞大的特征空间维数会降低分类器的性能 和泛化能力, 产生 “过学习” 现象。同时, 处理高维向量需要极高的时间复杂度, 进而会产生 “维数灾难” 。因此, 我们需要通过特征降维, 来提高分类器的效率和精度, 特征降维分为特 征选择和特征提取。 0003 特征选择是目前最常用的降维方
8、法, 其本质是从一个高维空间根据某种准则变换 到一个较低维的空间, 并且使得该低维空间有比较好的类别可分性, 从而提高分类器的分 类效率和精度。比较常用的特征选择方法主要有文档频率 (document frequency, DF)、 互 信息 (mutual information, MI)、 期望交叉熵 (expected cross entropy, ECE)、 卡方统计 (Chi-square statistic, CHI)、 信息增益 (information gain, IG) 等 ; 近年来国内外学者 还提出了其他的特征选择方法, 例如, 张玉芳等人提出了综合比率 (CR) 方法,
9、 通过把数据 集分成正类和负类, 综合考虑特征项在正类和负类中的分布, 结合四种衡量特征类别区分 能力的指标, 构造了 CR 特征选择方法来选择特征 ; 冯霞等人提出了基于假设检验的选择方 法, 利用特征与文档类在 term-category 四格表中相互独立与互不相关等价的性质来选择 特征。美国卡内基梅隆大学的 Yang 教授针对文本分类问题, 在分析比较了 DF、 MI、 IG、 CHI 等方法后, 得出 IG 和 CHI 方法分类效果相对较好的结论, 并且, CHI 和 IG 在多次的实验中 表现出了良好的准确性。但是上述这些特征选择方法都具有缺陷, 比如卡方统计方法对低 频词的倚重大,
10、 不能很好地过滤低频词中的噪音词。 发明内容 0004 我们通过分析发现, 现有卡方统计方法只考虑了特征词的文档频率, 并没有考虑 特征的术语词频, 所以夸大了低频术语的作用。例如传统卡方统计方法只统计文档中是否 出现术语 t, 并没有考虑术语 t 在文档中出现的次数, 致使传统方法更倾向于选择文档频率 高的特征, 忽略了文档频率较低但是词频较高的词汇的贡献度, 此外, 传统卡方统计方法没 有考虑术语的分布差异度的问题。基于上述问题, 本发明公开了一种基于术语频率和卡方 统计的文本分类特征选择方法, 利用最大术语频率来修正传统卡方统计方法对术语频率低 但文档频率高的术语的偏袒 ; 同时利用平均
11、术语频率和统计学上的标准方差的方法, 来修 正传统卡方统计方法未考虑分布差异度的缺陷。 0005 为了达到上述目的, 本发明提供如下技术方案 : 说 明 书 CN 104346459 A 4 2/5 页 5 0006 一种基于术语频率和卡方统计的文本分类特征选择方法, 包括如下步骤 : 0007 步骤 (1), 对语料库数据集进行预处理 ; 0008 步骤 (2), 对经过步骤 (1) 处理得到的数据集中的对象根据向量空间模型均表示 为向量形式, 得到数据对象向量集合 D d1,d2,.dN, 类标签集合 C c1,c2,.c|C|, dj表示语料库数据集中的一个文档 (1 j N), ck表
12、示语料库数据集中的一个类 ; 0009 步骤 (3), 计算术语 ti在文本分类 ck中的最大术语频率和平均术语频率 0010 步骤 (4), 通过下式计算术语 ti在 ck类中的分布差异度 : 0011 0012 其中, 表示一个很小的实数 ; 0013 步骤 (5), 利用步骤 (3) 和步骤 (4) 得到的最大术语频率及分布差异度, 通过下式 计算该术语 ti在 ck类中的权重 : 0014 0015 其中, 0016 0017 步骤 (6), 计算得到该术语 ti在每个类中的权重, 通过下式得到术语 ti在语料库 数据集中的权重 : 0018 0019 步骤 (7), 计算得到每一个术
13、语在语料库数据集中的权重, 并降序排列, 选出值最 大的前 N 个术语作为特征。 0020 进一步的, 所述步骤 (1) 对语料库数据集进行预处理时包括去停用词、 中文分词 步骤。 0021 进一步的, 所述去停用词步骤采用由百度停用词列表、 哈工大停用词表和四川大 学机器智能实验室停用词库 3 个词库结合得到的停用表进行去停用词操作。 0022 进一步的, 所述中文分词步骤采用中国科学院计算技术研究所研制的汉语词法分 析系统 ICTCLAS 进行中文分词操作。 0023 进一步的, 所述术语频率和平均术语频率通过下式计算 : 0024 说 明 书 CN 104346459 A 5 3/5 页
14、 6 0025 0026 其中, tfij为术语 ti在属于 ck类的各个文档 dj中的术语频率。 0027 与现有技术相比, 本发明具有如下优点和有益效果 : 0028 本发明在传统的卡方统计方法中加入术语频率, 修正了传统卡方统计方法偏向于 低频词的不足 ; 并进一步引入分布差异度, 使在文本集合中分布均匀的特征词对类别的表 征能力和类别区分的贡献度较大这一特点得到体现, 相对于传统卡方统计方法, 本发明能 够提高文本分类的精度, 改善分类效果。 附图说明 0029 图 1 为本发明步骤流程示意图 ; 0030 图 2 为图 1 中步骤 30 的具体步骤流程示意图。 具体实施方式 0031
15、 以下将结合具体实施例对本发明提供的技术方案进行详细说明, 应理解下述具体 实施方式仅用于说明本发明而不用于限制本发明的范围。 0032 本方法步骤流程图如图 1 所示, 具体包括如下步骤 : 0033 步骤 10, 对语料库数据集进行预处理, 预处理包括去停用词、 中文分词等步骤。本 例中首先采用中国科学院计算技术研究所研制的汉语词法分析系统 ICTCLAS 对中文文本 进行分词 ; 接着采用由百度停用词列表、 哈工大停用词表和四川大学机器智能实验室停用 词库 3 个词库结合得到的停用词表将没用的词语去掉。 0034 步骤 20, 对于经过步骤 10 得到的数据集中的对象根据向量空间模型均表
16、示为向 量形式, 得到数据文本对象向量集合 D d1,d2,.dN, dj w1,w2,.w|T|, 类标签集合 C c1,c2,.c|C|, 其中, dj表示语料库数据集中的一个文档 (1 j N),Wi表示文档中 一个术语的权重 (1 i |T|), 每个文档 dj包括有多个 ti, ti表示语料库数据集中的一个 术语 (1 i |T|), Ck表示语料库数据集中的一个类 (1 k |C|), N 表示语料库数据 集中文档的数量, |T| 表示语料库数据集中术语的数量, |C| 表示语料库数据集中类别的数 量。 0035 步骤 30, 计算集合 D 中一个术语 ti在某一文本分类 ck中的
17、最大术语频率 和平均术语频率其中, Nk表示 ck类中文档的数量, tfij表示术语 ti在文档 dj中的术语 频率。如图 2 所示, 具体的计算流程包括下述步骤 : 0036 步骤301, 根据得到的数据对象向量集合Dd1,d2,.dN, 判断包含术语ti的文 档 dj是否属于 ck类。 0037 步骤 302, 若文档 dj属于 ck类, 则计算术语 ti在文档 dj中的术语频率 tfij 0038 步骤 303, 遍历完属于 ck类的所有文档后, 计算最大术语频率和平均术语 说 明 书 CN 104346459 A 6 4/5 页 7 频率计算公式如下 : 0039 0040 0041
18、步骤 40, 利用步骤 30 得到的平均术语频率计算术语 ti在 ck类中的分布差异 度 V(ti, ck)。步骤 30 中已得到 ck类中所有包含术语 ti的文档的术语频率, 以及术语 ti在 ck类中的平均术语频率这里我们采用样本方差来计算术语 ti在 ck类中的分布差异度, 计算公式如下 : 0042 0043 其中, 表示一个很小的实数 ( 本例中取 0.0001) 0044 步骤 50, 利用步骤 30 和步骤 40 得到的最大术语频率及分布差异度 V(ti, ck), 计算术语 ti在 ck类中的权重 ICHI(ti, ck), 计算公式如下 : 0045 0046 其中,可以对最
19、大术语频率起平滑作用, 可以在一定的程度上抑 制一些特别高的高频词。x2(ti, ck) 公式如下 : 0047 0048 其中, N 表示语料库数据集中文档的数量 ; A 表示包含术语 ti并且属于 Ck类的文 档数量 ; B 表示包含术语 ti但不属于 ck类的文档数量 ; C 表示不包含术语 ti但属于 ck类的 文档数量 ; D 表示不包含术语 ti并且不属于 ck类的文档数量。 0049 步骤 60, 判断类标签集合 C c1,c2,.c|C| 是否为空, 若不为空, 则继续计算术 语ti在集合C中的剩下的类中的最大术语频率平均术语频率分布差异度V(ti, ck) 以及权重 ICHI
20、(ti, ck) ; 若为空, 则取权重最大值表示术语 ti在语料库数据集中的权重, 计算公式如下 : 0050 0051 步骤 70, 判断数据文本对象向量集合 D d1,d2,.dN 是否为空, 若不为空 , 则 按步骤30到步骤60, 继续计算集合D中剩下的每个术语的权重 ; 若为空, 则将集合D中所有 术语按权重值由大到小降序排列, 选出值最大的前 N 个术语作为特征, N 值根据需求选取, 如 100,200,500,2000,3000,5000,10000 等等, N 越大, 精度越高, 但是效率越低。 说 明 书 CN 104346459 A 7 5/5 页 8 0052 我们将
21、本发明提供的特征选择方法和现有的其他特征选择方法应用在同样的环 境下进行比对, 分类器是 KNN, 数据集是 Reuters-21578, 我们通常用 F1 值来综合衡量这些 方法的精确度和召回率, F1值按照计算方法的不同又可以分为Micro-F1值和Macro-F1值。 本例中我们以 Micro-F1 值作为各方法的评判标准, Micro-F1 值是假设每个文本具有相同 权重, 求整个样本集的准确率和召回率, 然后求平均, 我们得到各方法的 Micro-F1 值结果 如表 1 所示 : 0053 0054 表 1 0055 其中, TFSV-CHI为本发明方法, X2是原始卡方方法, CE
22、是期望交叉熵方法, DF是文 档频率方法, IG是信息增益方法, MI是互信息方法, 以能在N值越小的情况下达到Micro-F1 值越高为最佳。很明显, 在 N 3000 时, 与其他方法比较, 经本发明方法得到的 Micro-F1 值最高, 这表明采用本发明方法进行文本分类的精度最高, 分类效果最好。 0056 本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段, 还包括 由以上技术特征任意组合所组成的技术方案。应当指出, 对于本技术领域的普通技术人员 来说, 在不脱离本发明原理的前提下, 还可以做出若干改进和润饰, 这些改进和润饰也视为 本发明的保护范围。 说 明 书 CN 104346459 A 8 1/2 页 9 图 1 说 明 书 附 图 CN 104346459 A 9 2/2 页 10 图 2 说 明 书 附 图 CN 104346459 A 10