书签分享收藏举报版权申诉 / 7

立即下载加入VIP,免费下载

当前位置：首页 > 物理 > 计算；推算；计数 > 一种基于指导的文本特征加权方法.pdf

一种基于指导的文本特征加权方法.pdf

上传人：g****

文档编号：4059772

上传时间：2018-08-13

格式：PDF

页数：7

大小：329.85KB

《一种基于指导的文本特征加权方法.pdf》由会员分享，可在线阅读，更多相关《一种基于指导的文本特征加权方法.pdf（7页完整版）》请在专利查询网上搜索。

1、(10)申请公布号 CN 102662976 A(43)申请公布日 2012.09.12CN102662976A*CN102662976A*(21)申请号 201210063879.5(22)申请日 2012.03.12G06F 17/30(2006.01)(71)申请人浙江工业大学地址 310014 浙江省杭州市下城区朝晖六区(72)发明人刘端阳陆洋(74)专利代理机构杭州天正专利事务所有限公司 33201代理人王兵王利强(54) 发明名称一种基于指导的文本特征加权方法(57) 摘要一种基于指导的文本特征加权方法，进行文本特征提取后得到a，b，c，d四类文档数，分别代表如下：a表示含词项。

2、t且属于正例的文档数；b表示不含词项t但属于正例的文档数；c表示含词项t但不属于正例的文档数；d表示不含词项t且不属于正例的文档数；a，b，c，d的总和为N，即总文档数；所述文本特征加权公式(1)。本发明提出的一种基于指导的文本特征加权方法tf.ridf，实现了词在总体文档及各类别文档之间的综合考虑，该方法有效地提高了分类性能。(51)Int.Cl.权利要求书1页说明书4页附图1页(19)中华人民共和国国家知识产权局(12)发明专利申请权利要求书 1 页说明书 4 页附图 1 页1/1页21.一种基于指导的文本特征加权方法，其特征在于：进行文本特征提取后得到a，b，c，d四类文档数，分。

3、别代表如下：a表示含词项t且属于正例的文档数；b表示不含词项t但属于正例的文档数；c表示含词项t但不属于正例的文档数；d表示不含词项t且不属于正例的文档数；a，b，c，d的总和为N，即总文档数；所述文本特征加权公式如下：其中K表示为：其中，ridf为相关反文档频率加权方法，与词频结合进行特征加权，该公式表示了一个文本在总体文本之间以及各个类别文本之间的重要程度。权利要求书CN 102662976 A1/4页3一种基于指导的文本特征加权方法技术领域0001 本发明涉及文本分类方法，尤其是一种文本特征加权方法。背景技术0002 随着互联网应用的普及，网络中已存储了海量的文本信息，人们迫切地。

4、需要从文本中挖掘出有用的信息。文本挖掘就是指从大量文本数据中抽取事先未知的、可理解的、最终可用的信息或知识的过程。文本分类是在给定的类别体系下，根据文本内容自动确定所属类别的过程。文本分类中一个重要组成部分是文本表示，文本表示中最常用的是向量空间模型(Vector Space Model，VSM)，VSM是文本表示的一个统计模型，它把文档看成是由特征向量组成的，而每个特征向量可以是词也可以是短语，并且每个特征向量都含有权重，从而将文本的分类问题转化为向量空间中的向量匹配问题进行处理。转化为特征向量后，便可以使用常用的分类算法进行文本分类，如支持向量机、K近邻等。0003 文本表示中的一个重要。

5、问题就是选择哪些特征向量能最好的来代表文本，并且要去除那些没有代表价值的特征向量。通常文本分类的一般过程为：分词、去停用词、索引、统计、特征提取、特征加权、分类训练以及评估。0004 其中文本特征加权是整个处理过程中比较重要的一环。基于统计的文本特征加权，主要分为两大类：即有指导的特征加权方法(supervised term weighting method)和无指导的特征加权方法(unsupervised term weighting method)。现在比较普遍使用的是词频反文档频率加权方法(term frequency and inverse document frequency，tf.。

6、idf)，它属于无指导的特征加权方法。0005 目前，国内外都提出了不少关于特征加权的改进方法，包括有指导的和无指导的特征加权方法。薛小兵将文本词的分布密集性，文本长度以及词第一次出现的位置作为特征加权的主要考虑因素。然而无指导的特征加权方法并没有考虑特征在训练集各文档以及各类别中分布比例上的差异对分类的影响。相反有指导的特征加权方法正是考虑到了这一点。李凯齐首先指出了tf.idf方法的不足，在基于有指导的方法基础上，将信息增益结合tf.idf来改进文本特征加权。Man Lan则考虑了词在正类和反类中的比例关系，认为只要正类比反类占的比例越高，该词就越能代表正类，就具有越高的权值。发明内容00。

7、06 为了克服现有文本特征加权方法的分类性能较差的不足，本发明提供一种提升分类性能的基于指导的文本特征加权方法0007 为了解决上述技术问题采用的技术手段为：0008 一种基于指导的文本特征加权方法，进行文本特征提取后得到a，b，c，d四类文档数，分别代表如下：0009 a表示含词项t且属于正例的文档数；0010 b表示不含词项t但属于正例的文档数；说明书CN 102662976 A2/4页40011 c表示含词项t但不属于正例的文档数；0012 d表示不含词项t且不属于正例的文档数。0013 a，b，c，d的总和为N，即总文档数；0014 所述文本特征加权公式如下：0015 0016 其。

8、中K表示为：0017 0018 其中，ridf为相关反文档频率加权方法，与词频结合进行特征加权，该公式表示了一个文本在总体以及类别之间的重要程度。0019 本发明的技术构思为：传统的特征加权方法如下：0020 0021 其中tf(t，d)为特征词项t在文档d中的频率，tf值越高该词越能代表文档，tf体现了词在文档中的关系。idf中的n为含有特征词项t的文档数，N是总文档数。idf认为出现某词的文档数占总文档数的比例越低，该词越能代表这个类的文档，即该词区别类的能力越强，idf则体现了词在文档间的关系。虽然tfidf公式看似简单，但相比其它复杂的文本分类方法(如基于语义的文本分类)在某些场合却常。

9、常有最佳的表现能力。0022 然而该公式也存在不足之处，在如图1表示的六种文档分布图中，我们可以知道：0023 a表示含词项t且属于正例的文档数；0024 b表示不含词项t但属于正例的文档数；0025 c表示含词项t但不属于正例的文档数；0026 d表示不含词项t且不属于正例的文档数。0027 a，b，c，d的总和为N，即总文档数。0028 在T1-T3这三种情况中，idf会赋予相同的权值。然后明显的，T1的分类贡献能力应该是最大的。0029 为了克服传统无指导的特征加权方法的不足，国内外学者都提出了不少新的有指导的加权方法，如薛小兵提出的：0030 0031 用rf公式来替代idf，其基本思。

10、想是：a占的比例比c占的比例越大，该词越有能力区别正例和反例，那么就应该具有越高的权重；并且当ac时，不论a和c的数量多大，该词区别正反类的能力永远是相等的。0032 然而该式又抛弃了原有idf的思想，即出现某词的文档数占总文档数的比例越低，该词就越有价值代表这个类的文档。如T5和T6这两种情况，明显的，T6的词过于泛滥，说明书CN 102662976 A3/4页5其代表能力不如T5的这种情况。0033 根据上述分析，确定本发明的设计目标：(1)考虑词在各个类别的比例关系，即利用有指导的方法，充分利用带有类标签的训练数据。(2)保留传统特征加权的优点，考虑词在总体文档中分布的情况。0034。

11、基于以上两个目标，基本设计原理如下：0035 0036 其中k值为：0037 0038 用ridf来替代idf，其优点如下：0039 1.当a不等于c的情况下，ridf即要考虑N/(a+c)的因素，同时还要考虑a/max(1，c)的因素，可以说这时候即考虑了词在类别中的关系，也考虑了词在总体文档之间的关系。0040 2.当ac的情况下，K值的大小不能影响最终的ridf值，符合以上的思想。附图说明0041 图1是六种文档分布图。具体实施方式0042 下面结合附图对本发明做进一步说明。0043 参照图1，一种基于指导的文本特征加权方法，进行文本特征提取后得到a，b，c，d四类文档数，分别代表如下。

12、：0044 a表示含词项t且属于正例的文档数；0045 b表示不含词项t但属于正例的文档数；0046 c表示含词项t但不属于正例的文档数；0047 d表示不含词项t且不属于正例的文档数。0048 a，b，c，d的总和为N，即总文档数；0049 所述文本特征加权公式如下：0050 0051 其中K表示为：0052 说明书CN 102662976 A4/4页60053 其中，ridf为相关反文档频率加权方法，与词频结合进行特征加权，该公式表示了一个文本在总体以及类别之间的重要程度。0054 本实施例中，语料库来自复旦大学计算机信息与技术系国际数据库中心自然语言处理小组提供的含有20个类别的中文。

13、语料库，分词系统采用中国科学院计算技术研究所研制的汉语词法分析系统ICTCLAS，分类器采用的是台湾大学林智仁教授等人开发的Libsvm。0055 1.首先对原始语料库进行中文分词以及词性标记。0056 2.进行特征提取，包括去除低频词；去除不必要的词性，保留名词、动词和形容词；采用特征提取公式为每个词计算权值，预设一个阀值，删去低于阀值的特征词。0057 3.采用本发明设计的加权公式进行特征加权，并设置对比数据集，其他处理方法相同，加权公式采用tf.idf和tf.rf。0058 4.使用Libsvm训练数据，采用线性核函数，并采用查准率、查全率和F-measure三个指标来比较数据。0059 5.实验数据表明文本特征数分别从1000至5000共10组实验，tf.ridf的F-mesaure分别为0.79，0.843，0.876，0.80，875，0.91，0.917，0.947，0.978，0.978。相比之下，tf.rf的F-measure为0.726，0.746，0.827，0.77，0.827，0.854，0.912，0.933，0.933，0.944。可以看出本发明的分类性能要优于tf.rf。说明书CN 102662976 A1/1页7图1说明书附图CN 102662976 A。

摘要
申请专利号：	CN201210063879.5	申请日：	2012.03.12
公开号：	CN102662976A	公开日：	2012.09.12
当前法律状态：	驳回	有效性：	无权
法律详情：	发明专利申请公布后的驳回IPC(主分类):G06F 17/30申请公布日:20120912\|\|\|实质审查的生效IPC(主分类):G06F 17/30申请日:20120312\|\|\|公开
IPC分类号：	G06F17/30	主分类号：	G06F17/30
申请人：	浙江工业大学
发明人：	刘端阳; 陆洋
地址：	310014 浙江省杭州市下城区朝晖六区
优先权：
专利代理机构：	杭州天正专利事务所有限公司 33201	代理人：	王兵;王利强
PDF完整版下载：	PDF下载

内容摘要

一种基于指导的文本特征加权方法，进行文本特征提取后得到a，b，c，d四类文档数，分别代表如下：a表示含词项t且属于正例的文档数；b表示不含词项t但属于正例的文档数；c表示含词项t但不属于正例的文档数；d表示不含词项t且不属于正例的文档数；a，b，c，d的总和为N，即总文档数；所述文本特征加权公式(1)。本发明提出的一种基于指导的文本特征加权方法tf.ridf，实现了词在总体文档及各类别文档之间的综合考虑，该方法有效地提高了分类性能。

权利要求书

1.一种基于指导的文本特征加权方法，其特征在于：进行文本特征
提取后得到a，b，c，d四类文档数，分别代表如下：
a表示含词项t且属于正例的文档数；
b表示不含词项t但属于正例的文档数；
c表示含词项t但不属于正例的文档数；
d表示不含词项t且不属于正例的文档数；
a，b，c，d的总和为N，即总文档数；
所述文本特征加权公式如下：
ridf = log 2 = ( 2 + ( a max ( 1 , c ) ) K ) - - - ( 1 ) ]]>
其中K表示为：
K = ( N a + c ) a - c | a - c | ( a ≠ c ) N a + c ( a = c ) - - - ( 2 ) ]]>
其中，ridf为相关反文档频率加权方法，与词频结合进行特征加权，
该公式表示了一个文本在总体文本之间以及各个类别文本之间的重
要程度。

说明书

一种基于指导的文本特征加权方法

技术领域

本发明涉及文本分类方法，尤其是一种文本特征加权方法。

背景技术

随着互联网应用的普及，网络中已存储了海量的文本信息，人们
迫切地需要从文本中挖掘出有用的信息。文本挖掘就是指从大量文本
数据中抽取事先未知的、可理解的、最终可用的信息或知识的过程。
文本分类是在给定的类别体系下，根据文本内容自动确定所属类
别的过程。文本分类中一个重要组成部分是文本表示，文本表示中最
常用的是向量空间模型(Vector Space Model，VSM)，VSM是文本表示
的一个统计模型，它把文档看成是由特征向量组成的，而每个特征向
量可以是词也可以是短语，并且每个特征向量都含有权重，从而将文
本的分类问题转化为向量空间中的向量匹配问题进行处理。转化为特
征向量后，便可以使用常用的分类算法进行文本分类，如支持向量机、
K近邻等。

文本表示中的一个重要问题就是选择哪些特征向量能最好的来
代表文本，并且要去除那些没有代表价值的特征向量。通常文本分类
的一般过程为：分词、去停用词、索引、统计、特征提取、特征加权、
分类训练以及评估。

其中文本特征加权是整个处理过程中比较重要的一环。基于统计
的文本特征加权，主要分为两大类：即有指导的特征加权方法
(supervised term weighting method)和无指导的特征加权方法
(unsupervised term weighting method)。现在比较普遍使用的是词频反
文档频率加权方法(term frequency and inverse document frequency，
tf.idf)，它属于无指导的特征加权方法。

目前，国内外都提出了不少关于特征加权的改进方法，包括有指
导的和无指导的特征加权方法。薛小兵将文本词的分布密集性，文本
长度以及词第一次出现的位置作为特征加权的主要考虑因素。然而无
指导的特征加权方法并没有考虑特征在训练集各文档以及各类别中
分布比例上的差异对分类的影响。相反有指导的特征加权方法正是考
虑到了这一点。李凯齐首先指出了tf.idf方法的不足，在基于有指导的
方法基础上，将信息增益结合tf.idf来改进文本特征加权。Man Lan则
考虑了词在正类和反类中的比例关系，认为只要正类比反类占的比例
越高，该词就越能代表正类，就具有越高的权值。

发明内容

为了克服现有文本特征加权方法的分类性能较差的不足，本发明
提供一种提升分类性能的基于指导的文本特征加权方法

为了解决上述技术问题采用的技术手段为：

一种基于指导的文本特征加权方法，进行文本特征提取后得到
a，b，c，d四类文档数，分别代表如下：

a表示含词项t且属于正例的文档数；

b表示不含词项t但属于正例的文档数；

c表示含词项t但不属于正例的文档数；

d表示不含词项t且不属于正例的文档数。

a，b，c，d的总和为N，即总文档数；

所述文本特征加权公式如下：

ridf = log 2 = ( 2 + ( a max ( 1 , c ) ) K ) - - - ( 1 ) ]]>

其中K表示为：

K = ( N a + c ) a - c | a - c | ( a ≠ c ) N a + c ( a = c ) - - - ( 2 ) ]]>

其中，ridf为相关反文档频率加权方法，与词频结合进行特征加权，
该公式表示了一个文本在总体以及类别之间的重要程度。

本发明的技术构思为：传统的特征加权方法如下：

tf · idf = tf ( t , d ) * log 2 ( N n + 0.01 ) ]]>

其中tf(t，d)为特征词项t在文档d中的频率，tf值越高该词越能
代表文档，tf体现了词在文档中的关系。idf中的n为含有特征词项t
的文档数，N是总文档数。idf认为出现某词的文档数占总文档数的
比例越低，该词越能代表这个类的文档，即该词区别类的能力越强，
idf则体现了词在文档间的关系。虽然tfidf公式看似简单，但相比其
它复杂的文本分类方法(如基于语义的文本分类)在某些场合却常常
有最佳的表现能力。

然而该公式也存在不足之处，在如图1表示的六种文档分布图
中，我们可以知道：

a表示含词项t且属于正例的文档数；

b表示不含词项t但属于正例的文档数；

c表示含词项t但不属于正例的文档数；

d表示不含词项t且不属于正例的文档数。

a，b，c，d的总和为N，即总文档数。

在T1-T3这三种情况中，idf会赋予相同的权值。然后明显的，
T1的分类贡献能力应该是最大的。

为了克服传统无指导的特征加权方法的不足，国内外学者都提出
了不少新的有指导的加权方法，如薛小兵提出的：

rf = log 2 ( 2 + a c ) ]]>

用rf公式来替代idf，其基本思想是：a占的比例比c占的比例
越大，该词越有能力区别正例和反例，那么就应该具有越高的权重；
并且当a＝c时，不论a和c的数量多大，该词区别正反类的能力永远
是相等的。

然而该式又抛弃了原有idf的思想，即出现某词的文档数占总文
档数的比例越低，该词就越有价值代表这个类的文档。如T5和T6
这两种情况，明显的，T6的词过于泛滥，其代表能力不如T5的这种
情况。

根据上述分析，确定本发明的设计目标：(1)考虑词在各个类别
的比例关系，即利用有指导的方法，充分利用带有类标签的训练数据。
(2)保留传统特征加权的优点，考虑词在总体文档中分布的情况。

基于以上两个目标，基本设计原理如下：

ridf = log 2 = ( 2 + ( a max ( 1 , c ) ) K ) ]]>

其中k值为：

K = ( N a + c ) a - c | a - c | ( a ≠ c ) N a + c ( a = c ) ]]>

用ridf来替代idf，其优点如下：

1.当a不等于c的情况下，ridf即要考虑N/(a+c)的因素，同
时还要考虑a/max(1，c)的因素，可以说这时候即考虑了词在类
别中的关系，也考虑了词在总体文档之间的关系。

2.当a＝c的情况下，K值的大小不能影响最终的ridf值，符
合以上的思想。

附图说明

图1是六种文档分布图。

具体实施方式

下面结合附图对本发明做进一步说明。

参照图1，一种基于指导的文本特征加权方法，进行文本特征提
取后得到a，b，c，d四类文档数，分别代表如下：

a表示含词项t且属于正例的文档数；

b表示不含词项t但属于正例的文档数；

c表示含词项t但不属于正例的文档数；

d表示不含词项t且不属于正例的文档数。

a，b，c，d的总和为N，即总文档数；

所述文本特征加权公式如下：

ridf = log 2 = ( 2 + ( a max ( 1 , c ) ) K ) - - - ( 1 ) ]]>

其中K表示为：

K = ( N a + c ) a - c | a - c | ( a ≠ c ) N a + c ( a = c ) - - - ( 2 ) ]]>

其中，ridf为相关反文档频率加权方法，与词频结合进行特征加权，
该公式表示了一个文本在总体以及类别之间的重要程度。

本实施例中，语料库来自复旦大学计算机信息与技术系国际数据
库中心自然语言处理小组提供的含有20个类别的中文语料库，分词
系统采用中国科学院计算技术研究所研制的汉语词法分析系统
ICTCLAS，分类器采用的是台湾大学林智仁教授等人开发的Libsvm。

1.首先对原始语料库进行中文分词以及词性标记。

2.进行特征提取，包括去除低频词；去除不必要的词性，保留名
词、动词和形容词；采用特征提取公式为每个词计算权值，预
设一个阀值，删去低于阀值的特征词。

3.采用本发明设计的加权公式进行特征加权，并设置对比数据
集，其他处理方法相同，加权公式采用tf.idf和tf.rf。

4.使用Libsvm训练数据，采用线性核函数，并采用查准率、查
全率和F-measure三个指标来比较数据。

5.实验数据表明文本特征数分别从1000至5000共10组实验，
tf.ridf的F-mesaure分别为0.79，0.843，0.876，0.80，875，0.91，
0.917，0.947，0.978，0.978。相比之下，tf.rf的F-measure为
0.726，0.746，0.827，0.77，0.827，0.854，0.912，0.933，0.933，
0.944。可以看出本发明的分类性能要优于tf.rf。