书签 分享 收藏 举报 版权申诉 / 7

一种基于指导的文本特征加权方法.pdf

  • 上传人:g****
  • 文档编号:4059772
  • 上传时间:2018-08-13
  • 格式:PDF
  • 页数:7
  • 大小:329.85KB
  • 摘要
    申请专利号:

    CN201210063879.5

    申请日:

    2012.03.12

    公开号:

    CN102662976A

    公开日:

    2012.09.12

    当前法律状态:

    驳回

    有效性:

    无权

    法律详情:

    发明专利申请公布后的驳回IPC(主分类):G06F 17/30申请公布日:20120912|||实质审查的生效IPC(主分类):G06F 17/30申请日:20120312|||公开

    IPC分类号:

    G06F17/30

    主分类号:

    G06F17/30

    申请人:

    浙江工业大学

    发明人:

    刘端阳; 陆洋

    地址:

    310014 浙江省杭州市下城区朝晖六区

    优先权:

    专利代理机构:

    杭州天正专利事务所有限公司 33201

    代理人:

    王兵;王利强

    PDF完整版下载: PDF下载
    内容摘要

    一种基于指导的文本特征加权方法,进行文本特征提取后得到a,b,c,d四类文档数,分别代表如下:a表示含词项t且属于正例的文档数;b表示不含词项t但属于正例的文档数;c表示含词项t但不属于正例的文档数;d表示不含词项t且不属于正例的文档数;a,b,c,d的总和为N,即总文档数;所述文本特征加权公式(1)。本发明提出的一种基于指导的文本特征加权方法tf.ridf,实现了词在总体文档及各类别文档之间的综合考虑,该方法有效地提高了分类性能。

    权利要求书

    1.一种基于指导的文本特征加权方法,其特征在于:进行文本特征
    提取后得到a,b,c,d四类文档数,分别代表如下:
    a表示含词项t且属于正例的文档数;
    b表示不含词项t但属于正例的文档数;
    c表示含词项t但不属于正例的文档数;
    d表示不含词项t且不属于正例的文档数;
    a,b,c,d的总和为N,即总文档数;
    所述文本特征加权公式如下:
    ridf = log 2 = ( 2 + ( a max ( 1 , c ) ) K ) - - - ( 1 ) ]]>
    其中K表示为:
    K = ( N a + c ) a - c | a - c | ( a c ) N a + c ( a = c ) - - - ( 2 ) ]]>
    其中,ridf为相关反文档频率加权方法,与词频结合进行特征加权,
    该公式表示了一个文本在总体文本之间以及各个类别文本之间的重
    要程度。

    说明书

    一种基于指导的文本特征加权方法

    技术领域

    本发明涉及文本分类方法,尤其是一种文本特征加权方法。

    背景技术

    随着互联网应用的普及,网络中已存储了海量的文本信息,人们
    迫切地需要从文本中挖掘出有用的信息。文本挖掘就是指从大量文本
    数据中抽取事先未知的、可理解的、最终可用的信息或知识的过程。
      文本分类是在给定的类别体系下,根据文本内容自动确定所属类
    别的过程。文本分类中一个重要组成部分是文本表示,文本表示中最
    常用的是向量空间模型(Vector Space Model,VSM),VSM是文本表示
    的一个统计模型,它把文档看成是由特征向量组成的,而每个特征向
    量可以是词也可以是短语,并且每个特征向量都含有权重,从而将文
    本的分类问题转化为向量空间中的向量匹配问题进行处理。转化为特
    征向量后,便可以使用常用的分类算法进行文本分类,如支持向量机、
    K近邻等。

    文本表示中的一个重要问题就是选择哪些特征向量能最好的来
    代表文本,并且要去除那些没有代表价值的特征向量。通常文本分类
    的一般过程为:分词、去停用词、索引、统计、特征提取、特征加权、
    分类训练以及评估。

    其中文本特征加权是整个处理过程中比较重要的一环。基于统计
    的文本特征加权,主要分为两大类:即有指导的特征加权方法
    (supervised term weighting method)和无指导的特征加权方法
    (unsupervised term weighting method)。现在比较普遍使用的是词频反
    文档频率加权方法(term frequency and inverse document frequency,
    tf.idf),它属于无指导的特征加权方法。

    目前,国内外都提出了不少关于特征加权的改进方法,包括有指
    导的和无指导的特征加权方法。薛小兵将文本词的分布密集性,文本
    长度以及词第一次出现的位置作为特征加权的主要考虑因素。然而无
    指导的特征加权方法并没有考虑特征在训练集各文档以及各类别中
    分布比例上的差异对分类的影响。相反有指导的特征加权方法正是考
    虑到了这一点。李凯齐首先指出了tf.idf方法的不足,在基于有指导的
    方法基础上,将信息增益结合tf.idf来改进文本特征加权。Man Lan则
    考虑了词在正类和反类中的比例关系,认为只要正类比反类占的比例
    越高,该词就越能代表正类,就具有越高的权值。

    发明内容

    为了克服现有文本特征加权方法的分类性能较差的不足,本发明
    提供一种提升分类性能的基于指导的文本特征加权方法

    为了解决上述技术问题采用的技术手段为:

    一种基于指导的文本特征加权方法,进行文本特征提取后得到
    a,b,c,d四类文档数,分别代表如下:

    a表示含词项t且属于正例的文档数;

    b表示不含词项t但属于正例的文档数;

    c表示含词项t但不属于正例的文档数;

    d表示不含词项t且不属于正例的文档数。

    a,b,c,d的总和为N,即总文档数;

    所述文本特征加权公式如下:

    ridf = log 2 = ( 2 + ( a max ( 1 , c ) ) K ) - - - ( 1 ) ]]>

    其中K表示为:

    K = ( N a + c ) a - c | a - c | ( a c ) N a + c ( a = c ) - - - ( 2 ) ]]>

    其中,ridf为相关反文档频率加权方法,与词频结合进行特征加权,
    该公式表示了一个文本在总体以及类别之间的重要程度。

    本发明的技术构思为:传统的特征加权方法如下:

    tf · idf = tf ( t , d ) * log 2 ( N n + 0.01 ) ]]>

    其中tf(t,d)为特征词项t在文档d中的频率,tf值越高该词越能
    代表文档,tf体现了词在文档中的关系。idf中的n为含有特征词项t
    的文档数,N是总文档数。idf认为出现某词的文档数占总文档数的
    比例越低,该词越能代表这个类的文档,即该词区别类的能力越强,
    idf则体现了词在文档间的关系。虽然tfidf公式看似简单,但相比其
    它复杂的文本分类方法(如基于语义的文本分类)在某些场合却常常
    有最佳的表现能力。

    然而该公式也存在不足之处,在如图1表示的六种文档分布图
    中,我们可以知道:

    a表示含词项t且属于正例的文档数;

    b表示不含词项t但属于正例的文档数;

    c表示含词项t但不属于正例的文档数;

    d表示不含词项t且不属于正例的文档数。

    a,b,c,d的总和为N,即总文档数。

    在T1-T3这三种情况中,idf会赋予相同的权值。然后明显的,
    T1的分类贡献能力应该是最大的。

    为了克服传统无指导的特征加权方法的不足,国内外学者都提出
    了不少新的有指导的加权方法,如薛小兵提出的:

    rf = log 2 ( 2 + a c ) ]]>

    用rf公式来替代idf,其基本思想是:a占的比例比c占的比例
    越大,该词越有能力区别正例和反例,那么就应该具有越高的权重;
    并且当a=c时,不论a和c的数量多大,该词区别正反类的能力永远
    是相等的。

    然而该式又抛弃了原有idf的思想,即出现某词的文档数占总文
    档数的比例越低,该词就越有价值代表这个类的文档。如T5和T6
    这两种情况,明显的,T6的词过于泛滥,其代表能力不如T5的这种
    情况。

    根据上述分析,确定本发明的设计目标:(1)考虑词在各个类别
    的比例关系,即利用有指导的方法,充分利用带有类标签的训练数据。
    (2)保留传统特征加权的优点,考虑词在总体文档中分布的情况。

    基于以上两个目标,基本设计原理如下:

    ridf = log 2 = ( 2 + ( a max ( 1 , c ) ) K ) ]]>

    其中k值为:

    K = ( N a + c ) a - c | a - c | ( a c ) N a + c ( a = c ) ]]>

    用ridf来替代idf,其优点如下:

    1.当a不等于c的情况下,ridf即要考虑N/(a+c)的因素,同
    时还要考虑a/max(1,c)的因素,可以说这时候即考虑了词在类
    别中的关系,也考虑了词在总体文档之间的关系。

    2.当a=c的情况下,K值的大小不能影响最终的ridf值,符
    合以上的思想。

    附图说明

    图1是六种文档分布图。

    具体实施方式

    下面结合附图对本发明做进一步说明。

    参照图1,一种基于指导的文本特征加权方法,进行文本特征提
    取后得到a,b,c,d四类文档数,分别代表如下:

    a表示含词项t且属于正例的文档数;

    b表示不含词项t但属于正例的文档数;

    c表示含词项t但不属于正例的文档数;

    d表示不含词项t且不属于正例的文档数。

    a,b,c,d的总和为N,即总文档数;

    所述文本特征加权公式如下:

    ridf = log 2 = ( 2 + ( a max ( 1 , c ) ) K ) - - - ( 1 ) ]]>

    其中K表示为:

    K = ( N a + c ) a - c | a - c | ( a c ) N a + c ( a = c ) - - - ( 2 ) ]]>

    其中,ridf为相关反文档频率加权方法,与词频结合进行特征加权,
    该公式表示了一个文本在总体以及类别之间的重要程度。

    本实施例中,语料库来自复旦大学计算机信息与技术系国际数据
    库中心自然语言处理小组提供的含有20个类别的中文语料库,分词
    系统采用中国科学院计算技术研究所研制的汉语词法分析系统
    ICTCLAS,分类器采用的是台湾大学林智仁教授等人开发的Libsvm。

    1.首先对原始语料库进行中文分词以及词性标记。

    2.进行特征提取,包括去除低频词;去除不必要的词性,保留名
    词、动词和形容词;采用特征提取公式为每个词计算权值,预
    设一个阀值,删去低于阀值的特征词。

    3.采用本发明设计的加权公式进行特征加权,并设置对比数据
    集,其他处理方法相同,加权公式采用tf.idf和tf.rf。

    4.使用Libsvm训练数据,采用线性核函数,并采用查准率、查
    全率和F-measure三个指标来比较数据。

    5.实验数据表明文本特征数分别从1000至5000共10组实验,
    tf.ridf的F-mesaure分别为0.79,0.843,0.876,0.80,875,0.91,
    0.917,0.947,0.978,0.978。相比之下,tf.rf的F-measure为
    0.726,0.746,0.827,0.77,0.827,0.854,0.912,0.933,0.933,
    0.944。可以看出本发明的分类性能要优于tf.rf。

    关 键  词:
    一种 基于 指导 文本 特征 加权 方法
      专利查询网所有文档均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    0条评论

    还可以输入200字符

    暂无评论,赶快抢占沙发吧。

    关于本文
    本文标题:一种基于指导的文本特征加权方法.pdf
    链接地址:https://www.zhuanlichaxun.net/p-4059772.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
    经营许可证编号:粤ICP备2021068784号-1