基于领域的中文短文本情感分类方法技术领域
本发明涉及机器学习技术领域,尤其涉及一种基于领域的中文短文本情感
分类方法。
背景技术
互联网的迅速发展使得社交网络和电商购物平台得以越来越广泛地受到用
户的青睐,如脸书、推特、新浪微博、豆瓣、京东和淘宝等国内外网络平台。
在这些网络平台上数据呈现爆炸式地增长,包括对商品的评价、对周围事件的
看法和对生活趣事或情绪波动的记录等。其中,短文本是这些数据常用的重要
形式,并且往往带有情感色彩或主观意识。对这种短文本数据中用户所表达的
情感进行挖掘,有助于让不同用户对象进行更好的决择或服务,如向用户在选
择时提供更加中肯的推荐,向电商在推广产品时提供更有效的服务,向政府或
新闻媒体部门提供可靠的预测或推送潜在热点事件等。
文本情感分析是自然语言处理(NaturalLanguageProcessing,NLP)领域中
热门的研究方向,得到了学者的广泛研究分析。所提出的技术有很多,但主要
可分为2种:一种是基于情感词典的方法,另一种是基于机器学习的方法。基
于情感词典的方法是以情感词(分为积极和消极)作为情感判别的主要依据,
即根据情感词来决策文本含有的情感。基于机器学习的方法是利用根据语料库
训练的分类器对文本的情感进行分类。两种技术方案均有利弊:前者算法往往
较为简单,算法复杂度较低,并且无需大量标签语料库;但存在情感词典易遗
漏、歧义或偏激,而且对不同场景的情感词产生的情感差异常常无法感知。后
者准确率往往较前者高,但训练情感特征分类器需要大量的带标签语料库,并
且语料库要选取适当。
发明内容
本发明所要解决的技术问题是如何高效地结合情感词典和机器学习对中文
短文本的情感进行自动分类,以提高文本自动标注训练效率和使最终分类器具
有高准确率。
为了解决上述技术问题,本发明提供了一种基于领域的中文短文本情感分
类方法,包括:
对短文本进行数据预处理,包括句子分割、分词、停用词过滤和领域划分;
构建不同领域的领域情感词典;
利用所述领域情感词典和预处理后数据计算短文本的情感值;
提取短文本的情感特征;
根据所提取的情感特征采用随机森林为分类工具对语料库进行训练或对未
知情感类型的短文本进行判别。
进一步的,所述对短文本进行数据预处理,包括句子分割、分词、停用词
过滤和领域划分,具体包括:
利用标点符号将短文本划分为多个句子;
采用ICTCLAS分词工具将所述多个句子切分为独立的词语;
采用停用词表对切分的词语进行过滤;
根据短文本及上下文环境,结合领域词典,划分出短文本所属领域。
进一步的,所述构建不同领域的领域情感词典,具体包括:
从现有情感词典中挑选出与领域无关的情感词,并从中删掉有歧义和不常
用的词语,组成基础情感词典;
抽取语料库中所有的名词并按词频进行排序,并利用阈值法挑出词频较高
的名词作为评价对象;
采用依存文法分析抽取所述评价对象和所述基础情感词典中的修饰情感词
之间的所有情感路径;
根据所述所有情感路径,匹配与所述评价对象相符的情感路径对应的词语,
在排除基础情感词典中的词语后,将得到词性为形容词、副词和动词的词汇作
为候选情感词;
采用词语相似性判别算法对所述候选情感词进行情感极性分类后,与基础
词典叠加,构成领域情感词典。
进一步的,利用所述领域情感词典和预处理后数据计算短文本的情感值,
具体包括:
计算所述领域情感词典中的每个词语的TF-IDF值,其中,TF-IDF=TF*IDF,
式中,TF表示词频,IDF表示逆向文件频率;
针对短文本分词处理后得到的多个词语,计算每个词语的情感值,即根据
词语的TF-IDF值对词语赋予不同的权值;
计算所有词语的情感值的加权和,得到短文本的情感值。
进一步的,所述针对短文本分词处理后得到的多个词语,计算每个词语的
情感值,即根据词语的TF-IDF值对词语赋予不同的权值,具体包括:
针对短文本分词处理后得到的多个词语,记录每个词语出现的位置和倾向
值p,其中,若词语为积极,则p初始化值为f(TF-IDF),若词语为消极,则p
初始化值为-f(TF-IDF),其中,f(TF-IDF)为词语的预设初始情感值;
根据词语出现的位置,判断词语之间是否出现否定词,若出现,则计算否
定词的个数,当否定词的个数为奇数时,就将处于否定词后面的词语的倾向值p
反转,否则倾向值p不变,最终的倾向值p即为词语的情感值;
根据词语的TF-IDF值对不同的词语赋予不同的权值。
进一步的,所述根据所提取的情感特征采用随机森林为分类工具对语料库
进行训练或对未知情感类型的短文本进行判别,具体包括:
利用arrf特征模板将情感特征文件格式化;
调用weka中随机森林算法作为分类工具根据所提取语料库的情感特征进行
训练或对未知情感类型的短文本进行情感预测分类。
实施本发明,具有如下有益效果:
1)本发明提出的基于领域的短文本情感判别方法提高了文本数据情感分类
的准确率;
2)所提出基于领域的情感词典得到的准确率明显高于使用基础情感词典所
能达到的准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施
例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述
中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付
出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的基于领域的中文短文本情感分类方法的一个实施例的
流程示意图;
图2是图1中步骤S101的具体步骤的流程示意图;
图3为本发明所提出方法中情感词典与传统的情感词典的对比实验结果图。
图4为四个领域的测试结果示例图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清
晰、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是
全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造
性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是本发明提供的基于领域的中文短文本情感分类方法的一个实施例的
流程示意图,包括如下步骤:
S101、对短文本进行数据预处理,包括句子分割、分词、停用词过滤和领
域划分。
具体的,如图2所示,步骤S101包括步骤:
S1011、利用标点符号将短文本划分为多个句子;
S1012、采用ICTCLAS分词工具将所述多个句子切分为独立的词语;
S1013、采用停用词表对切分的词语进行过滤;
S1014、根据短文本及上下文环境,结合领域词典,划分出短文本所属领域。
S102、构建不同领域的领域情感词典。
具体的,步骤S102包括步骤:
S1021、从现有情感词典中挑选出与领域无关的情感词,并从中删掉有歧义
和不常用的词语,组成基础情感词典;
S1022、抽取语料库中所有的名词并按词频进行排序,并利用阈值法挑出词
频较高的名词作为评价对象。
S1023、采用依存文法分析抽取所述评价对象和所述基础情感词典中的修饰
情感词之间的所有情感路径;
S1024、根据所述所有情感路径,匹配与所述评价对象相符的情感路径对应
的词语,在排除基础情感词典中的词语后,将得到词性为形容词、副词和动词的
词汇作为候选情感词;
S1025、采用词语相似性判别算法对所述候选情感词进行情感极性分类后,
与基础词典叠加,构成领域情感词典。
S103、利用所述领域情感词典和预处理后数据计算短文本的情感值。
具体的,步骤S103包括步骤:
S1031、计算所述领域情感词典中的每个词语的TF-IDF值,其中,
TF-IDF=TF*IDF,式中,TF表示词频,IDF表示逆向文件频率;
S1032、针对短文本分词处理后得到的多个词语,计算每个词语的情感值,
即根据词语的TF-IDF值对词语赋予不同的权值。
具体的,步骤S1032包括:
针对短文本分词处理后得到的多个词语,记录每个词语出现的位置和倾向
值p,其中,若词语为积极,则p初始化值为f(TF-IDF),若词语为消极,则p
初始化值为-f(TF-IDF),其中,f(TF-IDF)为词语的预设初始情感值;
根据词语出现的位置,判断词语之间是否出现否定词,若出现,则计算否
定词的个数,当否定词的个数为奇数时,就将处于否定词后面的词语的倾向值p
反转,否则倾向值p不变,最终的倾向值p即为词语的情感值;
根据词语的TF-IDF值对不同的词语赋予不同的权值。
S1033、计算所有词语的情感值的加权和,得到短文本的情感值。
S104、提取短文本的情感特征。
其中,情感特征具体包括9个特征,如表1所示。
表1
S105、根据所提取的情感特征采用随机森林为分类工具对语料库进行训练
或对未知情感类型的短文本进行判别。
具体的,步骤S105包括步骤:
S1051、利用arrf特征模板将情感特征格式化;
S1052、调用weka中随机森林为分类工具对语料库进行训练或对未知情感
类型的短文本进行判别。
对本发明实施例进行仿真,得到准确率与Tan等人的算法相比如表2所示,
在酒店领域和图书领域,本发明所提算法比Tan等人的算法在准确率方面提高
了很多,但在电子领域中,本研究所提算法的准确率稍微差一点。
表2
图3为本发明所提出方法中情感词典与基础情感词典的对比实验结果。结
果表明,领域情感词典明显比基础情感词典的分类效果要好,四个领域平均准
确率提高5.3%,其中在图书、酒店、电子产品和电影数据集上分别提高了4%、
5.2%、2.9%和8.8%。
图4为四个领域的测试结果示例图,其中图的横轴表示训练集所占比例,
纵轴是分类准确率和F-Measure。通过结果可以表明,当训练数据为80%且测试
数据为20%时分类的准确率和F-Measure最好。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意
在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装
置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为
这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由
语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物
品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本申请所提供的几个实施例中,所阐述的系统和方法可以通过其它的方
式实现。例如,以上所描述的系统实施例是示意性的;所述单元的划分,仅仅
为一种逻辑功能划分,实际实现时可以有另外的划分方式;多个单元或组件可
以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处
理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器
(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、
寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式
的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本
发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,
本文中所定义的一般原理可以在不脱离本发明的范围的情况下,在其它实施例
中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与
本文所公开的原理和新颖特点相一致的最宽范围。