基于词频偏差率因子的特征选择方法.pdf

上传人:一**** 文档编号:10345803 上传时间:2021-06-18 格式:PDF 页数:24 大小:2.59MB
收藏 版权申诉 举报 下载
基于词频偏差率因子的特征选择方法.pdf_第1页
第1页 / 共24页
基于词频偏差率因子的特征选择方法.pdf_第2页
第2页 / 共24页
基于词频偏差率因子的特征选择方法.pdf_第3页
第3页 / 共24页
文档描述:

《基于词频偏差率因子的特征选择方法.pdf》由会员分享,可在线阅读,更多相关《基于词频偏差率因子的特征选择方法.pdf(24页完成版)》请在专利查询网上搜索。

1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202010373715.7 (22)申请日 2020.05.06 (71)申请人 西安理工大学 地址 710048 陕西省西安市碑林区金花南 路5号 (72)发明人 周红芳马一鸣李想 (74)专利代理机构 西安弘理专利事务所 61214 代理人 弓长 (51)Int.Cl. G06K 9/62(2006.01) G06F 40/289(2020.01) G06F 16/35(2019.01) (54)发明名称 基于词频偏差率因子的特征选择方法 (57)摘要 本发明公开了一种基于。

2、词频偏差率因子的 特征选择方法, 具体按照以下步骤实施: 步骤1、 对数据集进行预处理, 并将数据集划分为训练集 和测试集; 步骤2、 使用词频偏差率测量的特征选 择算法, 设置要选择的特征数, 排序, 输出最优特 征子集; 步骤3、 对最优特征子集进行训练和分 类, 获取分类结果, 并对分类结果进行评估。 本发 明的方法用于文本分类的特征选择, 从词频的角 度考虑了术语与类别之间的相关性大小, 通过与 传统的基于文档频率的算法相结合, 算法性能有 了很大的提高。 权利要求书2页 说明书14页 附图7页 CN 111709439 A 2020.09.25 CN 111709439 A 1.基于。

3、词频偏差率因子的特征选择方法, 其特征在于, 具体按照以下步骤实施: 步骤1、 对数据集进行预处理, 并将数据集划分为训练集和测试集; 步骤2、 使用词频偏差率测量的特征选择算法, 设置要选择的特征数, 排序, 输出最优特 征子集; 步骤3、 对最优特征子集进行训练和分类, 获取分类结果, 并对分类结果进行评估。 2.根据权利要求1所述的基于词频偏差率因子的特征选择方法, 其特征在于, 所述步骤 1中对数据集进行预处理包括对数据集进行分词和去除停用词操作, 设置阈值。 3.根据权利要求1所述的基于词频偏差率因子的特征选择方法, 其特征在于, 所述步骤 1中对数据集进行预处理还包括删除在文档中出。

4、现的篇幅少于或等于3次以及出现的文档 频率超过25的术语。 4.根据权利要求1所述的基于词频偏差率因子的特征选择方法, 其特征在于, 所述步骤 1中采用5折交叉验证的方法将数据集划分为训练集和测试集。 5.根据权利要求1所述的基于词频偏差率因子的特征选择方法, 其特征在于, 所述步骤 2具体按照以下步骤实施: 步骤2.1、 计算每个术语ti对于类别ck的权重CHI(ti, ck)和术语ti的卡方检验算法权重 CHI(ti): 其中, N为数据集的文档总数, tp表示属于类别ck并且包含词ti的文档数量, fp表示不属 于类别ck并且包含词ti的文档数量, fn表示属于类别ck并且不包含词ti的。

5、文档数量, tn表示 不属于类别ck并且不包含词ti的文档数量, p(ck)表示类别ck在数据集中所占的比例; 步骤2.2、 计算数据集中每个术语的信息增益权重IG(ti), 其中, p(ck)表示类别ck在数据集中所占的比例, p(ti)表示包含特征项ti的文本在数据 集中所占的比例,表示不包含词ti的文本在数据集中所占的比例, p(ck|ti)表示在包 含ti的文档中, 属于类别ck的文本所占的比例,表示在不包含ti的文档中, 属于类 别ck的文本所占的比例; 步骤2.3: 根据公式计算术语的真正率tpr和假正率fpr, 并根据下式计算每一个术语的MMR(ti)权值, 权利要求书 1/2 。

6、页 2 CN 111709439 A 2 步骤2.4、 计算术语ti在类别ck中出现的次数所占的比例tfk以及在整个数据集范围内 出现的次数所占的比例tf, 按照下式获得术语ti对于类别ck词频偏差率因子TDR(tick), 步骤2.5、 计算包含术语ti的文档数量在类ck中所占的比例dfk, 以及包含术语ti的文档 数量在整个数据集范围内所占的比例df, 通过下式计算术语ti的文档比率因子DR(ti, ck), 步骤2.6、 通过下式将词频偏差率因子TDR分别与CHI、 IG、 MMR以及文档比率因子DR结 合, 分别计算出每个术语在结合后的各个算法下的权重值TDR-CHI(ti), TDR。

7、-IG(ti), TDR- MMR(ti), TDR-DR(ti), 并依次进行排序, 根据开始设定的特征词个数选择排名靠前的特征组 成最优特征子集作为输出, 其中, M代表数据集中类别的总数, p(ck)表示类别ck在数据集中所占的比例。 6.根据权利要求1所述的基于词频偏差率因子的特征选择方法, 其特征在于, 所述步骤 3中使用朴素贝叶斯分类器和支持向量机分类器对最优特征子集进行训练和分类, 获取分 类结果。 7.根据权利要求1所述的基于词频偏差率因子的特征选择方法, 其特征在于, 所述步骤 3中使用宏观F1和微观F1对分类结果进行评估。 权利要求书 2/2 页 3 CN 11170943。

8、9 A 3 基于词频偏差率因子的特征选择方法 技术领域 0001 本发明属于文本分类技术领域, 涉及基于词频偏差率因子的特征选择方法。 背景技术 0002 随着5G时代的到来, 互联网上的数字信息以爆炸式的速度递增。 移动电话、 社交媒 体、 游戏软件以及电商平台每天都会产生包括文本、 视频、 语音在内的大量数据; 百度、 谷歌 等搜索引擎每日处理的搜索请求不计其数。 在大数据时代, 只有得到及时的存储、 处理和分 析的数据才能发挥更大的价值。 面对海量的文本数据, 快速获取有价值的信息至关重要, 人 为地处理这些数据不仅效率低下, 而且无法保证准确率。 因此利用机器学习算法和IT技术 将这些。

9、文本进行分类、 提高决策效率和准确率是非常必要的。 分类技术成为解决该问题的 关键技术。 0003 文本分类的应用领域非常广泛, 比如主题检测、 数据检索、 垃圾邮件检测、 文本挖 掘、 数字图书馆系统、 作者认证、 垃圾短信过滤、 网页分类、 情绪分析评估等。 文本分类过程 由预处理、 特征选择和分类三个阶段构成。 由于文本数据常常被高维特征向量表示, 在文本 分类中不可避免会出现 “维度诅咒” 现象。 它不仅会影响分类算法在文本分类过程中的执行 效果, 还会导致 “过拟合” 现象的发生, 降低了分类器的训练效率和分类准确率。 因此, 使用 特征选择算法对文本数据进行降维的操作在文本分类过程。

10、中是至关重要的。 0004 特征选择算法从原始特征空间中选出与类标签高度相关、 最具有可辨性的特征子 集并移除不相关和冗余的特征, 提高了计算效率和分类准确率。 特征选择主要分为过滤式、 包装式和嵌入式, 其中过滤式由于其计算成本低、 独立于分类算法被广泛应用在文本分类 降维操作中。 现如今许多应用于文本分类中、 基于文档频率的过滤式特征选择算法被提出, 例如文档频率(DF)、 相对判别准则(RDC)、 卡方检验(CHI)、 归一化差别测量(NDM)、 多元相关 辨别准则(MRDC)、 信息增益(IG)、 差别特征选择器(DFS)、 最大-最小比率(MMR)、 词频-逆文 档频率(TF-IDF。

11、)、 基于词频的t-Test等等。 其中DF只考虑类内术语的出现频率, 忽略了与类 标签的相关性; RDC是一种单变量滤波方法, 它通过计算每个术语计数的真阳性比率和假阳 性比率的差值来评估术语重要性, 考虑了大多数算法忽略的术语计数的重要性; CHI算法考 虑的是术语和类别之间的相关性; MRDC利用最小冗余、 最大相关的概念对特征空间进行降 维, 是基于RDC算法的多元改进方法; IG算法考虑根据术语给系统带来的信息量的多少来判 断术语的重要性; MMR在NDM的基础上分别计算真阳率和假阳率的最大值和最小值, 解决了 NDM无法处理具有高度稀疏性术语的问题。 0005 通过对以上经典的特征。

12、选择算法的研究, 我们发现基于文档频率的算法只是从宏 观的文档数量来考虑特征的重要性, 而忽略了特征本身数量对其重要性的影响。 因此, 我们 需要研究一种同时考虑词频和文本频率的特征选择算法, 从术语的视角来考虑问题, 进而 提升算法的性能。 说明书 1/14 页 4 CN 111709439 A 4 发明内容 0006 本发明的目的是提供一种基于词频偏差率因子的特征选择方法, 解决了现有技术 中存在的只考虑宏观层面的文档频率的影响而忽略了词频的问题, 从而影响分类的准确率 和效率的问题。 0007 本发明所采用的技术方案是, 基于词频偏差率因子的特征选择方法, 具体按照以 下步骤实施: 00。

13、08 步骤1、 对数据集进行预处理, 并将数据集划分为训练集和测试集; 0009 步骤2、 使用词频偏差率测量的特征选择算法, 设置要选择的特征数, 排序, 输出最 优特征子集; 0010 步骤3、 对最优特征子集进行训练和分类, 获取分类结果, 并对分类结果进行评估。 0011 本发明的特点还在于: 0012 步骤1中对数据集进行预处理包括对数据集进行分词和去除停用词操作, 设置阈 值。 0013 步骤1中对数据集进行预处理还包括删除在文档中出现的篇幅少于或等于3次以 及出现的文档频率超过25的术语。 0014 步骤1中采用5折交叉验证的方法将数据集划分为训练集和测试集。 0015 步骤2具。

14、体按照以下步骤实施: 0016 步骤2.1、 计算每个术语ti对于类别ck的权重CHI(ti,ck)和术语ti的卡方检验算法 权重CHI(ti): 0017 0018 0019 其中, N为数据集的文档总数, tp表示属于类别ck并且包含词ti的文档数量, fp表示 不属于类别ck并且包含词ti的文档数量, fn表示属于类别ck并且不包含词ti的文档数量, tn 表示不属于类别ck并且不包含词ti的文档数量,p(ck)表示类别ck在数据集中所占的比例; 0020 步骤2.2、 计算数据集中每个术语的信息增益权重IG(ti), 0021 0022 其中, p(ck)表示类别ck在数据集中所占的比。

15、例, p(ti)表示包含特征项ti的文本在 数据集中所占的比例,表示不包含词ti的文本在数据集中所占的比例, p(ck|ti)表示 在包含ti的文档中, 属于类别ck的文本所占的比例,表示在不包含ti的文档中, 属 于类别ck的文本所占的比例; 说明书 2/14 页 5 CN 111709439 A 5 0023步骤2.3: 根据公式计算术语的真正率tpr和假正率 fpr, 并根据下式计算每一个术语的MMR(ti)权值, 0024 0025 步骤2.4、 计算术语ti在类别ck中出现的次数所占的比例tfk以及在整个数据集范 围内出现的次数所占的比例tf, 按照下式获得术语ti对于类别ck词频偏。

16、差率因子TDR(ti, ck), 0026 0027 步骤2.5、 计算包含术语ti的文档数量在类ck中所占的比例dfk, 以及包含术语ti的 文档数量在整个数据集范围内所占的比例df, 通过下式计算术语ti的文档比率因子DR(ti, ck), 0028 0029 步骤2.6、 通过下式将词频偏差率因子TDR分别与CHI、 IG、 MMR以及文档比率因子DR 结合, 分别计算出每个术语在结合后的各个算法下的权重值TDR-CHI(ti), TDR-IG(ti), TDR- MMR(ti), TDR-DR(ti), 并依次进行排序, 根据开始设定的特征词个数选择排名靠前的特征组 成最优特征子集作为。

17、输出, 0030 0031 0032 0033 0034 其中, M代表数据集中类别的总数, p(ck)表示类别ck在数据集中所占的比例。 0035 步骤3中使用朴素贝叶斯分类器和支持向量机分类器对最优特征子集进行训练和 分类, 获取分类结果。 0036 步骤3中使用宏观F1和微观F1对分类结果进行评估。 0037 本发明的有益效果是: 本发明提出的词频偏差率因子TDR从词频的角度考虑了术 语与类别之间的相关性大小, 通过与经典的基于文档频率的算法相结合, 算法性能有了很 说明书 3/14 页 6 CN 111709439 A 6 大的提高, 分类的精度和效率也有了一定程度的提升。 附图说明 。

18、0038 图1是本发明基于词频偏差率因子的特征选择方法的流程图; 0039 图2-图7是本发明基于词频偏差率因子的特征选择方法通过与文档比率因子DR结 合, 与现有的基于词频和文档频率的IF-IDF技术以及基于词频的t-test技术分别在K1a、 K1b、 WAP、 Reuters21578-R52、 Reuters21578-R8、 20News-groups数据集上、 不同特征维数下 使用朴素贝叶斯分类器和支持向量机分类器时的Macro-F1、 Micro-F1值。 具体实施方式 0040 下面结合附图和具体实施方式对本发明进行详细说明。 0041 定义1: 类内词频, 术语ti在类别ck。

19、中出现的次数所占的比例, 用tfk表示。 0042 定义2: 总词频, 术语ti在整个数据集范围内出现的次数所占的比例, 用tf表示。 0043 定义3: 真正率, 包含术语ti并且属于类别ck的文档在整个类别ck中所占的比例, 用 tpr表示, 计算公式如下: 0044 0045 其中, tp表示属于类别ck并且包含词ti的文档数量, fn表示属于类别ck并且不包含 词ti的文档数量。 0046 定义4: 假正率, 包含术语ti并且不属于类别ck的文档在整个不属于类别ck的文档 中所占的比例, 用fpr表示。 计算公式如下: 0047 0048 其中, fp表示不属于类别ck并且包含词ti的。

20、文档数量, tn表示不属于类别ck并且不 包含词ti的文档数量。 0049 本发明基于词频偏差率因子的特征选择方法, 如图1所示, 具体按照以下步骤实 施: 0050 步骤1: 获取经过分词以及去除停用词操作的K1a、 K1b、 WAP、 Reuters21578-R52、 Reuters21578-R8、 20News-groups数据集, 设置阈值, 删除在文档中出现的篇幅少于或等于 3次以及出现的文档频率超过25的术语, 使用5折交叉验证的方法将数据集划分为训练集 和测试集; 0051 步骤2: 使用词频偏差率测量的特征选择算法, 设置要选择的特征数, 排序, 输出最 优特征子集; 00。

21、52 步骤2.1: 根据公式(1)计算每个术语ti对于类别ck的权重CHI(ti,ck), 再根据公式 (2)获得术语ti的卡方检验算法权重CHI(ti), 0053 说明书 4/14 页 7 CN 111709439 A 7 0054 0055 其中, N为数据集的文档总数, tp表示属于类别ck并且包含词ti的文档数量, fp表示 不属于类别ck并且包含词ti的文档数量, fn表示属于类别ck并且不包含词ti的文档数量, tn 表示不属于类别ck并且不包含词ti的文档数量,p(ck)表示类别ck在数据集中所占的比例; 0056 步骤2.2: 根据公式(3)求出数据集中每个术语的信息增益权重。

22、IG(ti), 0057 0058 其中, p(ck)表示类别ck在数据集中所占的比例, p(ti)表示包含特征项ti的文本在 数据集中所占的比例,表示不包含词ti的文本在数据集中所占的比例, p(ck|ti)表示 在包含ti的文档中, 属于类别ck的文本所占的比例,表示在不包含ti的文档中, 属 于类别ck的文本所占的比例; 0059步骤2.3: 根据公式计算术语的真正率tpr和假正率 fpr, 并按照公式(4), 计算每一个术语的MMR(ti)权值, 0060 0061 步骤2.4: 计算术语ti在类别ck中出现的次数所占的比例tfk以及在整个数据集范 围内出现的次数所占的比例tf, 按照。

23、公式(5)获得术语ti对于类别ck词频偏差率因子TDR (ti,ck), 0062 0063 步骤2.5: 计算包含术语ti的文档数量在类ck中所占的比例dfk, 以及包含术语ti的 文档数量在整个数据集范围内所占的比例df, 通过公式(6)计算术语ti的文档比率因子DR (ti,ck), 0064 0065 步骤2.6: 通过公式(7-10)将词频偏差率因子TDR分别与CHI、 IG、 MMR以及文档比率 因子DR结合, 分别计算出每个术语在结合后的各个算法下的权重值TDR-CHI(ti), TDR-IG (ti), TDR-MMR(ti), TDR-DR(ti), 并依次进行排序, 根据开。

24、始设定的特征词个数选择排名靠 前的特征组成最优特征子集作为输出, 说明书 5/14 页 8 CN 111709439 A 8 0066 0067 0068 0069 0070 其中, M代表数据集中类别的总数, p(ck)表示类别ck在数据集中所占的比例。 0071 由于文本数据的高维度特点, 即使经过预处理, 样本的特征空间依旧非常庞大。 因 此需要利用特征选择算法对特征空间进行降维操作。 在实际操作中, 如果把术语ti在整个 数据集中出现的频率看作均值, 那么术语ti在类别ck中出现的频率就可以看作样本, 通过计 算样本和均值之间的差值比率, 可以求出术语ti和类别ck之间的相关性的大小,。

25、 通过将词频 偏差率因子TDR与经典算法CHI、 IG、 MMR相结合, 既考虑了词频的影响, 又解决了MMR在处理 高度稀疏的术语时, 夸大了一些具有高区分类别能力的术语的影响力的问题。 为了与基于 词频的算法TFIDF和t-test相比较, 根据偏差比率提出文档比率因子DR, 构成新的方法TDR- DR。 0072 步骤3: 使用朴素贝叶斯分类器和支持向量机分类器对最优特征子集进行训练和 分类, 获取分类结果。 0073 利用分类算法对训练集进行训练, 并对测试集进行分类操作。 本发明通过使用朴 素贝叶斯(Naive Bayes, NB)、 支持向量机(Support Vector Mac。

26、hines, SVM)分类算法来验 证性能。 朴素贝叶斯分类器是运用贝叶斯定理的一种简单概率分类器, 假设属性之间条件 独立, 通过事件之间的条件概率来选择最优的判断结果。 支持向量机分类器基于统计学习 理论, 在训练样本空间中找到一个超平面, 可以将不同类别的样本划分开, 以此来进行分类 任务。 0074 步骤4: 在分类操作完成以后, 使用Macro-F1与Micro-F1两种评价指标对分类结果 进行评估, 验证本发明在实际操作中的性能。 0075 Macro-F1计算公式如下: 0076 0077 说明书 6/14 页 9 CN 111709439 A 9 0078 0079 其中, P。

27、i表示第i个类别的查准率, Ri代表的是第i个类别的查全率, i表示类别编 号; 0080 Micro-F1计算公式如下: 0081 0082 0083 0084 其中, TP表示实际属于正例、 预测结果也属于正例的文档数, FP表示实际属于反 例、 预测结果属于正例的文档数, FN表示实际属于正例、 预测结果属于反例的文档数, TN表 示实际属于反例, 预测结果也属于反例的文档数。 0085 得到的Macro-F1值和Micro-F1值越高越稳定, 效果越好。 0086 为了验证基于词频偏差率因子的特征选择方法的性能, 将该方法与经典的基于文 档频率的卡方检验(CHI)、 信息增益(IG)、。

28、 最大-最小比率(MMR)算法以及基于词频和文档频 率的TF-IDF、 基于词频的t-Test算法进行对比。 表1-表24是本发明基于词频偏差率因子的 特征选择方法与现有技术CHI、 IG、 MMR算法分别在K1a、 K1b、 WAP、 Reuters21578-R52、 Reuters21578-R8、 20News-groups数据集上, 不同特征维数下使用朴素贝叶斯分类器和支 持向量机分类器时Macro-F1、 Micro-F1值的对比情况, 从表1-24可以观察到本发明分别与 CHI、 IG、 MMR结合时, 在每个数据集上, 对于CHI和IG算法而言, 改进后的算法性能有了很大 的提。

29、升, 且性能平稳。 在使用Macro-F1时, 改进后的MMR算法性能要优于之前, 得分更高, 但 在使用Micro-F1时, 改进后的MMR没有改进前的算法得分高。 从图2-7可以观察到本发明与 文档比率因子结合后, 在每个数据集的大部分维度上性能都优于对比算法TF-IDF、 t-Test。 实验证明本发明是一种有效、 可靠的特征选择算法。 0087 本发明的算法的伪代码如下所示: 0088 输入: 数据集D, 选择特征词数量C。 0089 输出: 数据集D中前C个特征词。 说明书 7/14 页 10 CN 111709439 A 10 0090 说明书 8/14 页 11 CN 11170。

30、9439 A 11 0091 0092 表1 K1a数据集使用NB分类器的Macro-F1结果 0093 说明书 9/14 页 12 CN 111709439 A 12 0094 0095 表2 K1a数据集使用NB分类器的Micro-F1结果 0096 0097 表3 K1a数据集使用SVM分类器的Macro-F1结果 0098 0099 表4 K1a数据集使用SVM分类器的Micro-F1结果 0100 0101 表5 K1b数据集使用NB分类器的Macro-F1结果 0102 0103 0104 表6 K1b数据集使用NB分类器的Micro-F1结果 0105 说明书 10/14 页 1。

31、3 CN 111709439 A 13 0106 表7 K1b数据集使用SVM分类器的Macro-F1结果 0107 0108 表8 K1b数据集使用SVM分类器的Micro-F1结果 0109 0110 表9 WAP数据集使用NB分类器的Macro-F1结果 0111 0112 0113 表10 WAP数据集使用NB分类器的Micro-F1结果 0114 0115 表11 WAP数据集使用SVM分类器的Macro-F1结果 0116 0117 表12 WAP数据集使用SVM分类器的Micro-F1结果 说明书 11/14 页 14 CN 111709439 A 14 0118 0119 表1。

32、3 R52数据集使用NB分类器的Macro-F1结果 0120 0121 0122 表14 R52数据集使用NB分类器的Micro-F1结果 0123 0124 表15 R52数据集使用SVM分类器的Macro-F1结果 0125 0126 表16 R52数据集使用SVM分类器的Micro-F1结果 0127 0128 表17 R8数据集使用NB分类器的Macro-F1结果 说明书 12/14 页 15 CN 111709439 A 15 0129 0130 表18 R8数据集使用NB分类器的Micro-F1结果 0131 0132 表19 R8数据集使用NB分类器的Macro-F1结果 01。

33、33 0134 表20 R8数据集使用SVM分类器的Micro-F1结果 0135 0136 表21 20Newsgroups数据集使用NB分类器的Macro-F1结果 0137 0138 表22 20Newsgroups数据集使用NB分类器的Micro-F1结果 说明书 13/14 页 16 CN 111709439 A 16 0139 0140 表23 20Newsgroups数据集使用SVM分类器的Macro-F1结果 0141 0142 表24 20Newsgroups数据集使用SVM分类器的Micro-F1结果 0143 说明书 14/14 页 17 CN 111709439 A 17 图1 说明书附图 1/7 页 18 CN 111709439 A 18 图2 说明书附图 2/7 页 19 CN 111709439 A 19 图3 说明书附图 3/7 页 20 CN 111709439 A 20 图4 说明书附图 4/7 页 21 CN 111709439 A 21 图5 说明书附图 5/7 页 22 CN 111709439 A 22 图6 说明书附图 6/7 页 23 CN 111709439 A 23 图7 说明书附图 7/7 页 24 CN 111709439 A 24 。

展开阅读全文
内容关键字: 基于 词频 偏差 因子 特征 选择 方法
关于本文
本文标题:基于词频偏差率因子的特征选择方法.pdf
链接地址:https://www.zhuanlichaxun.net/pdf/10345803.html
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1