贝叶斯决策思想与近邻集结合的代价敏感分类方法.pdf

上传人:刘** 文档编号:10288591 上传时间:2021-06-17 格式:PDF 页数:7 大小:439.88KB
收藏 版权申诉 举报 下载
贝叶斯决策思想与近邻集结合的代价敏感分类方法.pdf_第1页
第1页 / 共7页
贝叶斯决策思想与近邻集结合的代价敏感分类方法.pdf_第2页
第2页 / 共7页
贝叶斯决策思想与近邻集结合的代价敏感分类方法.pdf_第3页
第3页 / 共7页
文档描述:

《贝叶斯决策思想与近邻集结合的代价敏感分类方法.pdf》由会员分享,可在线阅读,更多相关《贝叶斯决策思想与近邻集结合的代价敏感分类方法.pdf(7页完成版)》请在专利查询网上搜索。

1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202010466149.4 (22)申请日 2020.05.28 (71)申请人 河海大学 地址 211100 江苏省南京市江宁开发区佛 城西路8号 (72)发明人 王宇杨浩 (74)专利代理机构 南京经纬专利商标代理有限 公司 32200 代理人 刘莎 (51)Int.Cl. G06K 9/62(2006.01) G06N 7/00(2006.01) G06N 20/10(2019.01) (54)发明名称 一种贝叶斯决策思想与近邻集结合的代价 敏感分类方法 (57)摘要 本。

2、发明公开了一种贝叶斯决策思想与近邻 集结合的代价敏感分类方法, 通过近邻集的特 点, 生成各个类的误分代价值, 得到误分代价最 小的分类结果。 相比于传统的代价敏感算法, 本 发明从算法本身的结构出发进行调整生成决策 函数, 误分风险不单纯依赖于误分代价值, 更与 样本之间的实际距离有关, 对于代价值的判断更 加精确。 权利要求书1页 说明书3页 附图2页 CN 111783828 A 2020.10.16 CN 111783828 A 1.一种贝叶斯决策思想与近邻集结合的代价敏感分类方法, 其特征在于, 具体步骤如 下: Step 1:计算待分类数据与已分类样本数据集中每个样本数据之间的欧氏。

3、距离; Step 2:找出Step1中较小的K个欧氏距离对应的样本数据, 构成待分类数据的近邻集; Step 3:对待分类数据的近邻集中的样本数据进行分类, 统计每一类中的样本数据个 数; Step 4:根据决策函数, 计算Step3中每一类的决策风险值; Step 5:按照最小误分风险的原则, Step4中决策风险值最小的类别即为待分类数据的 所属类别。 2.根据如权利要求1所述的一种贝叶斯决策思想与近邻集结合的代价敏感分类方法, 其特征在于, Step4中的决策函数的表达式为: 式中, yi为Step3中第i类的决策风险值, ci为Step3中第i类误分情况下的经验代价值, mi为Step。

4、3中第i类中的样本数据个数, 为控制函数变化的参数, dj为Step3中第i类中的第j 个样本与待分类数据之间的欧氏距离, w为样本数据的维度。 权利要求书 1/1 页 2 CN 111783828 A 2 一种贝叶斯决策思想与近邻集结合的代价敏感分类方法 技术领域 0001 本发明涉及一种贝叶斯决策思想与近邻集结合的代价敏感分类方法, 属于机器学 习分类领域。 背景技术 0002 在很多实际应用场景中, 分类错误会造成一定的损失(也就是代价), 对于不同的 误分类结果, 所需付出的代价其实是各不相同的, 在这些领域中, 传统的机器学习算法只注 重提高分类准确率, 默认各个误分类情况下造成的后。

5、果是一样的, 然而, 在实际应用场景 中, 不同类型的错分代价值相差较大, 只考虑减小错误率可能带来更大的损失。 显然, 将不 同情况下的误分代价区分开来更具现实意义, 于是提出了代价敏感的分类思想。 0003 代价敏感学习是指在分类时考虑到各个类误分情况下所需付出的实际代价的大 小, 以最小化总体误分代价为目标的一种分类思想。 代价敏感学习方法有着广泛的应用, 主 要分为两种情况, 第一种是样本类别分布不均衡的情况, 在极端条件下, 多数类样本数目占 比远大于少数类, 此时对于少数类的正确分类显得更为重要, 传统的分类算法无法满足这 一需求; 在第二种情况下, 各个类的误分情况所需付出的代价。

6、值差别巨大, 分类结果会偏向 于高误分代价类的样本。 比如在健康诊断的情景中, 将健康的人误诊为病患仅仅会多花一 些时间和检查费用, 但是将病患误诊为健康的人却会耽误最佳治疗时间, 基于最小误分代 价的目标, 结果会偏向于将就诊的人分类为病患。 发明内容 0004 针对代价敏感的分类场景, 本发明基于距离值对KNN算法进行代价敏感性能改进, 以最小化样本误分代价为形式化目标, 提供一种贝叶斯决策思想与近邻集结合的代价敏感 分类方法(CSD-KNN算法)。 结果表明, 相较于传统的KNN算法, 代价敏感性能提升了63.3。 可以更好地适用于上述场景中。 0005 本发明为解决上述技术问题采用以下。

7、技术方案: 0006 一种贝叶斯决策思想与近邻集结合的代价敏感分类方法, 具体步骤如下: 0007 Step 1:计算待分类数据与已分类样本数据集中每个样本数据之间的欧氏距离; 0008 Step 2:找出Step1中较小的K个欧氏距离对应的样本数据, 构成待分类数据的近 邻集; 0009 Step 3:对待分类数据的近邻集中的样本数据进行分类, 统计每一类中的样本数 据个数; 0010 Step 4:根据决策函数, 计算Step3中每一类的决策风险值; 0011 Step 5:按照最小误分风险的原则, Step4中决策风险值最小的类别即为待分类数 据的所属类别。 0012 进一步, Step。

8、4中的决策函数的表达式为: 说明书 1/3 页 3 CN 111783828 A 3 0013 0014 式中, yi为Step3中第i类的决策风险值, ci为Step3中第i类误分情况下的经验代价 值, mi为Step3中第i类中的样本数据个数, 为控制函数变化的参数, dj为Step3中第i类中的 第j个样本与待分类数据之间的欧氏距离, w为样本数据的维度。 0015 本发明采用以上技术方案与现有技术相比, 具有以下技术效果: 0016 1)KNN算法本质上依赖的是样本之间的距离值, 本发明提出一种贝叶斯决策思想 与近邻集结合的代价敏感分类算法, 根据样本属于每个类的风险值决策出最后的最优。

9、结 果; 0017 2)相比于传统的代价敏感算法, 本发明从算法本身的结构出发进行调整生成决策 函数, 误分风险不单纯依赖于误分代价值, 更与样本之间的实际距离有关, 对于代价值的判 断更加精确; 0018 3)本发明借鉴了贝叶斯最优决策理论, 对于每一样本生成当前情况下的最优结 果, 使得总体误分代价最小, 是一种性能良好的代价敏感分类算法。 附图说明 0019 图1是本发明的结构设计图; 0020 图2是本发明的算法流程图; 0021 图3是本发明的性能验证图。 具体实施方式 0022 下面详细描述本发明的实施方式, 所述实施方式的示例在附图中示出, 其中自始 至终相同或类似的标号表示相同。

10、或类似的元件或具有相同或类似功能的元件。 下面通过参 考附图描述的实施方式是示例性的, 仅用于解释本发明, 而不能解释为对本发明的限制。 0023 本技术领域技术人员可以理解的是, 除非另外定义, 这里使用的所有术语(包括技 术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。 还 应该理解的是, 诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中 的意义一致的意义, 并且除非像这里一样定义, 不会用理想化或过于正式的含义来解释。 0024 下面结合附图对本发明的技术方案做进一步的详细说明: 0025 本发明一种贝叶斯决策思想与近邻集结合的代价敏感分类算法。

11、(CSD_KNN算法), 通过近邻集的特点计算出样本的后验概率以及每一类与待测样本的平均距离、 各个类的误 分代价值, 最终生成各个类的误分风险, 决策出最后的结果, 使得分类的误分代价最小。 0026 图1中算法的风险函数结构为: R(ys|x)P(ys|x)F(ys,yt), R(ys|x)为用于决策 的风险函数, 表示x的分类结果不为ys类时的风险值, P(ys|x)为样本x的属于ys类的后验概 率, F为将类ys分为类yt时的代价函数。 后验概率P由近邻集的分布确定, 代价函数F中代价的 表示基于近邻集中每一类样本与待分类数据的平均距离。 风险函数的意义为样本分类结果 不为当前类时所需。

12、付出的代价, 因此算法在决策时选择风险值最大的类作为分类结果。 0027 后验概率基于近邻集的分布得出, 在KNN的K个近邻实例中, 若有mi个实例属于某 说明书 2/3 页 4 CN 111783828 A 4 一类, 则待分类数据属于该类的概率为对近邻样本集中的样本按类别进行统计, 以每 一类中样本数据与待分类数据间的平均距离作为函数表示中的自变量, 生成最后的代价函 数为 0028 该方法针对譬如健康诊断等代价值不等或是类别分布不平衡的场景, 在属性为数 值型的数据集上可以直接分类, 使得总体误分代价最小。 如图2所示, 分类过程如下: 0029 Step 1:输入已分类样本数据集D、 。

13、待分类数据X、 初始K值、 值、 以及样本维度、 代价值c。 0030 Step 2:遍历已分类样本数据集D中的数据实例。 0031 Step 3:计算待分类数据与已分类样本数据集中每个样本数据之间的欧氏距离。 0032 Step 4:找出Step3中较小的K个欧氏距离对应的样本数据, 构成待分类数据的近 邻集D 。 0033 Step 5:按实例所属类别将K个最近点分类。 0034 Step 6:对近邻集D 中每一个类中的di值求均值并统计个数m。 0035 Step 7:根据决策函数计算当前类的决策风险值。 0036 Step8:按照最小误分风险的原则决策出待测点X的分类结果。 0037所。

14、述决策函数的表现形式为 值用来控制函数变 化的幅度, 可以影响每一类别输出值的大小。 另外, yi为Step7中第i类的决策风险值, ci为 Step3中第i类误分情况下的经验代价值, mi为Step3中第i类中的样本数据个数, dj为Step3 中第i类中的第j个样本与待分类数据之间的欧氏距离, w为样本数据的维度。 各个类的经验 代价值以代价矩阵的形式表现, 通常取基于类别的代价, 由领域经验知识给出。 0038 如图3所示, CSD-KNN算法相较于传统的KNN、 Bayes算法在分类时的平均误分代价 有着明显的降低, 分别降低了63.3、 72.6。 根据验证结果可以得出, CSD-KNN算法是一种 代价敏感性能良好的分类算法。 0039 以上所述, 仅为本发明中的具体实施方式, 但本发明的保护范围并不局限于此, 任 何熟悉该技术的人在本发明所揭露的技术范围内, 可理解想到的变换或替换, 都应涵盖在 本发明的包含范围之内, 因此, 本发明的保护范围应该以权利要求书的保护范围为准。 说明书 3/3 页 5 CN 111783828 A 5 图1 说明书附图 1/2 页 6 CN 111783828 A 6 图2 图3 说明书附图 2/2 页 7 CN 111783828 A 7 。

展开阅读全文
内容关键字: 贝叶斯 决策 思想 近邻 集结 代价 敏感 分类 方法
关于本文
本文标题:贝叶斯决策思想与近邻集结合的代价敏感分类方法.pdf
链接地址:https://www.zhuanlichaxun.net/pdf/10288591.html
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1