基于二分模块度的模糊聚类评价方法.pdf

上传人:n****g 文档编号:11471557 上传时间:2021-09-28 格式:PDF 页数:5 大小:351.25KB
收藏 版权申诉 举报 下载
基于二分模块度的模糊聚类评价方法.pdf_第1页
第1页 / 共5页
基于二分模块度的模糊聚类评价方法.pdf_第2页
第2页 / 共5页
基于二分模块度的模糊聚类评价方法.pdf_第3页
第3页 / 共5页
文档描述:

《基于二分模块度的模糊聚类评价方法.pdf》由会员分享,可在线阅读,更多相关《基于二分模块度的模糊聚类评价方法.pdf(5页完成版)》请在专利查询网上搜索。

1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 201910205966.1 (22)申请日 2019.03.19 (71)申请人 河南理工大学 地址 454000 河南省焦作市高新区世纪大 道2001号河南理工大学计算机学院 (72)发明人 刘永利韩光伟郭倩倩陈敬丽 杨合超 (51)Int.Cl. G06K 9/62(2006.01) (54)发明名称 一种基于二分模块度的模糊聚类评价方法 (57)摘要 本发明提出了一种基于二分模块度的模糊 聚类评价方法, 将类内紧致性、 类间分离性与二 分模块度融合在一起, 用于确定模糊C。

2、均值聚类 算法的最优分类结果。 该指标结合类内紧致性与 类间分离性, 增强了指标的鲁棒性, 且能够准确 检测最佳类簇数目, 提高了评估聚类结果的准确 率。 权利要求书1页 说明书3页 CN 110097072 A 2019.08.06 CN 110097072 A 1.一种基于二分模块度的模糊聚类评价方法, 其特征在于: 该方法包括以下步骤: (1)将FCM算法在给定数据集上运行, 得到第i个数据点对第c个簇的隶属度uci, i1, 2,N, c1,2C, N为样本个数, C为簇数; (2)计算类内紧致性, 对每个数据点, 计算其对所有簇隶属度的平方和uc2i, 比较所有数 据点的结果, 得到。

3、最大值umax; 对每个数据点, 计算所有数据点对所有簇隶属度的平方和与 最大值的比值; (3)计算类间分离性, 对每个数据点和其属于两个不同簇的隶属度, 设置阈值To排除噪 声点和簇边界上的离群值; 运行FCM算法获得模糊隶属度矩阵, 计算所有数据点对所有簇的 分离度之和; (4)计算二分模块度, 利用FCM算法得到的C个聚类中心和原始数据点构建一个加权二 分网络, 模糊隶属度uci表示其加权边的权值; (5)在划分系数PC的基础上, 比较N个样本属于各个簇的隶属度平方之和得出其最大 值umax, 再计算与umax的比值得类内紧致性, 根据属于不同模糊簇的隶属度uci与阈值To的 关系计算任。

4、意两个簇之间的类间分离性, 将二者与二分模块度进行适当的加减运算, 得到 新指标, 且新指标的值越大, 表示聚类结果越好。 2.基于权利要求1的一种基于二分模块度的模糊聚类评价方法, 其特征在于: 在步骤 (2)中, 类内紧致性为uci表示第i个数据点对第c个簇的隶属度, N和C分别 代表数据点和聚类结果簇的个数。 3.基于权利要求1的一种基于二分模块度的模糊聚类评价方法, 其特征在于: 在步骤 (3) 中 , 类 间 分 离 性 为a 和 b分 别 代 表 两 个 不同 的 簇 , 用于排除噪声点和簇边界上的离群值。 4.基于权利要求1的一种基于二分模块度的模糊聚类评价方法, 其特征在于: 。

5、在步骤 (4), 应用于二分网络中的二分模块度为 和分别表示两个不同方向VXVY和VYVX上连接Vl和Vp两种类型顶点的所有边数, 和分别表示和的行和。 5.基于权利要求1的一种基于二分模块度的模糊聚类评价方法, 其特征在于: 在步骤 (5)中, 新的模糊聚类评价方法的目标函数为: CSBM(C-1)1/C(NC-SEP+QB)/2。 权利要求书 1/1 页 2 CN 110097072 A 2 一种基于二分模块度的模糊聚类评价方法 技术领域 0001 本发明涉及一种聚类评价方法, 具体地, 涉及一种基于二分模块度的模糊聚类评 价方法, 属于数据挖掘领域。 背景技术 0002 作为数据挖掘的关。

6、键技术之一, 聚类能够将一组样本划分为多个簇, 使得同簇内 元素之间的相似度尽可能高, 而不同簇元素之间的相似度尽可能低。 0003 以FCM(Fuzzy C Means)算法为代表的模糊聚类将隶属度的取值模糊化, 允许一个 样本以不同概率隶属于多个簇, 更符合人们对样本分布规律的认知, 因此模糊聚类研究历 久弥新。 迄今为止, 为数众多的模糊聚类算法在准确率、 效率、 鲁棒性等方面不断取得进步, 有效促进了数据挖掘研究的发展; 与此同时, 用以评估模糊聚类质量或性能的有效性指标 在算法研究中不可或缺, 其重要性日益凸显。 0004 迄今为止, 关于聚类有效性指标的研究成果较为丰富。 广泛使用。

7、的一些有效性指 标如PC、 PE和MPC等过于依赖于FCM算法产生的隶属度, 且由于FCM算法本身对噪声点和离群 值较为敏感, 因此旨在增强鲁棒性的有效性指标相继被提出, 但在准确率方面还有待提高。 发明内容 0005 为解决现有技术中存在的问题, 本发明提出了一种基于二分模块度的模糊聚类评 价方法, 具体地, 该方法包括以下步骤: 0006 (1)将FCM算法在给定数据集上运行, 得到第i个数据点对第c个簇的隶属度uci, i 1,2,N, c1,2C, N为样本个数, C为簇数; 0007(2)计算类内紧致性, 对每个数据点, 计算其对所有簇隶属度的平方和比较所 有数据点的结果, 得到最大。

8、值umax; 对每个数据点, 计算所有数据点对所有簇隶属度的平方 和与最大值的比值; 0008 (3)计算类间分离性, 对每个数据点和其属于两个不同簇的隶属度, 设置阈值To排 除噪声点和簇边界上的离群值; 运行FCM算法获得模糊隶属度矩阵, 计算所有数据点对所有 簇的分离度之和; 0009 (4)计算二分模块度, 利用FCM算法得到的C个聚类中心和原始数据点构建一个加 权二分网络, 模糊隶属度uci表示其加权边的权值; 0010 (5)在划分系数PC(Partition Coefficient)的基础上, 比较N个样本属于各个簇 的隶属度平方之和得出其最大值umax, 再计算与umax的比值。

9、得类内紧致性, 根据属于不 同模糊簇的隶属度uci与阈值To的关系计算任意两个簇之间的类间分离性, 将二者与二分模 块度进行适当的加减运算, 得到新指标, 且新指标的值越大, 表示聚类结果越好。 0011尤其在步骤(2)中, 类内紧致性为uci表示第i个数据点对第c个簇 的隶属度, N和C分别代表数据点和聚类结果簇的个数。 说明书 1/3 页 3 CN 110097072 A 3 0012进一步地, 在步骤(3)中, 类间分离性为a和b分别代表 两个不同的簇,用于排除噪声点和簇边界上的离群 值。 0013 进 一 步 地 ,在 步 骤 ( 4 ) 中 , 应 用 于 二 分 网 络 中 的 二。

10、 分 模 块 度 为 和分别表示两个不同方向VXVY和VY VX上连接Vl和Vp两种类型顶点的所有边数,和分别表示和的行和。 0014 进一步地, 在步骤(5)中, 新的模糊聚类评价方法的目标函数为: CSBM(C-1)1/C (NC-SEP+QB)/2。 0015 本发明基于二分模块度, 结合类内紧致性和类间分离性, 提出一种新的模糊聚类 评价方法, 既增强了指标的鲁棒性, 又提高了确定最优分类数的准确率, 即提高了评估聚类 结果的准确率。 具体实施方式 0016 一种基于二分模块度的模糊聚类评价方法, 包括以下步骤: 0017 (1)将FCM算法在一个数据点个数为N的数据集上运行, 得到C。

11、个聚类结果簇和第i 个数据点对第c个簇的隶属度矩阵uci(i1,2,N; c1,2C); 0018 (2)计算类内紧致性, 对每个数据点, 计算其对所有簇隶属度的平方和uc2i, 比较所 有数据点的结果, 得到最大值umax。 对所有数据点, 计算其对所有簇隶属度的平方和与最大 值的比值; 0019 (3)计算类间分离性, 利用每个数据点对两个不同簇的隶属度, 设置阈值To排除噪 声点和簇边界上的离群值。 运行FCM算法获得的模糊隶属度矩阵中, 所有数据点对所有簇的 分离度之和; 0020 (4)计算二分模块度, 利用FCM算法得到的C个聚类中心和原始数据集构建一个加 权二分网络, 模糊隶属度。

12、uci表示其加权边的权值。 将该二分网络划分为LX个X顶点社区VX和 LY个Y顶点社区VY, 其中的每条边都连接两个不同类型的顶点Vl和Vp, 即(VlVXVpVY) (VlVYVpVX), 则该二分网络的二分模块度可表示为两个方向上二分模块度之和, 即 0021 (5)将类内紧致性、 类间分离性和二分模块度结合在一起, 得到新指标的值。 0022 在步骤(5)中, 新的模糊聚类有效性指标的目标函数为: CSBM(C-1)1/C(NC-SEP +QB)/2, 其中代表类内紧致性, uci表示第i个数据点对第c个簇的隶属度, N 和C分别代表数据点和聚类结果簇的个数。代表类间分离性, a和b 分。

13、别代表两个不同的簇,用于排除噪声点和簇边界 说明书 2/3 页 4 CN 110097072 A 4 上的离群值。表示应用于二分网络中的二分模 块度, 和分别表示两个不同方向VXVY和VYVX上连接Vl和Vp两种类型顶点的所有边 数,和分别表示和的行和。 0023 类内紧致性由运行FCM算法得到的模糊隶属度矩阵和簇心定义, 其值越大, 表示类 内数据点的相似度越高, 划分效果越好; 类间分离性由不同模糊集之间的距离定义, 其值越 小, 表示不同簇中数据点的相似度越低, 划分效果越好。 0024 模块度最初用于评价单部网络中社区划分的质量, 而现实世界中事物之间的联系 多以二分网络的形式存在, 。

14、且不同于单部网络中顶点之间的一对一关系, 复杂二分网络比 如作者-论文网络、 演员-电影网络等, 其顶点之间的关系更倾向于一对多或多对多, 评价此 类二分网络的社区划分结果则需用二分模块度。 0025 本发明使用Murata改进过的二分模块度, 将二分网络中所有顶点划分成两种不同 类型的顶点集合VX和VY, 应用于FCM算法中分别对应簇心和样本点。 对于分别来自两个集合 的点Vl和Vp, 从两个方向上(VlVXVpVY)(VlVYVpVX)计算二分模块度, 使社区划 分结果更加准确。 0026 本发明在数据集上运行FCM算法, 利用得到的簇心和原始数据点构建加权二分网 络, 权值由隶属度表示, 计算二分模块度, 并结合类内紧致性和类间分离性, 提出一种新的 有效的模糊聚类评价方法, 并在每个数据集中均加入10比例的噪声数据进行实验, 结果 证明, 该指标在预测类簇数目的准确率以及鲁棒性方面表现最优。 说明书 3/3 页 5 CN 110097072 A 5 。

展开阅读全文
内容关键字: 基于 二分 模块 模糊 评价 方法
关于本文
本文标题:基于二分模块度的模糊聚类评价方法.pdf
链接地址:https://www.zhuanlichaxun.net/pdf/11471557.html
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1