《一种融合粗糙集与粒计算的分布异构海量城市安全数据流的在线数据挖掘方法.pdf》由会员分享,可在线阅读,更多相关《一种融合粗糙集与粒计算的分布异构海量城市安全数据流的在线数据挖掘方法.pdf(8页完整版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 103699622 A (43)申请公布日 2014.04.02 CN 103699622 A (21)申请号 201310703765.7 (22)申请日 2013.12.19 G06F 17/30(2006.01) (71)申请人 浙江工商大学 地址 310018 浙江省杭州市下沙高教园区学 正街 18 号 (72)发明人 陈庭贵 周广澜 许翀寰 (74)专利代理机构 杭州斯可睿专利事务所有限 公司 33241 代理人 王利强 (54) 发明名称 一种融合粗糙集与粒计算的分布异构海量城 市安全数据流的在线数据挖掘方法 (57) 摘要 一种融合粗糙集与粒计算的分布异。
2、构海量城 市安全数据流的在线数据挖掘方法, 引入粗糙集 理论、 数据挖掘技术实现城市安全数据流的分析 与挖掘, 首先建立分布异步海量数据流概念形式 化描述模型 ; 其次对概念模型进行偶合分析 ; 再 次提出基于属性约简的粗糙集海量数据分割方法 并采用基于概念格的节点对的关联规则挖掘找出 节点间的关联性, 最后通过可伸缩粒计算获取影 响城市安全的关键事件信息, 实现城市的数字化 管理。 本发明提供了一种挖掘的准确性高、 及时性 较好、 数据有效性良好的融合粗糙集与粒计算的 分布异构海量城市安全数据流的在线数据挖掘方 法。 (51)Int.Cl. 权利要求书 2 页 说明书 4 页 附图 1 页 。
3、(19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书2页 说明书4页 附图1页 (10)申请公布号 CN 103699622 A CN 103699622 A 1/2 页 2 1. 一种融合粗糙集与粒计算的分布异构海量城市安全数据流的在线数据挖掘方法, 其 特征在于 : 所述在线数据挖掘方法包括以下步骤 : 1) 分布异步海量数据流概念形式化描述 : 通过数据流的粒化, 对概念进行粒的表示、 特征化、 描述和解释 ; 基于粒计算的概念分析过程包括以下步骤 : 概念分层, 采用粒计算 模型中的概念格、 粒度划分 ; 建立概念之间关系 ; 描述概念的外延和内涵, 对属性和对 象进。
4、行描述, 表明概念之间的泛化关系 ; 通过对概念的外延偶合度、 内涵偶合度和概念偶 合度的分析, 挖掘数据流隐藏的特征 ; 2) 概念的偶合分析 : 概念包括内涵和外延, 用二元组 表示, 其中, Oa是 DS 的外 延, Da是 DS 的内涵 ; 假设一个时间段 中的概念为 , 时间来到 , 概念变化为 ; 时间段内概念集合所构成的概念格设为 CL1, 其后续时间段 内的概念集合构成的概念格设为 CL2; 3) 建立基于属性约简的粗糙集海量数据分割方法 : 在考察当前的条件属性组合 A 时, 分两部分来考虑 : 所有的相容条件分类 X(X posA(D) 且 X U/ind(A), 相容条件。
5、分类 X中的所有样本在A上都含有相同的属性值以及相同的决策值, 在属性组合A下这些样本是 完全相同的, 因此这些样本可以随意被分割到不同的子数据集中, 也不会造成正域的变化 ; 所有的冲突条件分类 Y(Y negA(D) 且 Y U/ind(A) ; Y 中的样本在 A 上都含有相同的 属性值以及不同的决策值, 在分割父数据集的过程中把同一个冲突条件分类 Y 的样本分到 同一个子数据集中 ; 4) 基于概念格的节点对的关联规则挖掘 : 采用基于先辈晚辈节点对的关联规则 提取方法来提取概念格上的关联规则, 关联规则基于频繁项集挖掘, 它的两个重要的 兴趣度度量指标是支持度和置信度, 支持度表明规。
6、则的可用性, 而置信度则表明规 则的确定性, 对于概念格中的先辈晚辈节点对 (C1,C2), 假定 C1 (O1 O,A),C2 (O,A B), 则在具有 A 属性的 |O1 O| 个对象中有 |O| 个也具有 B 属性, 即可得到 关 联 规 则其 支 持 度 是置 信 度 是 在概念格上提取规则 : 提取外延对象数大于等于支持度阈值, 且晚辈外延对象个数与 先辈外延对象个数的比值大于等于置信度阈值的节点对 ; 5) 可伸缩粒计算知识的获取 : 通过对信息表分层粒化模型的分析, 采用一种粒分布链 表方法 ; 6) 建立面向分布异构海量的城市安全数据流挖掘系统架构 : 采用四种辅助网格服务 。
7、来支持网格数据挖掘 : 数据传输服务、 针对数据挖掘任务的资源分配和调度服务、 数据分割 服务以及全局模型生成服务 ; 其中, 数据传输服务 : 待挖掘处理数据在各网格节点之间的传输以及数据挖掘过程中 需要处理的信息的过程 ; 资源分配和调度服务 : 能够最优化地把数据挖掘的相关任务分配到网格资源上进行处 理 ; 权 利 要 求 书 CN 103699622 A 2 2/2 页 3 数据分割服务 : 作为网格下海量数据挖掘的预处理过程, 为了支持网格平台对海量数 据的分布式并行挖掘处理 ; 全局模型生成服务 : 为了合成各个网格节点通过函数挖掘得到的局部模型。 2. 如权利要求 1 所述的融合。
8、粗糙集与粒计算的分布异构海量城市安全数据流的在线 数据挖掘方法, 其特征在于 : 所述步骤 5) 中, 结合数据库技术为分层粒化模型中的粒子生 成粒分布链表, 引入样本覆盖因子。 权 利 要 求 书 CN 103699622 A 3 1/4 页 4 一种融合粗糙集与粒计算的分布异构海量城市安全数据流 的在线数据挖掘方法 技术领域 0001 本发明涉及一种数据挖掘技术领域知识, 尤其是一种分布异构海量城市安全数据 流的在线数据挖掘方法。 背景技术 0002 城市公共安全状况, 是一个国家竞争力和国家形象的重要标志。随着城市聚集人 口和积累财富的不断增长, 城市的重要性日趋明显, 然而也使其面临越。
9、来越多的安全挑战。 自然灾害频度和强度的增大、 各类社会事故的增长以及恐怖主义的威胁, 对城市预防灾害 及应付突发事件的能力提出了更为严峻的要求。统计表明, 我国每年因城市公共安全问题 造成的经济损失达 6500 亿元, 约占 GDP 总量的 6%。国务院新闻办公室 2009 年 5 月 11 日 发表的 中国的减灾行动 白皮书指出, 我国 70以上的城市、 50以上的人口分布在气象、 地震、 地质、 海洋等自然灾害严重的地区。 纵观社会发展, 俄罗斯切尔诺贝利核泄露、 亚洲金 融风暴、 日本东京地铁毒气案、 2001 年美国 “9.11” 事件、 2003 年 SARS 灾害、 2009 年。
10、 “H1N1” 甲型流感病毒疫情、 2010 年上海 “11.15” 特别重大火灾事故等历史教训时刻提醒着人们, 深入开展有关城市公共安全的研究已是迫在眉睫。 0003 城市公共安全管理过程中, 存在着许多潜在的、 不为人知的又有用的信息, 挖掘出 这些信息, 对提高城市安全管理有着极其重大的作用。然而由于与城市安全相关的数据通 常具有数据量大、 变化快、 随机存取代价高、 详细数据难以存储等特点, 因此如何准确、 及时 的对其进行挖掘, 发现具有较高价值的信息是目前研究的难点与热点。 发明内容 0004 为了克服已有城市公共安全数据的无法进行准确、 及时挖掘、 数据的有效性较差 的不足, 本。
11、发明提供了一种挖掘的准确性高、 及时性较好、 数据有效性良好的融合粗糙集与 粒计算的分布异构海量城市安全数据流的在线数据挖掘方法。 0005 本发明解决其技术问题所采用的技术方案是 : 0006 一种融合粗糙集与粒计算的分布异构海量城市安全数据流的在线数据挖掘方法, 所述在线数据挖掘方法包括以下步骤 : 0007 1) 分布异步海量数据流概念形式化描述 : 通过数据流的粒化, 对概念进行粒的表 示、 特征化、 描述和解释 ; 基于粒计算的概念分析过程包括以下步骤 : 概念分层, 采用粒 计算模型中的概念格、 粒度划分 ; 建立概念之间关系 ; 描述概念的外延和内涵, 对属性 和对象进行描述, 。
12、表明概念之间的泛化关系 ; 通过对概念的外延偶合度、 内涵偶合度和概 念偶合度的分析, 挖掘数据流隐藏的特征 ; 0008 2) 概念的偶合分析 : 概念包括内涵和外延, 用二元组 表示, 其中, Oa是 DS 的外延, Da是 DS 的内涵 ; 假设一个时间段 中的概念为 , 时间来到 , 概念变化为 ; 时间段内概念集合所构成的概念格设为 CL1, 其后 说 明 书 CN 103699622 A 4 2/4 页 5 续时间段 内的概念集合构成的概念格设为 CL2; 0009 3) 建立基于属性约简的粗糙集海量数据分割方法 : 在考察当前的条件属性组合 A 时, 分两部分来考虑 : 所有的相。
13、容条件分类X(XposA(D)且XU/ind(A), 相容条件分 类 X 中的所有样本在 A 上都含有相同的属性值以及相同的决策值, 在属性组合 A 下这些样 本是完全相同的, 因此这些样本可以随意被分割到不同的子数据集中, 也不会造成正域的 变化 ; 所有的冲突条件分类 Y(Y negA(D) 且 Y U/ind(A) ; Y 中的样本在 A 上都含有 相同的属性值以及不同的决策值, 在分割父数据集的过程中把同一个冲突条件分类 Y 的样 本分到同一个子数据集中 ; 0010 4) 基于概念格的节点对的关联规则挖掘 : 采用基于先辈晚辈节点对的关联 规则提取方法来提取概念格上的关联规则, 关联。
14、规则基于频繁项集挖掘, 它的两个重 要的兴趣度度量指标是支持度和置信度, 支持度表明规则的可用性, 而置信度则表明 规则的确定性, 对于概念格中的先辈晚辈节点, 假定 .C1 (O1 O,A),C2 (O,A B), 则在具有 A 属性的 |O1 O| 个对象中有 |O| 个也具有 B 属性, 即可得到 关 联 规 则其 支 持 度 是置 信 度 是 0011 在概念格上提取规则 : 提取外延对象数大于等于支持度阈值, 且晚辈外延对象个 数与先辈外延对象个数的比值大于等于置信度阈值的节点对 ; 0012 5) 可伸缩粒计算知识的获取 : 通过对信息表分层粒化模型的分析, 采用一种粒分 布链表方。
15、法 ; 0013 6) 建立面向分布异构海量的城市安全数据流挖掘系统架构 : 采用四种辅助网格 服务来支持网格数据挖掘 : 数据传输服务、 针对数据挖掘任务的资源分配和调度服务、 数据 分割服务以及全局模型生成服务 ; 0014 其中, 数据传输服务 : 待挖掘处理数据在各网格节点之间的传输以及数据挖掘过 程中需要处理的信息的过程 ; 0015 资源分配和调度服务 : 能够最优化地把数据挖掘的相关任务分配到网格资源上进 行处理 ; 0016 数据分割服务 : 作为网格下海量数据挖掘的预处理过程, 为了支持网格平台对海 量数据的分布式并行挖掘处理 ; 0017 全局模型生成服务 : 为了合成各个。
16、网格节点通过函数挖掘得到的局部模型。 0018 进一步, 所述步骤 5) 中, 结合数据库技术为分层粒化模型中的粒子生成粒分布链 表, 引入样本覆盖因子。 0019 本发明的技术构思为 : 本发明引入粗糙集理论、 数据挖掘技术实现城市安全数据 流的分析与挖掘, 首先建立分布异步海量数据流概念形式化描述模型 ; 其次对概念模型进 行偶合分析 ; 再次提出基于属性约简的粗糙集海量数据分割方法并采用基于概念格的节点 对的关联规则挖掘找出节点间的关联性, 最后通过可伸缩粒计算获取影响城市安全的关键 事件信息, 实现城市的数字化管理。 说 明 书 CN 103699622 A 5 3/4 页 6 002。
17、0 本发明以城市管理过程中分布异构海量数据流为研究对象, 引入粗糙集理论、 数 据挖掘技术, 充分考虑城市安全事故特征, 提出一种融合粗糙集与粒计算的分布异构海量 城市安全数据流的在线数据挖掘方法。 通过该方法帮助政府部门实现对城市公共安全的监 控、 管理。 0021 本发明的有益效果在于 : 有效克服了现有技术对城市安全动态数据流进行挖掘过 程中, 数据流所具有的数据量大、 变化快、 随机存取代价高、 详细数据难以存储等难点, 挖掘 的准确性高、 及时性较好、 数据有效性良好, 使得政府部门能够对城市安全实现有效的监督 与管理, 具有良好的应用价值。 附图说明 0022 图 1 是数据流概念。
18、形式化分析流程。 具体实施方式 0023 下面结合附图对本发明作进一步描述。 0024 参照图 1, 一种融合粗糙集与粒计算的分布异构海量城市安全数据流的在线数据 挖掘方法, 包括以下步骤 : 0025 1) 分布异步海量数据流概念形式化描述 : 通过数据流的粒化, 对概念进行粒的表 示、 特征化、 描述和解释。 基于粒计算的概念分析主要基于以下步骤 : 概念分层, 采用粒计 算模型中的概念格、 粒度划分 ; 建立概念之间关系 ; 描述概念的外延和内涵, 对属性和 对象进行描述, 表明概念之间的泛化关系 ; 通过对概念的外延偶合度、 内涵偶合度和概念 偶合度的分析, 挖掘数据流隐藏的特征。图 。
19、1 是概念形式化分析流程 ; 0026 2)概念的偶合分析 : 概念包括内涵和外延, 用二元组表示, 其中Oa是DS的 外延, Da是 DS 的内涵。概念之间的关系主要是基于概念的外延的。随着时间变化, 数据流 不断更新, 一个具体时间段内的 DS 集合中的元素也发生变化 : 如果集合的元素被添加 ( 削 减 ), 那么一个概念的外延也可能会扩大 ( 减少 ) 或保持 ; 如果在同一时间段内同时由元素 添加和削减, 那么概念的外延也可能会扩大, 减少或保持。总之, 在不同的时间段内外延和 内涵都可能发生变化, 假设一个时间段 中的概念为 , 时间来到 , 概念变化为 ; 时间段内概念集合所构成。
20、的概念格设为 CL1, 其后续时间段 内的概念集合构成的概念格设为 CL2; 0027 3) 建立基于属性约简的粗糙集海量数据分割方法 : 在整个数据分割的过程中, 需 要尽量保持数据集的分类能力不变。这里首先通过分析粗糙集的特点, 定义什么样的分割 才是最佳分割。如果一个信息系统经过分割以后, 可以从分割以后的信息系统中得到与原 始系统相同的知识或者规则, 则称这样的分割是最佳分割。要寻找最佳分割需要考察所有 的条件属性组合。在考察当前的条件属性组合 A 时, 为了找到最佳分割, 这里分两部分来考 虑 : 所有的相容条件分类 X(X posA(D) 且 X U/ind(A)。相容条件分类 X。
21、 中的所有 样本在 A 上都含有相同的属性值以及相同的决策值, 在属性组合 A 下这些样本是完全相同 的, 因此这些样本可以随意被分割到不同的子数据集中, 也不会造成正域的变化 ; 所有的 冲突条件分类 Y(Y negA(D) 且 Y U/ind(A)。Y 中的样本在 A 上都含有相同的属性值 以及不同的决策值, 如果 Y 中的样本随意分割很可能会导致相同条件分类的多, 从而新增 说 明 书 CN 103699622 A 6 4/4 页 7 了一些错误的规则。因此在分割父数据集的过程中应该尽可能把同一个冲突条件分类 Y 的 样本分到同一个子数据集中 ; 0028 4) 基于概念格的节点对的关联。
22、规则挖掘 : 概念的内涵与事务数据库中的 项目集非常类似, 而且有更严格的限制, 因此可以在概念格上提取关联规则, 而且比 直接在事务数据库上提取有更多的优势。采用基于先辈晚辈节点对的关联规则提 取方法来提取概念格上的关联规则。关联规则基于频繁项集挖掘, 它的两个重要的 兴趣度度量指标是支持度和置信度。支持度表明规则的可用性, 而置信度则表明规 则的确定性。对于概念格中的先辈晚辈节点, 假定 .C1 (O1 O,A),C2 (O,A B), 则在具有 A 属性的 |O1 O| 个对象中有 |O| 个也具有 B 属性, 即可得到 关 联 规 则其 支 持 度 是置 信 度 是 在实际应用中, 大。
23、于等于支持度阈值和置信度阈 值的规则才是我们关心的规则。在概念格上提取规则, 只需要关心外延对象数大于等于支 持度阈值, 且晚辈外延对象个数与先辈外延对象个数的比值大于等于置信度阈值的节点 对 ; 0029 5) 可伸缩粒计算知识的获取 : 通过对信息表分层粒化模型的分析, 采用一种粒 分布链表方法。结合成熟的数据库技术, 为分层粒化模型中的粒子生成粒分布链表, 解决 SMLGRC算法在处理海量数据时的内存限制问题。 同时, 样本覆盖因子的概念的引入, 能该有 效控制算法生成规则, 它可以避免冲突规则的产生, 并且只有在产生冲突规则时起作用。 改 进的算法在不影响原算法有效性的基础上可以很好的。
24、适用于海量数据集 ; 0030 6) 建立面向分布异构海量的城市安全数据流挖掘系统架构 : 为了支持网格数据 挖掘顺利进行, 除了需要核心的数据挖掘算法的支持以外, 还需要很多辅助的功能支持。 这 里进一步设计了四种辅助网格服务来支持网格数据挖掘 : 数据传输服务、 针对数据挖掘任 务的资源分配和调度服务、 数据分割服务以及全局模型生成服务。其中数据传输服务主要 负责待挖掘处理数据在各网格节点之间的传输以及数据挖掘过程中需要处理的一些信息 的过程 ; 资源分配和调度服务主要是为了能够最优化地把数据挖掘的相关任务分配到合 适的网格资源上进行处理, 以保证有限的网格资源的最大化利用 ; 数据分割服务作为网格 下海量数据挖掘的预处理过程, 主要是为了支持网格平台对海量数据的分布式并行挖掘处 理 ; 全局模型生成服务主要是为了合成各个网格节点通过函数挖掘得到的局部模型。为了 保证网格数据挖掘的顺利进行, 上述各个服务要协同作用, 相互支持。 说 明 书 CN 103699622 A 7 1/1 页 8 图 1 说 明 书 附 图 CN 103699622 A 8 。