一种融合粗糙集与粒计算的分布异构海量城市安全数据流的在线数据挖掘方法.pdf

上传人：a3

文档编号：6178860

上传时间：2019-05-17

格式：PDF

页数：8

大小：694.82KB

《一种融合粗糙集与粒计算的分布异构海量城市安全数据流的在线数据挖掘方法.pdf》由会员分享，可在线阅读，更多相关《一种融合粗糙集与粒计算的分布异构海量城市安全数据流的在线数据挖掘方法.pdf（8页完整版）》请在专利查询网上搜索。

1、(10)申请公布号 CN 103699622 A (43)申请公布日 2014.04.02 CN 103699622 A (21)申请号 201310703765.7 (22)申请日 2013.12.19 G06F 17/30(2006.01) (71)申请人浙江工商大学地址 310018 浙江省杭州市下沙高教园区学正街 18 号 (72)发明人陈庭贵周广澜许翀寰 (74)专利代理机构杭州斯可睿专利事务所有限公司 33241 代理人王利强 (54) 发明名称一种融合粗糙集与粒计算的分布异构海量城市安全数据流的在线数据挖掘方法 (57) 摘要一种融合粗糙集与粒计算的分布异。

2、构海量城市安全数据流的在线数据挖掘方法，引入粗糙集理论、数据挖掘技术实现城市安全数据流的分析与挖掘，首先建立分布异步海量数据流概念形式化描述模型；其次对概念模型进行偶合分析；再次提出基于属性约简的粗糙集海量数据分割方法并采用基于概念格的节点对的关联规则挖掘找出节点间的关联性，最后通过可伸缩粒计算获取影响城市安全的关键事件信息，实现城市的数字化管理。本发明提供了一种挖掘的准确性高、及时性较好、数据有效性良好的融合粗糙集与粒计算的分布异构海量城市安全数据流的在线数据挖掘方法。 (51)Int.Cl. 权利要求书 2 页说明书 4 页附图 1 页。

3、(19)中华人民共和国国家知识产权局 (12)发明专利申请权利要求书2页说明书4页附图1页 (10)申请公布号 CN 103699622 A CN 103699622 A 1/2 页 2 1. 一种融合粗糙集与粒计算的分布异构海量城市安全数据流的在线数据挖掘方法，其特征在于：所述在线数据挖掘方法包括以下步骤： 1) 分布异步海量数据流概念形式化描述：通过数据流的粒化，对概念进行粒的表示、特征化、描述和解释；基于粒计算的概念分析过程包括以下步骤：概念分层，采用粒计算模型中的概念格、粒度划分；建立概念之间关系；描述概念的外延和内涵，对属性和对象进。

4、行描述，表明概念之间的泛化关系；通过对概念的外延偶合度、内涵偶合度和概念偶合度的分析，挖掘数据流隐藏的特征； 2) 概念的偶合分析：概念包括内涵和外延，用二元组表示，其中， Oa是 DS 的外延， Da是 DS 的内涵；假设一个时间段中的概念为，时间来到，概念变化为 ; 时间段内概念集合所构成的概念格设为 CL1，其后续时间段内的概念集合构成的概念格设为 CL2； 3) 建立基于属性约简的粗糙集海量数据分割方法：在考察当前的条件属性组合 A 时，分两部分来考虑：所有的相容条件分类 X(X posA(D) 且 X U/ind(A)，相容条件。

5、分类 X中的所有样本在A上都含有相同的属性值以及相同的决策值，在属性组合A下这些样本是完全相同的，因此这些样本可以随意被分割到不同的子数据集中，也不会造成正域的变化；所有的冲突条件分类 Y(Y negA(D) 且 Y U/ind(A) ； Y 中的样本在 A 上都含有相同的属性值以及不同的决策值，在分割父数据集的过程中把同一个冲突条件分类 Y 的样本分到同一个子数据集中； 4) 基于概念格的节点对的关联规则挖掘：采用基于先辈晚辈节点对的关联规则提取方法来提取概念格上的关联规则，关联规则基于频繁项集挖掘，它的两个重要的兴趣度度量指标是支持度和置信度，支持度表明规。

6、则的可用性，而置信度则表明规则的确定性，对于概念格中的先辈晚辈节点对 (C1,C2)，假定 C1 (O1 O,A),C2 (O,A B)，则在具有 A 属性的 |O1 O| 个对象中有 |O| 个也具有 B 属性，即可得到关联规则其支持度是置信度是在概念格上提取规则：提取外延对象数大于等于支持度阈值，且晚辈外延对象个数与先辈外延对象个数的比值大于等于置信度阈值的节点对； 5) 可伸缩粒计算知识的获取：通过对信息表分层粒化模型的分析，采用一种粒分布链表方法； 6) 建立面向分布异构海量的城市安全数据流挖掘系统架构：采用四种辅助网格服务。

7、来支持网格数据挖掘：数据传输服务、针对数据挖掘任务的资源分配和调度服务、数据分割服务以及全局模型生成服务；其中，数据传输服务：待挖掘处理数据在各网格节点之间的传输以及数据挖掘过程中需要处理的信息的过程；资源分配和调度服务：能够最优化地把数据挖掘的相关任务分配到网格资源上进行处理；权利要求书 CN 103699622 A 2 2/2 页 3 数据分割服务：作为网格下海量数据挖掘的预处理过程，为了支持网格平台对海量数据的分布式并行挖掘处理；全局模型生成服务：为了合成各个网格节点通过函数挖掘得到的局部模型。 2. 如权利要求 1 所述的融合。

8、粗糙集与粒计算的分布异构海量城市安全数据流的在线数据挖掘方法，其特征在于：所述步骤 5）中，结合数据库技术为分层粒化模型中的粒子生成粒分布链表，引入样本覆盖因子。权利要求书 CN 103699622 A 3 1/4 页 4 一种融合粗糙集与粒计算的分布异构海量城市安全数据流的在线数据挖掘方法技术领域 0001 本发明涉及一种数据挖掘技术领域知识，尤其是一种分布异构海量城市安全数据流的在线数据挖掘方法。背景技术 0002 城市公共安全状况，是一个国家竞争力和国家形象的重要标志。随着城市聚集人口和积累财富的不断增长，城市的重要性日趋明显，然而也使其面临越。

9、来越多的安全挑战。自然灾害频度和强度的增大、各类社会事故的增长以及恐怖主义的威胁，对城市预防灾害及应付突发事件的能力提出了更为严峻的要求。统计表明，我国每年因城市公共安全问题造成的经济损失达 6500 亿元，约占 GDP 总量的 6%。国务院新闻办公室 2009 年 5 月 11 日发表的中国的减灾行动白皮书指出，我国 70以上的城市、 50以上的人口分布在气象、地震、地质、海洋等自然灾害严重的地区。纵观社会发展，俄罗斯切尔诺贝利核泄露、亚洲金融风暴、日本东京地铁毒气案、 2001 年美国 “9.11” 事件、 2003 年 SARS 灾害、 2009 年。

10、 “H1N1” 甲型流感病毒疫情、 2010 年上海 “11.15” 特别重大火灾事故等历史教训时刻提醒着人们，深入开展有关城市公共安全的研究已是迫在眉睫。 0003 城市公共安全管理过程中，存在着许多潜在的、不为人知的又有用的信息，挖掘出这些信息，对提高城市安全管理有着极其重大的作用。然而由于与城市安全相关的数据通常具有数据量大、变化快、随机存取代价高、详细数据难以存储等特点，因此如何准确、及时的对其进行挖掘，发现具有较高价值的信息是目前研究的难点与热点。发明内容 0004 为了克服已有城市公共安全数据的无法进行准确、及时挖掘、数据的有效性较差的不足，本。

11、发明提供了一种挖掘的准确性高、及时性较好、数据有效性良好的融合粗糙集与粒计算的分布异构海量城市安全数据流的在线数据挖掘方法。 0005 本发明解决其技术问题所采用的技术方案是： 0006 一种融合粗糙集与粒计算的分布异构海量城市安全数据流的在线数据挖掘方法，所述在线数据挖掘方法包括以下步骤： 0007 1) 分布异步海量数据流概念形式化描述：通过数据流的粒化，对概念进行粒的表示、特征化、描述和解释；基于粒计算的概念分析过程包括以下步骤：概念分层，采用粒计算模型中的概念格、粒度划分；建立概念之间关系；描述概念的外延和内涵，对属性和对象进行描述，。

12、表明概念之间的泛化关系；通过对概念的外延偶合度、内涵偶合度和概念偶合度的分析，挖掘数据流隐藏的特征； 0008 2) 概念的偶合分析：概念包括内涵和外延，用二元组表示，其中， Oa是 DS 的外延， Da是 DS 的内涵；假设一个时间段中的概念为，时间来到，概念变化为 ; 时间段内概念集合所构成的概念格设为 CL1，其后说明书 CN 103699622 A 4 2/4 页 5 续时间段内的概念集合构成的概念格设为 CL2； 0009 3) 建立基于属性约简的粗糙集海量数据分割方法：在考察当前的条件属性组合 A 时，分两部分来考虑：所有的相。

13、容条件分类X(XposA(D)且XU/ind(A)，相容条件分类 X 中的所有样本在 A 上都含有相同的属性值以及相同的决策值，在属性组合 A 下这些样本是完全相同的，因此这些样本可以随意被分割到不同的子数据集中，也不会造成正域的变化；所有的冲突条件分类 Y(Y negA(D) 且 Y U/ind(A) ； Y 中的样本在 A 上都含有相同的属性值以及不同的决策值，在分割父数据集的过程中把同一个冲突条件分类 Y 的样本分到同一个子数据集中； 0010 4) 基于概念格的节点对的关联规则挖掘：采用基于先辈晚辈节点对的关联规则提取方法来提取概念格上的关联规则，关联。

14、规则基于频繁项集挖掘，它的两个重要的兴趣度度量指标是支持度和置信度，支持度表明规则的可用性，而置信度则表明规则的确定性，对于概念格中的先辈晚辈节点，假定 .C1 (O1 O,A),C2 (O,A B)，则在具有 A 属性的 |O1 O| 个对象中有 |O| 个也具有 B 属性，即可得到关联规则其支持度是置信度是 0011 在概念格上提取规则：提取外延对象数大于等于支持度阈值，且晚辈外延对象个数与先辈外延对象个数的比值大于等于置信度阈值的节点对； 0012 5) 可伸缩粒计算知识的获取：通过对信息表分层粒化模型的分析，采用一种粒分布链表方。

15、法； 0013 6) 建立面向分布异构海量的城市安全数据流挖掘系统架构：采用四种辅助网格服务来支持网格数据挖掘：数据传输服务、针对数据挖掘任务的资源分配和调度服务、数据分割服务以及全局模型生成服务； 0014 其中，数据传输服务：待挖掘处理数据在各网格节点之间的传输以及数据挖掘过程中需要处理的信息的过程； 0015 资源分配和调度服务：能够最优化地把数据挖掘的相关任务分配到网格资源上进行处理； 0016 数据分割服务：作为网格下海量数据挖掘的预处理过程，为了支持网格平台对海量数据的分布式并行挖掘处理； 0017 全局模型生成服务：为了合成各个。

16、网格节点通过函数挖掘得到的局部模型。 0018 进一步，所述步骤 5）中，结合数据库技术为分层粒化模型中的粒子生成粒分布链表，引入样本覆盖因子。 0019 本发明的技术构思为：本发明引入粗糙集理论、数据挖掘技术实现城市安全数据流的分析与挖掘，首先建立分布异步海量数据流概念形式化描述模型；其次对概念模型进行偶合分析；再次提出基于属性约简的粗糙集海量数据分割方法并采用基于概念格的节点对的关联规则挖掘找出节点间的关联性，最后通过可伸缩粒计算获取影响城市安全的关键事件信息，实现城市的数字化管理。说明书 CN 103699622 A 5 3/4 页 6 002。

17、0 本发明以城市管理过程中分布异构海量数据流为研究对象，引入粗糙集理论、数据挖掘技术，充分考虑城市安全事故特征，提出一种融合粗糙集与粒计算的分布异构海量城市安全数据流的在线数据挖掘方法。通过该方法帮助政府部门实现对城市公共安全的监控、管理。 0021 本发明的有益效果在于：有效克服了现有技术对城市安全动态数据流进行挖掘过程中，数据流所具有的数据量大、变化快、随机存取代价高、详细数据难以存储等难点，挖掘的准确性高、及时性较好、数据有效性良好，使得政府部门能够对城市安全实现有效的监督与管理，具有良好的应用价值。附图说明 0022 图 1 是数据流概念。

18、形式化分析流程。具体实施方式 0023 下面结合附图对本发明作进一步描述。 0024 参照图 1，一种融合粗糙集与粒计算的分布异构海量城市安全数据流的在线数据挖掘方法，包括以下步骤： 0025 1) 分布异步海量数据流概念形式化描述：通过数据流的粒化，对概念进行粒的表示、特征化、描述和解释。基于粒计算的概念分析主要基于以下步骤：概念分层，采用粒计算模型中的概念格、粒度划分；建立概念之间关系；描述概念的外延和内涵，对属性和对象进行描述，表明概念之间的泛化关系；通过对概念的外延偶合度、内涵偶合度和概念偶合度的分析，挖掘数据流隐藏的特征。图。

19、1 是概念形式化分析流程； 0026 2)概念的偶合分析：概念包括内涵和外延，用二元组表示，其中Oa是DS的外延， Da是 DS 的内涵。概念之间的关系主要是基于概念的外延的。随着时间变化，数据流不断更新，一个具体时间段内的 DS 集合中的元素也发生变化：如果集合的元素被添加 ( 削减 )，那么一个概念的外延也可能会扩大 ( 减少 ) 或保持；如果在同一时间段内同时由元素添加和削减，那么概念的外延也可能会扩大，减少或保持。总之，在不同的时间段内外延和内涵都可能发生变化，假设一个时间段中的概念为，时间来到，概念变化为 ; 时间段内概念集合所构成。

20、的概念格设为 CL1，其后续时间段内的概念集合构成的概念格设为 CL2； 0027 3) 建立基于属性约简的粗糙集海量数据分割方法：在整个数据分割的过程中，需要尽量保持数据集的分类能力不变。这里首先通过分析粗糙集的特点，定义什么样的分割才是最佳分割。如果一个信息系统经过分割以后，可以从分割以后的信息系统中得到与原始系统相同的知识或者规则，则称这样的分割是最佳分割。要寻找最佳分割需要考察所有的条件属性组合。在考察当前的条件属性组合 A 时，为了找到最佳分割，这里分两部分来考虑：所有的相容条件分类 X(X posA(D) 且 X U/ind(A)。相容条件分类 X。

21、中的所有样本在 A 上都含有相同的属性值以及相同的决策值，在属性组合 A 下这些样本是完全相同的，因此这些样本可以随意被分割到不同的子数据集中，也不会造成正域的变化；所有的冲突条件分类 Y(Y negA(D) 且 Y U/ind(A)。Y 中的样本在 A 上都含有相同的属性值以及不同的决策值，如果 Y 中的样本随意分割很可能会导致相同条件分类的多，从而新增说明书 CN 103699622 A 6 4/4 页 7 了一些错误的规则。因此在分割父数据集的过程中应该尽可能把同一个冲突条件分类 Y 的样本分到同一个子数据集中； 0028 4) 基于概念格的节点对的关联。

22、规则挖掘：概念的内涵与事务数据库中的项目集非常类似，而且有更严格的限制，因此可以在概念格上提取关联规则，而且比直接在事务数据库上提取有更多的优势。采用基于先辈晚辈节点对的关联规则提取方法来提取概念格上的关联规则。关联规则基于频繁项集挖掘，它的两个重要的兴趣度度量指标是支持度和置信度。支持度表明规则的可用性，而置信度则表明规则的确定性。对于概念格中的先辈晚辈节点，假定 .C1 (O1 O,A),C2 (O,A B)，则在具有 A 属性的 |O1 O| 个对象中有 |O| 个也具有 B 属性，即可得到关联规则其支持度是置信度是在实际应用中，大。

23、于等于支持度阈值和置信度阈值的规则才是我们关心的规则。在概念格上提取规则，只需要关心外延对象数大于等于支持度阈值，且晚辈外延对象个数与先辈外延对象个数的比值大于等于置信度阈值的节点对； 0029 5) 可伸缩粒计算知识的获取：通过对信息表分层粒化模型的分析，采用一种粒分布链表方法。结合成熟的数据库技术，为分层粒化模型中的粒子生成粒分布链表，解决 SMLGRC算法在处理海量数据时的内存限制问题。同时，样本覆盖因子的概念的引入，能该有效控制算法生成规则，它可以避免冲突规则的产生，并且只有在产生冲突规则时起作用。改进的算法在不影响原算法有效性的基础上可以很好的。

24、适用于海量数据集； 0030 6) 建立面向分布异构海量的城市安全数据流挖掘系统架构：为了支持网格数据挖掘顺利进行，除了需要核心的数据挖掘算法的支持以外，还需要很多辅助的功能支持。这里进一步设计了四种辅助网格服务来支持网格数据挖掘：数据传输服务、针对数据挖掘任务的资源分配和调度服务、数据分割服务以及全局模型生成服务。其中数据传输服务主要负责待挖掘处理数据在各网格节点之间的传输以及数据挖掘过程中需要处理的一些信息的过程；资源分配和调度服务主要是为了能够最优化地把数据挖掘的相关任务分配到合适的网格资源上进行处理，以保证有限的网格资源的最大化利用；数据分割服务作为网格下海量数据挖掘的预处理过程，主要是为了支持网格平台对海量数据的分布式并行挖掘处理；全局模型生成服务主要是为了合成各个网格节点通过函数挖掘得到的局部模型。为了保证网格数据挖掘的顺利进行，上述各个服务要协同作用，相互支持。说明书 CN 103699622 A 7 1/1 页 8 图 1 说明书附图 CN 103699622 A 8 。

摘要
申请专利号：	CN201310703765.7	申请日：	2013.12.19
公开号：	CN103699622A	公开日：	2014.04.02
当前法律状态：	驳回	有效性：	无权
法律详情：	发明专利申请公布后的驳回IPC(主分类):G06F 17/30申请公布日:20140402\|\|\|实质审查的生效IPC(主分类):G06F 17/30申请日:20131219\|\|\|公开
IPC分类号：	G06F17/30	主分类号：	G06F17/30
申请人：	浙江工商大学
发明人：	陈庭贵; 周广澜; 许翀寰
地址：	310018 浙江省杭州市下沙高教园区学正街18号
优先权：
专利代理机构：	杭州斯可睿专利事务所有限公司 33241	代理人：	王利强
PDF完整版下载：	PDF下载

内容摘要

一种融合粗糙集与粒计算的分布异构海量城市安全数据流的在线数据挖掘方法，引入粗糙集理论、数据挖掘技术实现城市安全数据流的分析与挖掘，首先建立分布异步海量数据流概念形式化描述模型；其次对概念模型进行偶合分析；再次提出基于属性约简的粗糙集海量数据分割方法并采用基于概念格的节点对的关联规则挖掘找出节点间的关联性，最后通过可伸缩粒计算获取影响城市安全的关键事件信息，实现城市的数字化管理。本发明提供了一种挖掘的准确性高、及时性较好、数据有效性良好的融合粗糙集与粒计算的分布异构海量城市安全数据流的在线数据挖掘方法。

权利要求书

权利要求书
1. 一种融合粗糙集与粒计算的分布异构海量城市安全数据流的在线数据挖掘方法，其特征在于：所述在线数据挖掘方法包括以下步骤：
1)分布异步海量数据流概念形式化描述：通过数据流的粒化，对概念进行粒的表示、特征化、描述和解释；基于粒计算的概念分析过程包括以下步骤：①概念分层，采用粒计算模型中的概念格、粒度划分；②建立概念之间关系；③描述概念的外延和内涵，对属性和对象进行描述，表明概念之间的泛化关系；④通过对概念的外延偶合度、内涵偶合度和概念偶合度的分析，挖掘数据流隐藏的特征；
2)概念的偶合分析：概念包括内涵和外延，用二元组<Oa;Da>表示，其中，Oa是DS的外延，Da是DS的内涵；假设一个时间段<τb;τe>中的概念为<Oa;Da>，时间来到<τb;τe>，概念变化为<Oa;Da>;<τb;τe>时间段内概念集合所构成的概念格设为CL1，其后续时间段<τb;τe>内的概念集合构成的概念格设为CL2；
3)建立基于属性约简的粗糙集海量数据分割方法：在考察当前的条件属性组合A时，分两部分来考虑：①所有的相容条件分类X(X∈posA(D))且X∈U/ind(A)，相容条件分类X中的所有样本在A上都含有相同的属性值以及相同的决策值，在属性组合A下这些样本是完全相同的，因此这些样本可以随意被分割到不同的子数据集中，也不会造成正域的变化；②所有的冲突条件分类Y(Y∈negA(D))且Y∈U/ind(A)；Y中的样本在A上都含有相同的属性值以及不同的决策值，在分割父数据集的过程中把同一个冲突条件分类Y的样本分到同一个子数据集中；
4)基于概念格的节点对的关联规则挖掘：采用基于先辈晚辈节点对的关联规则提取方法来提取概念格上的关联规则，关联规则基于频繁项集挖掘，它的两个重要的兴趣度度量指标是支持度和置信度，支持度表明规则的可用性，而置信度则表明规则的确定性，对于概念格中的先辈晚辈节点对(C1,C2)，假定C1＝(O1∪O,A),C2＝(O,A∪B)，则在具有A属性的|O1∪O|个对象中有|O|个也具有B属性，即可得到关联规则其支持度是λsup port=(A&DoubleRightArrow;B)=|O|U=|extent(C2)||U|,]]>置信度是λconfidence(A&DoubleRightArrow;B)=|O||O1∪O|=|extent(C2)||extent(C1)|;]]>
在概念格上提取规则：提取外延对象数大于等于支持度阈值，且晚辈外延对象个数与先辈外延对象个数的比值大于等于置信度阈值的节点对；
5)可伸缩粒计算知识的获取：通过对信息表分层粒化模型的分析，采用一种粒分布链表方法；
6)建立面向分布异构海量的城市安全数据流挖掘系统架构：采用四种辅助网格服务来支持网格数据挖掘：数据传输服务、针对数据挖掘任务的资源分配和调度服务、数据分割服务以及全局模型生成服务；
其中，数据传输服务：待挖掘处理数据在各网格节点之间的传输以及数据挖掘过程中需要处理的信息的过程；
资源分配和调度服务：能够最优化地把数据挖掘的相关任务分配到网格资源上进行处理；
数据分割服务：作为网格下海量数据挖掘的预处理过程，为了支持网格平台对海量数据的分布式并行挖掘处理；
全局模型生成服务：为了合成各个网格节点通过函数挖掘得到的局部模型。

2. 如权利要求1所述的融合粗糙集与粒计算的分布异构海量城市安全数据流的在线数据挖掘方法，其特征在于：所述步骤5）中，结合数据库技术为分层粒化模型中的粒子生成粒分布链表，引入样本覆盖因子。

说明书

说明书一种融合粗糙集与粒计算的分布异构海量城市安全数据流的在线数据挖掘方法
技术领域
本发明涉及一种数据挖掘技术领域知识，尤其是一种分布异构海量城市安全数据流的在线数据挖掘方法。
背景技术
城市公共安全状况，是一个国家竞争力和国家形象的重要标志。随着城市聚集人口和积累财富的不断增长，城市的重要性日趋明显，然而也使其面临越来越多的安全挑战。自然灾害频度和强度的增大、各类社会事故的增长以及恐怖主义的威胁，对城市预防灾害及应付突发事件的能力提出了更为严峻的要求。统计表明，我国每年因城市公共安全问题造成的经济损失达6500亿元，约占GDP总量的6%。国务院新闻办公室2009年5月11日发表的《中国的减灾行动》白皮书指出，我国70％以上的城市、50％以上的人口分布在气象、地震、地质、海洋等自然灾害严重的地区。纵观社会发展，俄罗斯切尔诺贝利核泄露、亚洲金融风暴、日本东京地铁毒气案、2001年美国“9.11”事件、2003年SARS灾害、2009年“H1N1”甲型流感病毒疫情、2010年上海“11.15”特别重大火灾事故等历史教训时刻提醒着人们，深入开展有关城市公共安全的研究已是迫在眉睫。
城市公共安全管理过程中，存在着许多潜在的、不为人知的又有用的信息，挖掘出这些信息，对提高城市安全管理有着极其重大的作用。然而由于与城市安全相关的数据通常具有数据量大、变化快、随机存取代价高、详细数据难以存储等特点，因此如何准确、及时的对其进行挖掘，发现具有较高价值的信息是目前研究的难点与热点。
发明内容
为了克服已有城市公共安全数据的无法进行准确、及时挖掘、数据的有效性较差的不足，本发明提供了一种挖掘的准确性高、及时性较好、数据有效性良好的融合粗糙集与粒计算的分布异构海量城市安全数据流的在线数据挖掘方法。
本发明解决其技术问题所采用的技术方案是：
一种融合粗糙集与粒计算的分布异构海量城市安全数据流的在线数据挖掘方法，所述在线数据挖掘方法包括以下步骤：
1)分布异步海量数据流概念形式化描述：通过数据流的粒化，对概念进行粒的表示、特征化、描述和解释；基于粒计算的概念分析过程包括以下步骤：①概念分层，采用粒计算模型中的概念格、粒度划分；②建立概念之间关系；③描述概念的外延和内涵，对属性和对象进行描述，表明概念之间的泛化关系；④通过对概念的外延偶合度、内涵偶合度和概念偶合度的分析，挖掘数据流隐藏的特征；
2)概念的偶合分析：概念包括内涵和外延，用二元组<Oa;Da>表示，其中，Oa是DS的外延，Da是DS的内涵；假设一个时间段<τb;τe>中的概念为<Oa;Da>，时间来到<τb;τe>，概念变化为<Oa;Da>;<τb;τe>时间段内概念集合所构成的概念格设为CL1，其后续时间段<τb;τe>内的概念集合构成的概念格设为CL2；
3)建立基于属性约简的粗糙集海量数据分割方法：在考察当前的条件属性组合A时，分两部分来考虑：①所有的相容条件分类X(X∈posA(D))且X∈U/ind(A)，相容条件分类X中的所有样本在A上都含有相同的属性值以及相同的决策值，在属性组合A下这些样本是完全相同的，因此这些样本可以随意被分割到不同的子数据集中，也不会造成正域的变化；②所有的冲突条件分类Y(Y∈negA(D))且Y∈U/ind(A)；Y中的样本在A上都含有相同的属性值以及不同的决策值，在分割父数据集的过程中把同一个冲突条件分类Y的样本分到同一个子数据集中；
4)基于概念格的节点对的关联规则挖掘：采用基于先辈晚辈节点对的关联规则提取方法来提取概念格上的关联规则，关联规则基于频繁项集挖掘，它的两个重要的兴趣度度量指标是支持度和置信度，支持度表明规则的可用性，而置信度则表明规则的确定性，对于概念格中的先辈晚辈节点，假定.C1＝(O1∪O,A),C2＝(O,A∪B)，则在具有A属性的|O1∪O|个对象中有|O|个也具有B属性，即可得到关联规则其支持度是λsup port=(A&DoubleRightArrow;B)=|O|U=|extent(C2)||U|,]]>置信度是λconfidence(A&DoubleRightArrow;B)=|O||O1∪O|=|extent(C2)||extent(C1)|·;]]>
在概念格上提取规则：提取外延对象数大于等于支持度阈值，且晚辈外延对象个数与先辈外延对象个数的比值大于等于置信度阈值的节点对；
5)可伸缩粒计算知识的获取：通过对信息表分层粒化模型的分析，采用一种粒分布链表方法；
6)建立面向分布异构海量的城市安全数据流挖掘系统架构：采用四种辅助网格服务来支持网格数据挖掘：数据传输服务、针对数据挖掘任务的资源分配和调度服务、数据分割服务以及全局模型生成服务；
其中，数据传输服务：待挖掘处理数据在各网格节点之间的传输以及数据挖掘过程中需要处理的信息的过程；
资源分配和调度服务：能够最优化地把数据挖掘的相关任务分配到网格资源上进行处理；
数据分割服务：作为网格下海量数据挖掘的预处理过程，为了支持网格平台对海量数据的分布式并行挖掘处理；
全局模型生成服务：为了合成各个网格节点通过函数挖掘得到的局部模型。
进一步，所述步骤5）中，结合数据库技术为分层粒化模型中的粒子生成粒分布链表，引入样本覆盖因子。
本发明的技术构思为：本发明引入粗糙集理论、数据挖掘技术实现城市安全数据流的分析与挖掘，首先建立分布异步海量数据流概念形式化描述模型；其次对概念模型进行偶合分析；再次提出基于属性约简的粗糙集海量数据分割方法并采用基于概念格的节点对的关联规则挖掘找出节点间的关联性，最后通过可伸缩粒计算获取影响城市安全的关键事件信息，实现城市的数字化管理。
本发明以城市管理过程中分布异构海量数据流为研究对象，引入粗糙集理论、数据挖掘技术，充分考虑城市安全事故特征，提出一种融合粗糙集与粒计算的分布异构海量城市安全数据流的在线数据挖掘方法。通过该方法帮助政府部门实现对城市公共安全的监控、管理。
本发明的有益效果在于：有效克服了现有技术对城市安全动态数据流进行挖掘过程中，数据流所具有的数据量大、变化快、随机存取代价高、详细数据难以存储等难点，挖掘的准确性高、及时性较好、数据有效性良好，使得政府部门能够对城市安全实现有效的监督与管理，具有良好的应用价值。
附图说明
图1是数据流概念形式化分析流程。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1，一种融合粗糙集与粒计算的分布异构海量城市安全数据流的在线数据挖掘方法，包括以下步骤：
1)分布异步海量数据流概念形式化描述：通过数据流的粒化，对概念进行粒的表示、特征化、描述和解释。基于粒计算的概念分析主要基于以下步骤：①概念分层，采用粒计算模型中的概念格、粒度划分；②建立概念之间关系；③描述概念的外延和内涵，对属性和对象进行描述，表明概念之间的泛化关系；④通过对概念的外延偶合度、内涵偶合度和概念偶合度的分析，挖掘数据流隐藏的特征。图1是概念形式化分析流程；
2)概念的偶合分析：概念包括内涵和外延，用二元组<Oa;Da>表示，其中Oa是DS的外延，Da是DS的内涵。概念之间的关系主要是基于概念的外延的。随着时间变化，数据流不断更新，一个具体时间段内的DS集合中的元素也发生变化：如果集合的元素被添加(削减)，那么一个概念的外延也可能会扩大(减少)或保持；如果在同一时间段内同时由元素添加和削减，那么概念的外延也可能会扩大，减少或保持。总之，在不同的时间段内外延和内涵都可能发生变化，假设一个时间段<τb;τe>中的概念为<Oa;Da>，时间来到<τb;τe>，概念变化为<Oa;Da>;<τb;τe>时间段内概念集合所构成的概念格设为CL1，其后续时间段<τb;τe>内的概念集合构成的概念格设为CL2；
3)建立基于属性约简的粗糙集海量数据分割方法：在整个数据分割的过程中，需要尽量保持数据集的分类能力不变。这里首先通过分析粗糙集的特点，定义什么样的分割才是最佳分割。如果一个信息系统经过分割以后，可以从分割以后的信息系统中得到与原始系统相同的知识或者规则，则称这样的分割是最佳分割。要寻找最佳分割需要考察所有的条件属性组合。在考察当前的条件属性组合A时，为了找到最佳分割，这里分两部分来考虑：①所有的相容条件分类X(X∈posA(D))且X∈U/ind(A)。相容条件分类X中的所有样本在A上都含有相同的属性值以及相同的决策值，在属性组合A下这些样本是完全相同的，因此这些样本可以随意被分割到不同的子数据集中，也不会造成正域的变化；②所有的冲突条件分类Y(Y∈negA(D))且Y∈U/ind(A)。Y中的样本在A上都含有相同的属性值以及不同的决策值，如果Y中的样本随意分割很可能会导致相同条件分类的多，从而新增了一些错误的规则。因此在分割父数据集的过程中应该尽可能把同一个冲突条件分类Y的样本分到同一个子数据集中；
4)基于概念格的节点对的关联规则挖掘：概念的内涵与事务数据库中的项目集非常类似，而且有更严格的限制，因此可以在概念格上提取关联规则，而且比直接在事务数据库上提取有更多的优势。采用基于先辈晚辈节点对的关联规则提取方法来提取概念格上的关联规则。关联规则基于频繁项集挖掘，它的两个重要的兴趣度度量指标是支持度和置信度。支持度表明规则的可用性，而置信度则表明规则的确定性。对于概念格中的先辈晚辈节点，假定.C1＝(O1∪O,A),C2＝(O,A∪B)，则在具有A属性的|O1∪O|个对象中有|O|个也具有B属性，即可得到关联规则其支持度是λsup port=(A&DoubleRightArrow;B)=|O|U=|extent(C2)||U|,]]>置信度是λconfidence(A&DoubleRightArrow;B)=|O||O1∪O|=|extent(C2)||extent(C1)|·;]]>在实际应用中，大于等于支持度阈值和置信度阈值的规则才是我们关心的规则。在概念格上提取规则，只需要关心外延对象数大于等于支持度阈值，且晚辈外延对象个数与先辈外延对象个数的比值大于等于置信度阈值的节点对；
5)可伸缩粒计算知识的获取：通过对信息表分层粒化模型的分析，采用一种粒分布链表方法。结合成熟的数据库技术，为分层粒化模型中的粒子生成粒分布链表，解决SMLGRC算法在处理海量数据时的内存限制问题。同时，样本覆盖因子的概念的引入，能该有效控制算法生成规则，它可以避免冲突规则的产生，并且只有在产生冲突规则时起作用。改进的算法在不影响原算法有效性的基础上可以很好的适用于海量数据集；
6)建立面向分布异构海量的城市安全数据流挖掘系统架构：为了支持网格数据挖掘顺利进行，除了需要核心的数据挖掘算法的支持以外，还需要很多辅助的功能支持。这里进一步设计了四种辅助网格服务来支持网格数据挖掘：数据传输服务、针对数据挖掘任务的资源分配和调度服务、数据分割服务以及全局模型生成服务。其中数据传输服务主要负责待挖掘处理数据在各网格节点之间的传输以及数据挖掘过程中需要处理的一些信息的过程；资源分配和调度服务主要是为了能够最优化地把数据挖掘的相关任务分配到合适的网格资源上进行处理，以保证有限的网格资源的最大化利用；数据分割服务作为网格下海量数据挖掘的预处理过程，主要是为了支持网格平台对海量数据的分布式并行挖掘处理；全局模型生成服务主要是为了合成各个网格节点通过函数挖掘得到的局部模型。为了保证网格数据挖掘的顺利进行，上述各个服务要协同作用，相互支持。