一种基于改进APRIORI算法的雷电活动数据统计方法.pdf

上传人：a****

文档编号：6166846

上传时间：2019-05-16

格式：PDF

页数：9

大小：543.62KB

《一种基于改进APRIORI算法的雷电活动数据统计方法.pdf》由会员分享，可在线阅读，更多相关《一种基于改进APRIORI算法的雷电活动数据统计方法.pdf（9页完整版）》请在专利查询网上搜索。

1、(10)申请公布号 CN 103593400 A (43)申请公布日 2014.02.19 CN 103593400 A (21)申请号 201310480978.8 (22)申请日 2013.12.13 G06F 17/30(2006.01) G06F 19/00(2011.01) (71)申请人陕西省气象局地址 710000 陕西省西安市莲湖区北关正街 36 号气象大厦 801 (72)发明人王卫民李婧雷欣田社教高莹 (74)专利代理机构西安亿诺专利代理有限公司 61220 代理人康凯 (54) 发明名称一种基于改进 Apriori 算法的雷电活动数据统计方法 (57。

2、) 摘要本发明提供的一种基于改进 Apriori 算法的雷电活动数据统计方法，通过： 1）计算加权支持度与加权置信度； 2) 垂直位矢量格式转换； 3) 频繁二项图生成； 4）候选项集挖掘这四个步骤，结合实际需求对各项目赋予适当权值，将原有支持度与置信度改进为更符合实际的加权支持度与加权置信度。另外，算法使用位矢量垂直数据格式存储项目信息，节省存储空间并提高 I/O 效率，改进后的算法基于自顶向下的思想，利用频繁二项有向图首先找到满足支持度与置信度要求的最长频繁项集，再根据频繁集性质生成所有符合要求的频繁集。该算法不仅在空间和时间上提高 Apr。

3、iori 算法的效率，还更贴合实际需求。 (51)Int.Cl. 权利要求书 2 页说明书 4 页附图 2 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请权利要求书2页说明书4页附图2页 (10)申请公布号 CN 103593400 A CN 103593400 A 1/2 页 2 1. 一种基于改进 Apriori 算法的雷电活动数据统计方法，其特征在于 , 包括以下步骤： 1）、计算加权支持度与加权置信度：为每个项目赋予 0,1 之间一个非负实数作为权值，以体现该项目的重要度，并根据该权值计算各项集的权重，进而推出项集的加权支持度与加权置。

4、信度，所述支持度与置信度定义是：项目集合 I= i1, i2, , im 是由 m 个不同的项组成，交易数据库 D 中每一笔交易都是 I 的一个子集，关联规则的形式为 X =Y，其中 X I， Y I，且 X Y=， X 的支持度 sup(XUY) 为 XUY 在交易数据库中出现的概率， X 的信任度 conf( XUY) 为在某交易中包含 X 前提下同对也包含 Y 的概率也就是说，关联规则 X =Y 的支持度为数据库中包含 XUY 的交易数与总交易数之比；关联规则的信任度为数据库中包含 XUY 的交易数与包含 X 的交易数之比； 2)、垂直位矢量格式转换：将。

5、原水平数据格式事务标志：事务项集转化为垂直数据格式项：事务集，然后扫描数据库一次，计算出符合加权支持度与加权置信度的频繁项，并设置它们相应的位矢量； 3)、频繁二项图生成：根据频繁项计算出符合关联规则的频繁 2 项集，以各个满足频繁 2 项集的项目作为节点，绘制出表示各个项目之间关系的有向图； 4）候选项集挖掘：通过对频繁 2 项图的深度优先遍历，找到该图的最长路径，即为最长频繁项集，继而根据任何强项集的子集必定是强项集的性质，找出所有频繁集。 2.如权利要求1所述基于改进Apriori算法的雷电活动数据统计方法，其特征在，所述步骤。

6、2）的具体过程是：如果该事务中存在对应的项免则设置对应项为 1，否则设置对应项为 0，当检查完所有事务集合每个项对应一个二进制位串，然后按照支持数从高到低排序将数据库中的项目映射到位图。 3.如权利要求1所述基于改进Apriori算法的雷电活动数据统计方法，其特征在，所述步骤 3）的具体过程是：将得到的位图中 1 出现次数最多的节点放在最上层，若某两项在一次事务中同时出现，并且出现的次数满足最小支持度要求，大于或等于最小支持度，则在有向图中这两个节点之间画一条边，边上用二进制字符串表示，二进制字符串通过两个节点求与运算得到，其中串中 1 的个数表。

7、示这两个节点同时出现的次数。 4.如权利要求1所述基于改进Apriori算法的雷电活动数据统计方法，其特征在，加权支持度与加权置信度的具体计算过程是：设 I= i1, i2, , im，对应 i 的权值向量 W= w1, w2, , wm , 第 i 个事务 ti 是 I 的一个子集， ti 中第 j 个项目（记作 ti ij）都有一个权值 w，这样每一个项目都与 W 中的一个值对应起来，项集事务权值是一个数据库中项目集中各项目的权值汇总，项目集 X 在事务 ti 中的项目权。

8、值计算为：加权支持度是事务数据库中包含该项目的事务项集权值的汇总：权利要求书 CN 103593400 A 2 2/2 页 3 其中 NX 是 X 在数据库中出现的计数； n 是总记录数；加权置信度是事务数据库中满足XY 的加权支持度与包含X的加权支持度的比值：。 5.如权利要求2所述基于改进Apriori算法的雷电活动数据统计方法，其特征在，所述步骤 2）的具体过程是：于有向图与加权关联规则的 Apriori 算法的优化方法，其特征在，如果该事务中存在对应的项则设置对应项为 1，否则设置对应项为 0，当检查完所有事务集合每个项对应一个二。

9、进制位串，然后按照支持数从高到低排序将数据库中的项目节点映射到位图，设最小支持度计数是 2，则在本数据库中频繁项是 i1， i2， i3， i4， i5；对应 Bi1=(100110111)， Bi2=(111101011)， Bi3=(0010lllll)， Bi4=(010100000)， Bi5=(100000010)。 6.如权利要求1所述基于改进Apriori算法的雷电活动数据统计方法，其特征在，所述步骤 4）的具体过程是，（1）频繁 2 项集做深度优先遍历，并记录最长路径 D ；（2)D 中路径长度为 l，如果 l=0，说明找不到频繁项集，否则，当。

10、l0 时，执行（3) ；（3) 计算 D 中每一条路径的加权支持度，找出所有满足最小支持度的路径，若存在，它们就是频繁项集，算法到此结束；否则执行（4) ；（4) 对于 D 中的每一条路径，找出所有路径的长度为 l-1 的子集，并利用图 1 验证它们是否连通，若为连通路径，将该路径记录在 D 中，返回（2)。权利要求书 CN 103593400 A 3 1/4 页 4 一种基于改进 Apriori 算法的雷电活动数据统计方法技术领域 0001 本发明属于激光技术领域，具体涉及一种基于改进 Apriori 算法的雷电活动数据统计方法。背景技。

11、术 0002 随着计算机网络的迅速发展和数据库技术日渐成熟，人们采集利用数据的能力得到了极大提高，为了从这些大量的、随机的实际应用数据中，抽取出能为人们所利用的信息，数据挖掘技术就应运而生。数据挖掘又称为知识发现，是目前数据库的主要研究方向，是指从大量的、不完整的、有噪声的、模糊的、随机的大型数据中寻找潜在的、不为人们事先知道的、具有潜在价值的模式或知识的过程。 0003 由R.Agrawal等人于1993年提出的关联规则是数据挖掘领域的一个重要内容。关联规则挖掘是指从大量的数据集项间挖掘出有意义的关联关系，从而为各种决策提供有价值的信息。现有的各种关联。

12、规则挖掘算法大致可分为层次法、抽样法、搜索法、数据集划分法等。 0004 Apriori 算法是挖掘完全频繁项集中最具有影响力的方法之一，主要有两个关键步骤：一是根据最小支持度在大量事务中寻找所有的频繁项集；二是根据最小置信度生成频繁项集强关联规则。其核心思想是通过项目集数目不断增长来逐步完成频繁项目集的发现，搜索出用于求得关联规则的频繁项目集 L。 0005 Apriori 算法具体步骤为：在第一趟扫描数据库时，搜索出所有支持度大于等于最小支持度的项集组成频繁 1 项集 L1，然后是频繁 2 项集 L2，直到有某个值使 Lr为空时算法结束。在第 k 。

13、趟扫描中，首先以 K-1 趟扫描中所发现的频繁集 Lk-1作为种子集来生成新的潜在的 K- 强项集的集合，即候选集 Ck， Ck中的每一个项集是对两个只有一个项不同的属于 Lk-1的频集做一个（k-2）连接来产生的，计算这些候选集的支持度，最后从候选集 Ck确定出满足最小支持度的频繁 K 项集 Lk，并将 Lk作为下一趟扫描的种子集。 0006 Apriori 算法中候选项集是逐层迭代产生的，而产生每一层的频集必须要扫描整个数据库一次 , 然后再结合频集产生下一层级的候选项集合，直到频集无法结合产生候选项集。整个过程需要很大的 I/O 开销。在实际应用中数据量很大，。

14、故而每个阶段会产生大量候选项集（尤其是 2- 项集），多次扫描庞大的数据，效率往往比较低。为了提高 Apriori 算法的效率，国内外数据挖掘领域的专家、学者不断对其理论及方法进行优化和改进，提出了很多计算效率高、适用性强的新型挖掘算法，例如： Savasere 提出的 Partition 算法、 Toivonen 提出的 Sampling 算法、 Park 提出的利用 DHP 哈希技术的改进算法和 Jiawei Han提出的FP-Growth算法等。这些算法虽然对Apriori的改进都大有裨益，但依然还存在一些不足。发明内容 0007 本发明的目的在于针对现。

15、有 Apriori 算法的不足，提出一种基于改进 Apriori 算说明书 CN 103593400 A 4 2/4 页 5 法的雷电活动数据统计方法。该算法不仅在空间和时间上提高 Apriori 算法的效率，还更贴合实际需求。为实现上述目的，本发明采用基于有向图与加权关联规则的优化策略对 Apriori 算法进行改进。 0008 为达上述目的，本发明提供了本发明结合实际需求对各项目赋予适当权值，将原有支持度与置信度改进为更符合实际的加权支持度与加权置信度。并利用频繁二项有向图寻找所有符合要求的频繁集，即基于有向图与加权关联规则的 Apriori 算法的优化方法，主。

16、要实现步骤是：步骤 1，计算加权支持度与加权置信度子算法：为每个项目赋予 0,1 之间一个非负实数作为权值，以体现该项目的重要度，并根据该权值计算各项集的权重，进而推出项集的加权支持度与加权置信度。 0009 本发明中所涉及的支持度与置信度定义如下：项目集合 I= i1, i2, , im 是由m个不同的项组成。交易数据库D中每一笔交易都是I的一个子集.关联规则的形式为X =Y，其中XI， YI，且XY= ，它的支持度 sup(XUY) 为 XUY 在交易数据库中出现的概率，它的信任度 conf( XUY) 为在某交易中包含 X 前提下同对也包含 Y 的概。

17、率也就是说，关联规则 X =Y 的支持度为数据库中包含 XUY 的交易数与总交易数之比；关联规则的信任度为数据库中包含 XUY 的交易数与包含 X 的交易数之比。 0010 步骤 2，垂直位矢量格式转换子算法：将原水平数据格式事务标志：事务项集转化为垂直数据格式项：事务集，然后扫描数据库一次，计算出符合加权支持度与加权置信度的频繁项，并设置它们相应的位矢量。具体做法为：如果该事务中存在对应的项免则设置对应项为 1，否则设置对应项为 0，当检查完所有事务集合每个项对应一个二进制位串。然后按照支持数从高到低排序将数据库中的项目（节点）映射到位。

18、图。 0011 步骤 3，频繁二项图生成子算法：根据频繁项计算出符合关联规则的频繁 2 项集，以各个满足频繁 2 项集的项目作为节点，绘制出表示各个项目之间关系的有向图。具体方法为：将得到的位图中 1 出现次数最多的节点放在最上层，若某两项在一次事务中同时出现，并且出现的次数满足最小支持度要求（大于或等于最小支持度），则在有向图中这两个节点之间画一条边。边上用二进制字符串表示（二进制字符串通过两个节点求与运算得到，其中串中 1 的个数表示这两个节点同时出现的次数）。 0012 步骤 4，候选项集挖掘子算法：通过对频繁 2 项图的深度优先遍历，找到该。

19、图的最长路径，即为最长频繁项集，继而根据任何强项集的子集必定是强项集的性质，找出所有频繁集。 0013 本发明和现有技术相比，具有以下优点：本发明中优化的新算法结合实际需求对各项目赋予适当权值，克服了将数据库中的各个项目按照平等的方式进行处理的缺陷，将原有支持度与置信度改进为更符合实际的加权支持度与加权置信度。能够挖掘出能带来更大利润的项目，使得挖掘出的关联规则更加满足决策者的需求，也更加符合实际需要。 0014 本发明使用位矢量垂直数据格式存储项目信息，整个过程只需扫描数据库一次。解决原始算法中多次迭代重复扫描数据库大量数据并消耗 I/O 的问题，极大提高。

20、计算机执行效率。说明书 CN 103593400 A 5 3/4 页 6 0015 本发明改进后的算法基于自顶向下的思想，利用频繁二项有向图首先找到满足支持度与置信度要求的最长频繁项集，再根据频繁集性质生成所有符合要求的频繁集。基于图的频繁项集挖掘不需对侯选项目集进行存储，因此极大节省了系统的存储开销。 0016 下面，结合实施例及其附图，对本算法做进一步详细说明。附图说明 0017 图 1 是垂直位矢量转换流程图。 0018 图 2 是根据具体事务集得到的有向图。 0019 图 3 是从有向图中寻找候选项集的流程图。具体实施方式 0020 实施例 1 本发明采用基于。

21、有向图与加权关联规则的优化策略对 Apriori 算法进行改进，即基于有向图与加权关联规则的 Apriori 算法的优化方法，首先要计算加权支持度与加权置信度：设 I= i1, i2, , im，对应 i 的权值向量 W= w1, w2, , wm , 第 i 个事务 ti 是 I 的一个子集， ti 中第 j 个项目（记作 ti ij）都有一个权值 w。这样每一个项目都与 W 中的一个值对应起来。 0021 项集事务权值是一个数据库中项目集中各项目的权值汇总，项目集X在事务ti中的项目权值计算为：加权支持度是事务数据库中包含该项目的事务项集权值的汇总：其中 NX。

22、是 X 在数据库中出现的计数； n 是总记录数。 0022 加权置信度是事务数据库中满足XY 的加权支持度与包含X的加权支持度的比值实施例 2 本发明采用基于有向图与加权关联规则的优化策略对 Apriori 算法进行改进。算法采说明书 CN 103593400 A 6 4/4 页 7 用位矢量结构存储，对于每个频繁集有一个位矢量与之对应，故位矢量的位数就是数据库的事务总数。算法只扫描数据库一次，计算出频繁项并设置它们对应的位矢量。 0023 例如：事务数据库为，，，，，，，，参照图 2. 具体做法为：如果该事务中存在对应的项则设置对应项。

23、为 1，否则设置对应项为 0，当检查完所有事务集合每个项对应一个二进制位串。然后按照支持数从高到低排序将数据库中的项目（节点）映射到位图。设最小支持度计数是 2，则在本数据库中频繁项是 i1， i2， i3， i4， i5。对应 Bi1=(100110111)， Bi2=(111101011)， Bi3=(0010lllll)， Bi4=(010100000)， Bi5=(100000010)。 0024 整个过程只扫描一次数据库之后将不再扫描，对频繁项集的挖掘都集中在位矢量上，从而大大提高了速度。 0025 实施例 3 基于有向图与加权关联规则的 Apriori 算法优化。

24、对进行改进构造矢量位图的方法同实施例 2。在步骤 3 中所述建立频繁二项图。本例中结合图 1，具体介绍有向图的构造方法。将得到的位图中 1 出现次数最多的节点放在最上层，若某两项在一次事务中同时出现，并且出现的次数满足最小支持度要求（大于或等于最小支持度），则在有向图中这两个节点之间画一条边。边上用二进制字符串表示（二进制字符串通过两个节点求与运算得到，其中串中 1 的个数表示这两个节点同时出现的次数）。结合实施例 2 中的事务数据库实例，建立频繁有项图见图 2. 实施例 4 基于有向图与加权关联规则的 Apriori 算法优化建立频繁二项图同实施例 3。图中的。

25、每一个顶点代表一个频繁1项集，利用频繁l项集生成有向图，图中的每一条边代表一个频繁 2 项集，根据频繁项集理论，所求的频繁项集必然包含这些频繁 2 项集。频繁项集是由这些频繁2项集扩展而来的，所以频繁项集只存在于图2的连通路径中，因此可以从图中最长的连通路径开始向下寻找候选项集，具体步骤为： 1) 对图 2 做深度优先遍历，并记录最长路径 D( 可能有多条 ) ； 2)D 中路径长度为 l，如果 l=0，说明找不到频繁项集，否则，当 l0 时，执行 3) ； 3) 计算 D 中每一条路径的加权支持度，找出所有满足最小支持度的路径，若存在，它们就是频繁项集，算法到此结束。否则执行 4) ； 4)对于D中的每一条路径，找出所有路径的长度为l-1的子集，并利用图1验证它们是否连通，若为连通路径，将该路径记录在 D 中，返回 2)。 0026 以上例举仅仅是对本发明的举例说明，并不构成对本发明的保护范围的限制，凡是与本发明相同或相似的设计均属于本发明的保护范围之内。说明书 CN 103593400 A 7 1/2 页 8 图 1 图 2 说明书附图 CN 103593400 A 8 2/2 页 9 图 3 说明书附图 CN 103593400 A 9 。

摘要
申请专利号：	CN201310480978.8	申请日：	2013.12.13
公开号：	CN103593400A	公开日：	2014.02.19
当前法律状态：	撤回	有效性：	无权
法律详情：	发明专利申请公布后的视为撤回IPC(主分类):G06F 17/30申请公布日:20140219\|\|\|实质审查的生效IPC(主分类):G06F 17/30申请日:20131213\|\|\|公开
IPC分类号：	G06F17/30; G06F19/00(2011.01)I	主分类号：	G06F17/30
申请人：	陕西省气象局
发明人：	王卫民; 李婧; 雷欣; 田社教; 高莹
地址：	710000 陕西省西安市莲湖区北关正街36号气象大厦801
优先权：
专利代理机构：	西安亿诺专利代理有限公司 61220	代理人：	康凯
PDF完整版下载：	PDF下载

内容摘要

本发明提供的一种基于改进Apriori算法的雷电活动数据统计方法，通过：1）计算加权支持度与加权置信度；2)垂直位矢量格式转换；3)频繁二项图生成；4）候选项集挖掘这四个步骤，结合实际需求对各项目赋予适当权值，将原有支持度与置信度改进为更符合实际的加权支持度与加权置信度。另外，算法使用位矢量垂直数据格式存储项目信息，节省存储空间并提高I/O效率，改进后的算法基于自顶向下的思想，利用频繁二项有向图首先找到满足支持度与置信度要求的最长频繁项集，再根据频繁集性质生成所有符合要求的频繁集。该算法不仅在空间和时间上提高Apriori算法的效率，还更贴合实际需求。

权利要求书

权利要求书
1.  一种基于改进Apriori算法的雷电活动数据统计方法，其特征在于,包括以下步骤：
1）、计算加权支持度与加权置信度：为每个项目赋予[0,1]之间一个非负实数作为权值，以体现该项目的重要度，并根据该权值计算各项集的权重，进而推出项集的加权支持度与加权置信度，所述支持度与置信度定义是：项目集合I={ i1, i2, …, im}是由m个不同的项组成，交易数据库D中每一笔交易都是I的一个子集，关联规则的形式为X =>Y，其中X∈I，Y∈I，且X∩Y=，X的支持度sup(XUY)为XUY在交易数据库中出现的概率，X的信任度conf( XUY)为在某交易中包含X前提下同对也包含Y的概率．也就是说，关联规则X =>Y的支持度为数据库中包含XUY的交易数与总交易数之比；关联规则的信任度为数据库中包含XUY的交易数与包含X的交易数之比；
2)、垂直位矢量格式转换：将原水平数据格式{事务标志：事务项集}转化为垂直数据格式{项：事务集}，然后扫描数据库一次，计算出符合加权支持度与加权置信度的频繁项，并设置它们相应的位矢量；
3)、频繁二项图生成：根据频繁项计算出符合关联规则的频繁2项集，以各个满足频繁2项集的项目作为节点，绘制出表示各个项目之间关系的有向图；
4）候选项集挖掘：通过对频繁2项图的深度优先遍历，找到该图的最长路径，即为最长频繁项集，继而根据任何强项集的子集必定是强项集的性质，找出所有频繁集。

2.  如权利要求1所述基于改进Apriori算法的雷电活动数据统计方法，其特征在，所述步骤2）的具体过程是：如果该事务中存在对应的项免则设置对应项为1，否则设置对应项为0，当检查完所有事务集合每个项对应一个二进制位串，然后按照支持数从高到低排序将数据库中的项目映射到位图。

3.  如权利要求1所述基于改进Apriori算法的雷电活动数据统计方法，其特征在，所述步骤3）的具体过程是：将得到的位图中1出现次数最多的节点放在最上层，若某两项在一次事务中同时出现，并且出现的次数满足最小支持度要求，大于或等于最小支持度，则在有向图中这两个节点之间画一条边，边上用二进制字符串表示，二进制字符串通过两个节点求与运算得到，其中串中1的个数表示这两个节点同时出现的次数。

4.  如权利要求1所述基于改进Apriori算法的雷电活动数据统计方法，其特征在，加权支持度与加权置信度的具体计算过程是：
设I={ i1, i2, …, im}，对应i的权值向量W={ w1, w2, …, wm },第 i个事务ti是I的一个子集，ti中第j个项目（记作ti [ij]）都有一个权值w，
这样每一个项目都与W中的一个值对应起来，项集事务权值是一个数据库中项目集中各项目的权值汇总，项目集X在事务ti中的项目权值计算为：
加权支持度是事务数据库中包含该项目的事务项集权值的汇总：
其中NX是X在数据库中出现的计数；n是总记录数；
加权置信度是事务数据库中满足X∪Y 的加权支持度与包含X的加权支持度的比值：
。

5.  如权利要求2所述基于改进Apriori算法的雷电活动数据统计方法，其特征在，所述步骤2）的具体过程是：于有向图与加权关联规则的Apriori算法的优化方法，其特征在，如果该事务中存在对应的项则设置对应项为1，否则设置对应项为0，当检查完所有事务集合每个项对应一个二进制位串，然后按照支持数从高到低排序将数据库中的项目节点映射到位图，设最小支持度计数是2，则在本数据库中频繁项是i1，i2，i3，i4，i5；
对应Bi1=(100110111)，Bi2=(111101011)，Bi3=(0010lllll)，Bi4=(010100000)，Bi5=(100000010)。

6.  如权利要求1所述基于改进Apriori算法的雷电活动数据统计方法，其特征在，所述步骤4）的具体过程是，（1）频繁2项集做深度优先遍历，并记录最长路径D；
（2)D中路径长度为l，如果l=0，说明找不到频繁项集，否则，当l>0时，执行（3)；
（3)计算D中每一条路径的加权支持度，找出所有满足最小支持度的路径，若存在，它们就是频繁项集，算法到此结束；
否则执行（4)；
（4)对于D中的每一条路径，找出所有路径的长度为l-1的子集，并利用图1验证它们是否连通，若为连通路径，将该路径记录在D中，返回（2)。

说明书

说明书一种基于改进Apriori算法的雷电活动数据统计方法
技术领域
本发明属于激光技术领域，具体涉及一种基于改进Apriori算法的雷电活动数据统计方法。
背景技术
随着计算机网络的迅速发展和数据库技术日渐成熟，人们采集利用数据的能力得到了极大提高，为了从这些大量的、随机的实际应用数据中，抽取出能为人们所利用的信息，数据挖掘技术就应运而生。数据挖掘又称为知识发现，是目前数据库的主要研究方向，是指从大量的、不完整的、有噪声的、模糊的、随机的大型数据中寻找潜在的、不为人们事先知道的、具有潜在价值的模式或知识的过程。
由R.Agrawal等人于1993年提出的关联规则是数据挖掘领域的一个重要内容。关联规则挖掘是指从大量的数据集项间挖掘出有意义的关联关系，从而为各种决策提供有价值的信息。现有的各种关联规则挖掘算法大致可分为层次法、抽样法、搜索法、数据集划分法等。
Apriori算法是挖掘完全频繁项集中最具有影响力的方法之一，主要有两个关键步骤：一是根据最小支持度在大量事务中寻找所有的频繁项集；二是根据最小置信度生成频繁项集强关联规则。其核心思想是通过项目集数目不断增长来逐步完成频繁项目集的发现，搜索出用于求得关联规则的频繁项目集L。
Apriori算法具体步骤为：在第一趟扫描数据库时，搜索出所有支持度大于等于最小支持度的项集组成频繁1项集L1，然后是频繁2项集L2，直到有某个值使Lr为空时算法结束。在第k趟扫描中，首先以K-1趟扫描中所发现的频繁集Lk-1作为种子集来生成新的潜在的K-强项集的集合，即候选集Ck，Ck中的每一个项集是对两个只有一个项不同的属于Lk-1的频集做一个（k-2）连接来产生的，计算这些候选集的支持度，最后从候选集Ck确定出满足最小支持度的频繁K项集Lk，并将Lk作为下一趟扫描的种子集。
Apriori算法中候选项集是逐层迭代产生的，而产生每一层的频集必须要扫描整个数据库一次, 然后再结合频集产生下一层级的候选项集合，直到频集无法结合产生候选项集。整个过程需要很大的I/O开销。在实际应用中数据量很大，故而每个阶段会产生大量候选项集（尤其是2-项集），多次扫描庞大的数据，效率往往比较低。为了提高Apriori算法的效率，国内外数据挖掘领域的专家、学者不断对其理论及方法进行优化和改进，提出了很多计算效率高、适用性强的新型挖掘算法，例如：Savasere 提出的 Partition 算法、Toivonen 提出的 Sampling 算法、Park提出的利用 DHP 哈希技术的改进算法和Jiawei Han提出的FP-Growth算法等。这些算法虽然对Apriori的改进都大有裨益，但依然还存在一些不足。
发明内容
本发明的目的在于针对现有Apriori算法的不足，提出一种基于改进Apriori算法的雷电活动数据统计方法。该算法不仅在空间和时间上提高Apriori算法的效率，还更贴合实际需求。为实现上述目的，本发明采用基于有向图与加权关联规则的优化策略对Apriori算法进行改进。
为达上述目的，本发明提供了本发明结合实际需求对各项目赋予适当权值，将原有支持度与置信度改进为更符合实际的加权支持度与加权置信度。并利用频繁二项有向图寻找所有符合要求的频繁集，即基于有向图与加权关联规则的Apriori算法的优化方法，主要实现步骤是：
步骤1，计算加权支持度与加权置信度子算法：为每个项目赋予[0,1]之间一个非负实数作为权值，以体现该项目的重要度，并根据该权值计算各项集的权重，进而推出项集的加权支持度与加权置信度。
本发明中所涉及的支持度与置信度定义如下：项目集合I={ i1, i2, …, im}是由m个不同的项组成。交易数据库D中每一笔交易都是I的一个子集.关联规则的形式为X =>Y，其中X∈I，Y∈I，且X∩Y= ，它的支持度sup(XUY)为XUY在交易数据库中出现的概率，它的信任度conf( XUY)为在某交易中包含X前提下同对也包含Y的概率．也就是说，关联规则X =>Y的支持度为数据库中包含XUY的交易数与总交易数之比；关联规则的信任度为数据库中包含XUY的交易数与包含X的交易数之比。
步骤2，垂直位矢量格式转换子算法：将原水平数据格式{事务标志：事务项集}转化为垂直数据格式{项：事务集}，然后扫描数据库一次，计算出符合加权支持度与加权置信度的频繁项，并设置它们相应的位矢量。具体做法为：如果该事务中存在对应的项免则设置对应项为1，否则设置对应项为0，当检查完所有事务集合每个项对应一个二进制位串。然后按照支持数从高到低排序将数据库中的项目（节点）映射到位图。
步骤3，频繁二项图生成子算法：根据频繁项计算出符合关联规则的频繁2项集，以各个满足频繁2项集的项目作为节点，绘制出表示各个项目之间关系的有向图。具体方法为：将得到的位图中1出现次数最多的节点放在最上层，若某两项在一次事务中同时出现，并且出现的次数满足最小支持度要求（大于或等于最小支持度），则在有向图中这两个节点之间画一条边。边上用二进制字符串表示（二进制字符串通过两个节点求与运算得到，其中串中1的个数表示这两个节点同时出现的次数）。
步骤4，候选项集挖掘子算法：通过对频繁2项图的深度优先遍历，找到该图的最长路径，即为最长频繁项集，继而根据任何强项集的子集必定是强项集的性质，找出所有频繁集。
本发明和现有技术相比，具有以下优点：
本发明中优化的新算法结合实际需求对各项目赋予适当权值，克服了将数据库中的各个项目按照平等的方式进行处理的缺陷，将原有支持度与置信度改进为更符合实际的加权支持度与加权置信度。能够挖掘出能带来更大利润的项目，使得挖掘出的关联规则更加满足决策者的需求，也更加符合实际需要。
本发明使用位矢量垂直数据格式存储项目信息，整个过程只需扫描数据库一次。解决原始算法中多次迭代重复扫描数据库大量数据并消耗I/O的问题，极大提高计算机执行效率。
本发明改进后的算法基于自顶向下的思想，利用频繁二项有向图首先找到满足支持度与置信度要求的最长频繁项集，再根据频繁集性质生成所有符合要求的频繁集。基于图的频繁项集挖掘不需对侯选项目集进行存储，因此极大节省了系统的存储开销。
下面，结合实施例及其附图，对本算法做进一步详细说明。
附图说明
图1是垂直位矢量转换流程图。
图2是根据具体事务集得到的有向图。
图3是从有向图中寻找候选项集的流程图。
具体实施方式
实施例1
本发明采用基于有向图与加权关联规则的优化策略对Apriori算法进行改进，即基于有向图与加权关联规则的Apriori算法的优化方法，首先要计算加权支持度与加权置信度：
设I={ i1, i2, …, im}，对应i的权值向量W={ w1, w2, …, wm },第 i个事务ti是I的一个子集，ti中第j个项目（记作ti [ij]）都有一个权值w。这样每一个项目都与W中的一个值对应起来。
项集事务权值是一个数据库中项目集中各项目的权值汇总，项目集X在事务ti中的项目权值计算为：
加权支持度是事务数据库中包含该项目的事务项集权值的汇总：

其中NX是X在数据库中出现的计数；n是总记录数。
加权置信度是事务数据库中满足X∪Y 的加权支持度与包含X的加权支持度的比值

实施例2
本发明采用基于有向图与加权关联规则的优化策略对Apriori算法进行改进。算法采用位矢量结构存储，对于每个频繁集有一个位矢量与之对应，故位矢量的位数就是数据库的事务总数。算法只扫描数据库一次，计算出频繁项并设置它们对应的位矢量。
例如：事务数据库为{<T1(I1,I2, I5)>，<T2(I2, I4)>，<T3(I2, I3)>，<T4(I1,I2, I4)>，<T5(I1, I3)>，<T6(I2, I3)>，<T7(I1,I3)>，<T8(I1,I2,I3,I5)>，<T9(I1,I2,I3)>}
参照图2. 具体做法为：
如果该事务中存在对应的项则设置对应项为1，否则设置对应项为0，当检查完所有事务集合每个项对应一个二进制位串。然后按照支持数从高到低排序将数据库中的项目（节点）映射到位图。设最小支持度计数是2，则在本数据库中频繁项是i1，i2，i3，i4，i5。对应Bi1=(100110111)，Bi2=(111101011)，Bi3=(0010lllll)，Bi4=(010100000)，Bi5=(100000010)。
整个过程只扫描一次数据库之后将不再扫描，对频繁项集的挖掘都集中在位矢量上，从而大大提高了速度。
实施例3
基于有向图与加权关联规则的Apriori算法优化对进行改进构造矢量位图的方法同实施例2。在步骤3中所述建立频繁二项图。本例中结合图1，具体介绍有向图的构造方法。将得到的位图中1出现次数最多的节点放在最上层，若某两项在一次事务中同时出现，并且出现的次数满足最小支持度要求（大于或等于最小支持度），则在有向图中这两个节点之间画一条边。边上用二进制字符串表示（二进制字符串通过两个节点求与运算得到，其中串中1的个数表示这两个节点同时出现的次数）。结合实施例2中的事务数据库实例，建立频繁有项图见图2.
实施例4
基于有向图与加权关联规则的Apriori算法优化建立频繁二项图同实施例3。图中的每一个顶点代表一个频繁1项集，利用频繁l项集生成有向图，图中的每一条边代表一个频繁2项集，根据频繁项集理论，所求的频繁项集必然包含这些频繁2项集。频繁项集是由这些频繁2项集扩展而来的，所以频繁项集只存在于图2的连通路径中，因此可以从图中最长的连通路径开始向下寻找候选项集，具体步骤为：
1)对图2做深度优先遍历，并记录最长路径D(可能有多条)；
2)D中路径长度为l，如果l=0，说明找不到频繁项集，否则，当l>0时，执行3)；
3)计算D中每一条路径的加权支持度，找出所有满足最小支持度的路径，若存在，它们就是频繁项集，算法到此结束。否则执行4)；
4)对于D中的每一条路径，找出所有路径的长度为l-1的子集，并利用图1验证它们是否连通，若为连通路径，将该路径记录在D中，返回2)。
以上例举仅仅是对本发明的举例说明，并不构成对本发明的保护范围的限制，凡是与本发明相同或相似的设计均属于本发明的保护范围之内。