《一种基于改进APRIORI算法的雷电活动数据统计方法.pdf》由会员分享,可在线阅读,更多相关《一种基于改进APRIORI算法的雷电活动数据统计方法.pdf(9页完整版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 103593400 A (43)申请公布日 2014.02.19 CN 103593400 A (21)申请号 201310480978.8 (22)申请日 2013.12.13 G06F 17/30(2006.01) G06F 19/00(2011.01) (71)申请人 陕西省气象局 地址 710000 陕西省西安市莲湖区北关正街 36 号气象大厦 801 (72)发明人 王卫民 李婧 雷欣 田社教 高莹 (74)专利代理机构 西安亿诺专利代理有限公司 61220 代理人 康凯 (54) 发明名称 一种基于改进 Apriori 算法的雷电活动数据 统计方法 (57。
2、) 摘要 本发明提供的一种基于改进 Apriori 算法的 雷电活动数据统计方法, 通过 : 1) 计算加权支持 度与加权置信度 ; 2) 垂直位矢量格式转换 ; 3) 频 繁二项图生成 ; 4) 候选项集挖掘这四个步骤, 结 合实际需求对各项目赋予适当权值, 将原有支持 度与置信度改进为更符合实际的加权支持度与 加权置信度。另外, 算法使用位矢量垂直数据格 式存储项目信息, 节省存储空间并提高 I/O 效率, 改进后的算法基于自顶向下的思想, 利用频繁二 项有向图首先找到满足支持度与置信度要求的最 长频繁项集, 再根据频繁集性质生成所有符合要 求的频繁集。该算法不仅在空间和时间上提高 Apr。
3、iori 算法的效率, 还更贴合实际需求。 (51)Int.Cl. 权利要求书 2 页 说明书 4 页 附图 2 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书2页 说明书4页 附图2页 (10)申请公布号 CN 103593400 A CN 103593400 A 1/2 页 2 1. 一种基于改进 Apriori 算法的雷电活动数据统计方法, 其特征在于 , 包括以下步 骤 : 1) 、 计算加权支持度与加权置信度 : 为每个项目赋予 0,1 之间一个非负实数作为权 值, 以体现该项目的重要度, 并根据该权值计算各项集的权重, 进而推出项集的加权支持度 与加权置。
4、信度, 所述支持度与置信度定义是 : 项目集合 I= i1, i2, , im 是由 m 个不同 的项组成, 交易数据库 D 中每一笔交易都是 I 的一个子集, 关联规则的形式为 X =Y, 其中 X I, Y I, 且 X Y=, X 的支持度 sup(XUY) 为 XUY 在交易数据库中出现的概率, X 的信 任度 conf( XUY) 为在某交易中包含 X 前提下同对也包含 Y 的概率也就是说, 关联规则 X =Y 的支持度为数据库中包含 XUY 的交易数与总交易数之比 ; 关联规则的信任度为数据库 中包含 XUY 的交易数与包含 X 的交易数之比 ; 2)、 垂直位矢量格式转换 : 将。
5、原水平数据格式 事务标志 : 事务项集 转化为垂直数据 格式 项 : 事务集 , 然后扫描数据库一次, 计算出符合加权支持度与加权置信度的频繁项, 并设置它们相应的位矢量 ; 3)、 频繁二项图生成 : 根据频繁项计算出符合关联规则的频繁 2 项集, 以各个满足频繁 2 项集的项目作为节点, 绘制出表示各个项目之间关系的有向图 ; 4) 候选项集挖掘 : 通过对频繁 2 项图的深度优先遍历, 找到该图的最长路径, 即为最长 频繁项集, 继而根据任何强项集的子集必定是强项集的性质, 找出所有频繁集。 2.如权利要求1所述基于改进Apriori算法的雷电活动数据统计方法, 其特征在, 所述 步骤 。
6、2) 的具体过程是 : 如果该事务中存在对应的项免则设置对应项为 1, 否则设置对应项 为 0, 当检查完所有事务集合每个项对应一个二进制位串, 然后按照支持数从高到低排序将 数据库中的项目映射到位图。 3.如权利要求1所述基于改进Apriori算法的雷电活动数据统计方法, 其特征在, 所述 步骤 3) 的具体过程是 : 将得到的位图中 1 出现次数最多的节点放在最上层, 若某两项在一 次事务中同时出现, 并且出现的次数满足最小支持度要求, 大于或等于最小支持度, 则在有 向图中这两个节点之间画一条边, 边上用二进制字符串表示, 二进制字符串通过两个节点 求与运算得到, 其中串中 1 的个数表。
7、示这两个节点同时出现的次数。 4.如权利要求1所述基于改进Apriori算法的雷电活动数据统计方法, 其特征在, 加权 支持度与加权置信度的具体计算过程是 : 设 I= i1, i2, , im, 对应 i 的权值向量 W= w1, w2, , wm , 第 i 个事务 ti 是 I 的一个子集, ti 中第 j 个项目 (记作 ti ij) 都有一个权值 w, 这 样 每 一 个 项 目 都 与 W 中 的 一 个 值 对 应 起 来, 项 集 事 务 权 值 是 一 个 数 据 库 中 项 目 集 中 各 项 目 的 权 值 汇 总, 项 目 集 X 在 事 务 ti 中 的 项 目 权 。
8、值 计 算 为 : 加权支持度是事务数据库中包含该项目的事务项集权值的汇总 : 权 利 要 求 书 CN 103593400 A 2 2/2 页 3 其中 NX 是 X 在数据库中出现的计数 ; n 是总记录数 ; 加权置信度是事务数据库中满足XY 的加权支持度与包含X的加权支持度的比值 : 。 5.如权利要求2所述基于改进Apriori算法的雷电活动数据统计方法, 其特征在, 所述 步骤 2) 的具体过程是 : 于有向图与加权关联规则的 Apriori 算法的优化方法, 其特征在, 如 果该事务中存在对应的项则设置对应项为 1, 否则设置对应项为 0, 当检查完所有事务集合 每个项对应一个二。
9、进制位串, 然后按照支持数从高到低排序将数据库中的项目节点映射到 位图, 设最小支持度计数是 2, 则在本数据库中频繁项是 i1, i2, i3, i4, i5; 对应 Bi1=(100110111), Bi2=(111101011), Bi3=(0010lllll), Bi4=(010100000), Bi5=(100000010)。 6.如权利要求1所述基于改进Apriori算法的雷电活动数据统计方法, 其特征在, 所述 步骤 4) 的具体过程是,(1) 频繁 2 项集做深度优先遍历, 并记录最长路径 D ; (2)D 中路径长度为 l, 如果 l=0, 说明找不到频繁项集, 否则, 当 。
10、l0 时, 执行 (3) ; (3) 计算 D 中每一条路径的加权支持度, 找出所有满足最小支持度的路径, 若存在, 它 们就是频繁项集, 算法到此结束 ; 否则执行 (4) ; (4) 对于 D 中的每一条路径, 找出所有路径的长度为 l-1 的子集, 并利用图 1 验证它们 是否连通, 若为连通路径, 将该路径记录在 D 中, 返回 (2)。 权 利 要 求 书 CN 103593400 A 3 1/4 页 4 一种基于改进 Apriori 算法的雷电活动数据统计方法 技术领域 0001 本发明属于激光技术领域, 具体涉及一种基于改进 Apriori 算法的雷电活动数据 统计方法。 背景技。
11、术 0002 随着计算机网络的迅速发展和数据库技术日渐成熟, 人们采集利用数据的能力得 到了极大提高, 为了从这些大量的、 随机的实际应用数据中, 抽取出能为人们所利用的信 息, 数据挖掘技术就应运而生。数据挖掘又称为知识发现, 是目前数据库的主要研究方向, 是指从大量的、 不完整的、 有噪声的、 模糊的、 随机的大型数据中寻找潜在的、 不为人们事先 知道的、 具有潜在价值的模式或知识的过程。 0003 由R.Agrawal等人于1993年提出的关联规则是数据挖掘领域的一个重要内容。 关 联规则挖掘是指从大量的数据集项间挖掘出有意义的关联关系, 从而为各种决策提供有价 值的信息。现有的各种关联。
12、规则挖掘算法大致可分为层次法、 抽样法、 搜索法、 数据集划分 法等。 0004 Apriori 算法是挖掘完全频繁项集中最具有影响力的方法之一, 主要有两个关键 步骤 : 一是根据最小支持度在大量事务中寻找所有的频繁项集 ; 二是根据最小置信度生成 频繁项集强关联规则。 其核心思想是通过项目集数目不断增长来逐步完成频繁项目集的发 现, 搜索出用于求得关联规则的频繁项目集 L。 0005 Apriori 算法具体步骤为 : 在第一趟扫描数据库时, 搜索出所有支持度大于等于 最小支持度的项集组成频繁 1 项集 L1, 然后是频繁 2 项集 L2, 直到有某个值使 Lr为空时算 法结束。在第 k 。
13、趟扫描中, 首先以 K-1 趟扫描中所发现的频繁集 Lk-1作为种子集来生成新 的潜在的 K- 强项集的集合, 即候选集 Ck, Ck中的每一个项集是对两个只有一个项不同的属 于 Lk-1的频集做一个 (k-2) 连接来产生的, 计算这些候选集的支持度, 最后从候选集 Ck确定 出满足最小支持度的频繁 K 项集 Lk, 并将 Lk作为下一趟扫描的种子集。 0006 Apriori 算法中候选项集是逐层迭代产生的, 而产生每一层的频集必须要扫描整 个数据库一次 , 然后再结合频集产生下一层级的候选项集合, 直到频集无法结合产生候选 项集。整个过程需要很大的 I/O 开销。在实际应用中数据量很大,。
14、 故而每个阶段会产生大 量候选项集 (尤其是 2- 项集) , 多次扫描庞大的数据, 效率往往比较低。为了提高 Apriori 算法的效率, 国内外数据挖掘领域的专家、 学者不断对其理论及方法进行优化和改进, 提出 了很多计算效率高、 适用性强的新型挖掘算法, 例如 : Savasere 提出的 Partition 算法、 Toivonen 提出的 Sampling 算法、 Park 提出的利用 DHP 哈希技术的改进算法和 Jiawei Han提出的FP-Growth算法等。 这些算法虽然对Apriori的改进都大有裨益, 但依然还存在 一些不足。 发明内容 0007 本发明的目的在于针对现。
15、有 Apriori 算法的不足, 提出一种基于改进 Apriori 算 说 明 书 CN 103593400 A 4 2/4 页 5 法的雷电活动数据统计方法。该算法不仅在空间和时间上提高 Apriori 算法的效率, 还更 贴合实际需求。为实现上述目的, 本发明采用基于有向图与加权关联规则的优化策略对 Apriori 算法进行改进。 0008 为达上述目的, 本发明提供了本发明结合实际需求对各项目赋予适当权值, 将原 有支持度与置信度改进为更符合实际的加权支持度与加权置信度。 并利用频繁二项有向图 寻找所有符合要求的频繁集, 即基于有向图与加权关联规则的 Apriori 算法的优化方法, 主。
16、要实现步骤是 : 步骤 1, 计算加权支持度与加权置信度子算法 : 为每个项目赋予 0,1 之间一个非负实 数作为权值, 以体现该项目的重要度, 并根据该权值计算各项集的权重, 进而推出项集的加 权支持度与加权置信度。 0009 本发明中所涉及的支持度与置信度定义如下 : 项目集合 I= i1, i2, , im 是 由m个不同的项组成。 交易数据库D中每一笔交易都是I的一个子集.关联规则的形式为X =Y, 其中XI, YI, 且XY= , 它的支持度 sup(XUY) 为 XUY 在交易数据库中出现的概率, 它的信任度 conf( XUY) 为在某 交易中包含 X 前提下同对也包含 Y 的概。
17、率也就是说, 关联规则 X =Y 的支持度为数据库 中包含 XUY 的交易数与总交易数之比 ; 关联规则的信任度为数据库中包含 XUY 的交易数与 包含 X 的交易数之比。 0010 步骤 2, 垂直位矢量格式转换子算法 : 将原水平数据格式 事务标志 : 事务项集 转化为垂直数据格式 项 : 事务集 , 然后扫描数据库一次, 计算出符合加权支持度与加权 置信度的频繁项, 并设置它们相应的位矢量。具体做法为 : 如果该事务中存在对应的项免 则设置对应项为 1, 否则设置对应项为 0, 当检查完所有事务集合每个项对应一个二进制位 串。然后按照支持数从高到低排序将数据库中的项目 (节点) 映射到位。
18、图。 0011 步骤 3, 频繁二项图生成子算法 : 根据频繁项计算出符合关联规则的频繁 2 项集, 以各个满足频繁 2 项集的项目作为节点, 绘制出表示各个项目之间关系的有向图。具体方 法为 : 将得到的位图中 1 出现次数最多的节点放在最上层, 若某两项在一次事务中同时出 现, 并且出现的次数满足最小支持度要求 (大于或等于最小支持度) , 则在有向图中这两个 节点之间画一条边。 边上用二进制字符串表示 (二进制字符串通过两个节点求与运算得到, 其中串中 1 的个数表示这两个节点同时出现的次数) 。 0012 步骤 4, 候选项集挖掘子算法 : 通过对频繁 2 项图的深度优先遍历, 找到该。
19、图的最 长路径, 即为最长频繁项集, 继而根据任何强项集的子集必定是强项集的性质, 找出所有频 繁集。 0013 本发明和现有技术相比, 具有以下优点 : 本发明中优化的新算法结合实际需求对各项目赋予适当权值, 克服了将数据库中的各 个项目按照平等的方式进行处理的缺陷, 将原有支持度与置信度改进为更符合实际的加权 支持度与加权置信度。能够挖掘出能带来更大利润的项目, 使得挖掘出的关联规则更加满 足决策者的需求, 也更加符合实际需要。 0014 本发明使用位矢量垂直数据格式存储项目信息, 整个过程只需扫描数据库一次。 解决原始算法中多次迭代重复扫描数据库大量数据并消耗 I/O 的问题, 极大提高。
20、计算机执 行效率。 说 明 书 CN 103593400 A 5 3/4 页 6 0015 本发明改进后的算法基于自顶向下的思想, 利用频繁二项有向图首先找到满足 支持度与置信度要求的最长频繁项集, 再根据频繁集性质生成所有符合要求的频繁集。基 于图的频繁项集挖掘不需对侯选项目集进行存储, 因此极大节省了系统的存储开销。 0016 下面, 结合实施例及其附图, 对本算法做进一步详细说明。 附图说明 0017 图 1 是垂直位矢量转换流程图。 0018 图 2 是根据具体事务集得到的有向图。 0019 图 3 是从有向图中寻找候选项集的流程图。 具体实施方式 0020 实施例 1 本发明采用基于。
21、有向图与加权关联规则的优化策略对 Apriori 算法进行改进, 即基 于有向图与加权关联规则的 Apriori 算法的优化方法, 首先要计算加权支持度与加权置信 度 : 设 I= i1, i2, , im, 对应 i 的权值向量 W= w1, w2, , wm , 第 i 个事务 ti 是 I 的一个子集, ti 中第 j 个项目 (记作 ti ij) 都有一个权值 w。这样每一个项目都与 W 中的一个值对应起来。 0021 项集事务权值是一个数据库中项目集中各项目的权值汇总, 项目集X在事务ti中 的项目权值计算为 : 加权支持度是事务数据库中包含该项目的事务项集权值的汇总 : 其中 NX。
22、 是 X 在数据库中出现的计数 ; n 是总记录数。 0022 加权置信度是事务数据库中满足XY 的加权支持度与包含X的加权支持度的比 值 实施例 2 本发明采用基于有向图与加权关联规则的优化策略对 Apriori 算法进行改进。算法采 说 明 书 CN 103593400 A 6 4/4 页 7 用位矢量结构存储, 对于每个频繁集有一个位矢量与之对应, 故位矢量的位数就是数据库 的事务总数。算法只扫描数据库一次, 计算出频繁项并设置它们对应的位矢量。 0023 例 如 :事 务 数 据 库 为 , , , , , , , , 参照图 2. 具体做法为 : 如果该事务中存在对应的项则设置对应项。
23、为 1, 否则设置对应项为 0, 当检查完所有事 务集合每个项对应一个二进制位串。然后按照支持数从高到低排序将数据库中的项目 (节 点) 映射到位图。设最小支持度计数是 2, 则在本数据库中频繁项是 i1, i2, i3, i4, i5。对应 Bi1=(100110111), Bi2=(111101011), Bi3=(0010lllll), Bi4=(010100000), Bi5=(100000010)。 0024 整个过程只扫描一次数据库之后将不再扫描, 对频繁项集的挖掘都集中在位矢量 上, 从而大大提高了速度。 0025 实施例 3 基于有向图与加权关联规则的 Apriori 算法优化。
24、对进行改进构造矢量位图的方法同 实施例 2。在步骤 3 中所述建立频繁二项图。本例中结合图 1, 具体介绍有向图的构造方 法。将得到的位图中 1 出现次数最多的节点放在最上层, 若某两项在一次事务中同时出现, 并且出现的次数满足最小支持度要求 (大于或等于最小支持度) , 则在有向图中这两个节点 之间画一条边。 边上用二进制字符串表示 (二进制字符串通过两个节点求与运算得到, 其中 串中 1 的个数表示这两个节点同时出现的次数) 。结合实施例 2 中的事务数据库实例, 建立 频繁有项图见图 2. 实施例 4 基于有向图与加权关联规则的 Apriori 算法优化建立频繁二项图同实施例 3。图中的。
25、 每一个顶点代表一个频繁1项集, 利用频繁l项集生成有向图, 图中的每一条边代表一个频 繁 2 项集, 根据频繁项集理论, 所求的频繁项集必然包含这些频繁 2 项集。频繁项集是由这 些频繁2项集扩展而来的, 所以频繁项集只存在于图2的连通路径中, 因此可以从图中最长 的连通路径开始向下寻找候选项集, 具体步骤为 : 1) 对图 2 做深度优先遍历, 并记录最长路径 D( 可能有多条 ) ; 2)D 中路径长度为 l, 如果 l=0, 说明找不到频繁项集, 否则, 当 l0 时, 执行 3) ; 3) 计算 D 中每一条路径的加权支持度, 找出所有满足最小支持度的路径, 若存在, 它们 就是频繁项集, 算法到此结束。否则执行 4) ; 4)对于D中的每一条路径, 找出所有路径的长度为l-1的子集, 并利用图1验证它们是 否连通, 若为连通路径, 将该路径记录在 D 中, 返回 2)。 0026 以上例举仅仅是对本发明的举例说明, 并不构成对本发明的保护范围的限制, 凡 是与本发明相同或相似的设计均属于本发明的保护范围之内。 说 明 书 CN 103593400 A 7 1/2 页 8 图 1 图 2 说 明 书 附 图 CN 103593400 A 8 2/2 页 9 图 3 说 明 书 附 图 CN 103593400 A 9 。