《云计算环境下面向不确定数据源的工作流视图构造方法.pdf》由会员分享,可在线阅读,更多相关《云计算环境下面向不确定数据源的工作流视图构造方法.pdf(7页完整版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 102902739 A (43)申请公布日 2013.01.30 C N 1 0 2 9 0 2 7 3 9 A *CN102902739A* (21)申请号 201210337694.9 (22)申请日 2012.09.13 G06F 17/30(2006.01) (71)申请人杭州电子科技大学 地址 310018 浙江省杭州市下沙高教园区2 号大街 (72)发明人胡海洋 刘占晨 (74)专利代理机构杭州求是专利事务所有限公 司 33200 代理人杜军 (54) 发明名称 云计算环境下面向不确定数据源的工作流视 图构造方法 (57) 摘要 本发明公开了云计算环境下面。
2、向不确定数据 源的工作流视图构造方法。本发明首先读取科学 工作流的数据源图信息,并将整个数据源图视为 一个完整的工作流视图,检测它的合理性。然后对 数据源图进行拆分与重构时,按照四种情形处理。 最后对数据源图中的任务节点进行再次合并与重 构,直到数据源图中无法再进行任务节点之间的 合并为止,则数据源图中最终存在的任务节点和 复合任务节点将构成该数据源图的合理性视图。 本发明所提供的检测方法不仅考虑到了确定数据 源图中视图的合理性,更是结合了视图存在的期 望支持度来检测是否可以将多个任务合并为期望 支持度更大的复合任务。 (51)Int.Cl. 权利要求书2页 说明书4页 (19)中华人民共和国。
3、国家知识产权局 (12)发明专利申请 权利要求书 2 页 说明书 4 页 1/2页 2 1. 云计算环境下面向不确定数据源的工作流视图构造方法,其特征在于该方法的具 体步骤: 步骤(1)读取科学工作流的数据源图信息,包括数据源图中任务节点集、任务节点间的 数据流边的集合和数据流边的存在概率; 步骤(2)将整个数据源图视为一个完整的工作流视图,检测它的合理性,包括: 根据数据源图中的每条输入数据流必须能够到达该数据源图的所有输出任务节点 这一原则,来检测数据源图的合理性; 数据源图中的相邻任务节点在满足条件的情况下能否合并为一个新的复合任务、 且新的复合任务存在概率是否小于未合并之前各任务节点的。
4、存在概率,如果合并后的新复 合任务存在概率大于合并之前各任务节点的存在概率,则认为原来的数据源图具有不合理 性; 若数据源图具有合理性,则整个数据源图被视为一个完整的工作流视图; 步骤(3)若步骤(2)中整个数据源图将作为一个工作流视图被检测为不合理的,则按 照以下两种情况重新构造该数据源图的合理性视图: i)若数据源图因为不符合步骤(2)中的条件,则对该数据源图按照步骤(4)进行拆 分重构,从数据源图里面重新构造出合理性的视图; ii)若数据源图不符合步骤(2)中的条件,则找出数据源图中存在那些相邻任务节 点:这些相邻任务节点在满足条件的情况下能合并为一个新的复合任务、且新复合任务 存在概率。
5、大于未合并之前各任务节点的存在概率,并将这些相邻的任务节点进行合并; 步骤(4)对数据源图进行拆分与重构时,按照如下情形处理: 情形1、对某一任务节点,若它有且仅有一个相邻的前序节点,且该任务节点与该前序 节点合并后生成的复合任务的概率期望支持度大于该任务节点及前序节点的概率期望支 持度,则该任务节点与其前序节点可以合并为合理的复合任务节点; 情形2、若对于某一任务节点,若它仅有一个相邻的后续节点,且该任务节点与其后续 节点合并后生成的复合任务的概率期望支持度大于该任务节点及前序节点的概率期望支 持度,则该任务节点可与其后续节点合并为合理的复合任务; 情形3、若某一任务节点有多个相邻前序节点,。
6、若这些前序节点中存在着某个任务节 点,使得从其它前序节点出发的数据流边都能到达该前序任务节点,并且从该前序任务节 点出发的、所有没有指向该任务节点的数据流边的概率和小于用户给定的经验阈值,则可 对从该前序任务节点出发的、所有没有指向该任务节点的数据流边进行尝试性删除,并将 这些前序节点与该任务节点进行尝试性合并,如果合并之后的复合任务的概率期望支持度 大于合并前各任务节点的概率期望支持度,则这样的合并是可行的,且合并生成的复合任 务是合理的; 情形4、若数据源图中某几个任务节点具有相同的相邻前序任务集,且这些前序任务 节点中的每一个节点同时所具有相同的相邻后续任务集,此外若这些任务节点与它们的。
7、前 序任务集合并后生成的复合任务的概率期望支持度大于合并前的这些任务节点各自的概 率期望支持度,则这些任务节点与它们的相邻前序任务节点可以合并为一个合理的复合任 务; 步骤(5)重复步骤(3)对数据源图中的任务节点进行合并与重构,直到数据源图中无 权 利 要 求 书CN 102902739 A 2/2页 3 法再进行任务节点之间的合并为止,则数据源图中最终存在的任务节点和复合任务节点将 构成该数据源图的合理性视图。 权 利 要 求 书CN 102902739 A 1/4页 4 云计算环境下面向不确定数据源的工作流视图构造方法 技术领域 0001 本发明属于科学工作流技术领域,涉及一种面向科学工。
8、作流不确定数据源的视图 构造方法。 背景技术 0002 近年来,随着计算机网络技术飞速发展,作为新型互联网的后端支撑基础云计算 技术已开始逐步走向人类社会生活。科学工作流是一类典型的面向海量密集型数据流、以 减少计算成本为目标的应用系统,它的出现为跨多类学科和跨不同地域的科研合作提供了 方便。在科学工作流系统中,海量数据密集型计算与分布式资源共享彼此间协作、无隙地 进行,使得具有不同领域专业知识、地理位置分布的科研工作者可跨组织合作完成相关的 科学实验。科学工作流系统现已在各国的科研院所展开应用,并在生物信息学、社会关系分 析、气象学、物理学等多个领域都发挥了应有的作用。在云计算环境下进行科学。
9、工作流运行 时,将产生大量的中间数据和结果,对这些数据进行管理与分析有助于科研工作者对复杂、 多步骤的科学实验进行描述和分析。为了保证实验结果的可重复性与可验证性,许多科学 工作流系统都提供了对数据源的支持。由于复杂、大规模的科学工作流系统在运行过程中 将产生大量的数据源。如何对这些海量的数据源进行有效地查询与管理现已成为科研工作 者研究的重要问题之一,目前许多研究工作针对此方面展开,它们通过构造数据源视图的 方式来分析数据源,从而达到缩减数据源图的规模和计算复杂度的目的。在数据源视图中, 科学工作流中的任务依据数据流关系,被抽象成高阶的复合任务,从而达到隐藏不相关的 源数据细节、降低数据源图。
10、规模的目的,同时在视图级进行数据查询将有效地提高查询效 率。然而由于受数据采集的准确度和服务器的可靠性影响,当对数据源进行数据集成时,工 作流数据的不确定性现象将会产生。一般说来,这样的数据不确定性现象可用概率的形式 加以量化;在此基础上,不确定科学工作流中的数据源可被定义成活动执行的概率图形式。 0003 目前在科学工作流视图构建技术方面的研究尚未深入,现有工作则主要集中在确 定式数据源图方面;而面向不确定式数据源视图的合理性检验与构建技术方面的相关研究 工作还有待进一步开展。因此本发明针对此方面进行研究,提出了在不确定数据源图中检 测视图合理性的方法,并进一步基于任务间的数据流和局部期望支。
11、持度给出了构建不确定 式视图的方法。 0004 本发明方法的具体步骤是: 步骤(1)读取科学工作流的数据源图信息,包括数据源图中任务节点集、任务节点间的 数据流边的集合和数据流边的存在概率。 0005 步骤(2)将整个数据源图视为一个完整的工作流视图,检测它的合理性,包括: 根据数据源图中的每条输入数据流必须能够到达该数据源图的所有输出任务节点 这一原则,来检测数据源图的合理性。 0006 数据源图中的相邻任务节点在满足条件的情况下能否合并为一个新的复合 任务、且新的复合任务存在概率是否小于未合并之前各任务节点的存在概率,如果合并后 说 明 书CN 102902739 A 2/4页 5 的新复。
12、合任务存在概率大于合并之前各任务节点的存在概率,则认为原来的数据源图具有 不合理性。 0007 若数据源图具有合理性,则整个数据源图被视为一个完整的工作流视图。 0008 步骤(3) 若步骤(2)中整个数据源图将作为一个工作流视图被检测为不合理的, 则按照以下两种情况重新构造该数据源图的合理性视图: i)若数据源图因为不符合步骤(2)中的条件,则对该数据源图按照步骤(4)进行拆 分重构,从数据源图里面重新构造出合理性的视图。 0009 ii)若数据源图不符合步骤(2)中的条件,则找出数据源图中存在那些相邻任 务节点:这些相邻任务节点在满足条件的情况下能合并为一个新的复合任务、且新复合 任务存在。
13、概率大于未合并之前各任务节点的存在概率,并将这些相邻的任务节点进行合 并。 0010 步骤(4)对数据源图进行拆分与重构时,按照如下情形处理: 情形1、对某一任务节点,若它有且仅有一个相邻的前序节点,且该任务节点与该前序 节点合并后生成的复合任务的概率期望支持度大于该任务节点及前序节点的概率期望支 持度,则该任务节点与其前序节点可以合并为合理的复合任务节点。 0011 情形2、若对于某一任务节点,若它仅有一个相邻的后续节点,且该任务节点与其 后续节点合并后生成的复合任务的概率期望支持度大于该任务节点及前序节点的概率期 望支持度,则该任务节点可与其后续节点合并为合理的复合任务。 0012 情形3。
14、、若某一任务节点有多个相邻前序节点,若这些前序节点中存在着某个任务 节点,使得从其它前序节点出发的数据流边都能到达该前序任务节点,并且从该前序任务 节点出发的、所有没有指向该任务节点的数据流边的概率和小于用户给定的经验阈值,则 可对从该前序任务节点出发的、所有没有指向该任务节点的数据流边进行尝试性删除,并 将这些前序节点与该任务节点进行尝试性合并,如果合并之后的复合任务的概率期望支持 度大于合并前各任务节点的概率期望支持度,则这样的合并是可行的,且合并生成的复合 任务是合理的。 0013 情形4、若数据源图中某几个任务节点具有相同的相邻前序任务集,且这些前序任 务节点中的每一个节点同时所具有相。
15、同的相邻后续任务集,此外若这些任务节点与它们的 前序任务集合并后生成的复合任务的概率期望支持度大于合并前的这些任务节点各自的 概率期望支持度,则这些任务节点与它们的相邻前序任务节点可以合并为一个合理的复合 任务。 0014 步骤(5)重复步骤(3)对数据源图中的任务节点进行合并与重构,直到数据源图 中无法再进行任务节点之间的合并为止,则数据源图中最终存在的任务节点和复合任务节 点将构成该数据源图的合理性视图。 0015 本发明所提供的云计算环境下面向不确定数据源的工作流视图构造方法由一组 功能模块组成,它们包括:数据源图信息读入模块、视图遍历检测模块和不合理视图拆分重 构模块。 0016 数据。
16、源图信息读入模块读入科学工作流不确定数据源图视图的详细信息。包括数 据源图的节点数目,边的数目,节点与节点、节点与边之间的关系,边的存在概率。视图所包 含的节点以及边。 说 明 书CN 102902739 A 3/4页 6 0017 视图遍历检测模块将对输入的数据源图进行检测,首先将整个数据源图视为一个 完整的视图,依据数据源图的输入数据流必须到达数据源图的所有输出任务节点,并对数 据源图中的任务节点的概率期望支持度进行检测。若检测出是不合理的,则数据源图作为 下一个模块的输入。 0018 不合理数据源图拆分重构模块对输入的数据源图进行拆分重构。本模块首先对输 入的数据源图进行遍历,统计该数据。
17、源图的输入节点和输出接点,并分别存放于输入节点 集合和输出节点集合中,从输出节点中的某一任务节点开始,依次遍历该节点的前序节点, 如果符合合并规则就将该节点与其前序合并为一个复合任务,直至遍历到输入节点集合中 的节点,按照此方法依次遍历输出节点集合中剩余的复合任务。 0019 与传统方法相比,本发明所提供的检测方法不仅考虑到了确定数据源图中视图的 合理性,更是结合了视图存在的期望支持度来检测是否可以将多个任务合并为期望支持度 更大的复合任务。 0020 在不合理视图检测环节对实际科学工作流数据源图做出直接映射,考虑了实际情 景中可能出现的各种情况。在对不合理视图拆分重构过程中总结了四种不同的合。
18、并规则, 对于减少合理视图数目具有很重要的作用。 0021 具体实施方式: 相关概念及符号说明: G =V G , E G , G , L G :不确定数据源图; V G :不确定数据源图中节点集合; E G :不确定数据源图中边的集合: G :不确定数据源图中边的概率集合; :不确定数据源图中节点V G 、E G 的标签; V:不确定数据源图中的视图; P:复合任务; H P (v i ,1):复合任务P中的节点v i 的一阶前序; Q P (v i ,1):复合任务P中的节点v i 的一阶后序; v:普通节点; Set(v):节点的集合; 本发明可用于云计算环境下处理不确定数据源图视图的检。
19、测以及重构,主要可分为两 大功能:视图的检测和不合理视图的重构。 0022 (1)假设输入的不确定数据源图为G =V G , E G , G , L G ,V G 为图中节点集合,E G 为图中边的集合, G 为边的概率集合,则定义了图中节点V G 、E G 的标签。图G的视图将 图划分为若干个互不相交的区域,每一个区域被称为一个视图或复合任务。 0023 图G的子图是图G的部分边和节点集合,我们可以通过边的存在概率计算出子图 在图G中的存在概率。 0024 (2)对于输入的不确定数据源图G,视图遍历检测模块首先检测整个数据源图作为 一个完整的视图是否具有合理性,其检测依据是视图的所有的输入数。
20、据流边都能到达该视 图的所有输出任务节点。如果数据源图中的任务节点能满足上述条件,则尝试将数据源图 说 明 书CN 102902739 A 4/4页 7 中某些任务节点与其相邻的任务节点依照上述条件合并为一个复合任务,若合并后的复合 任务的期望支持度大于合并前各任务节点的概率期望支持度,则由该数据源图所构成视图 具有不合理性。 0025 (3)若数据源图所构成视图G被检测出是不合理的,则查找出其输入节点集合和 输出节点集。计算输出节点集合中的每一个任务节点的前序,按照节点前序数目从多到少 进行排序。从输出节点集合中的某一个任务节点开始,依次寻找具有公共前序的任务节点, 如果存在具有公共前序的节。
21、点集,则按照合并规则4(见下文)进行合并,否则顺次对输出节 点集合中的任务节点进行前序遍历。对于输出节点集合中的某一任务节点的前序节点,按 照该任务节点与前序节点的输入输出边的关系以及边的概率,可分为三种情况进行处理, 具体的情况以及处理方式可参考下文的规则1、2、3。若符合合并规则就将该任务节点与其 前序合并为一个复合任务,直至遍历到输入节点集合中的所有节点为止。 0026 (4)重复步骤(3)按照此方法依次遍历数据源图中剩余的任务与复合任务,直到无 法再进行任务节点间的合并为止;数据源图中所有的任务与复合任务将构成该数据源图的 合理性视图。 0027 合并规则的说明: 规则1:若对于某一任。
22、务节点P,其一阶前序节点有且仅有一个节点v,且该任务节点P 与其前序节点v合并后的期望支持度大于该任务节点的期望支持度,则该任务节点与其前 序节点可以合并为合理的复合任务。 0028 规则2:若对于某一任务节点P,其一阶后续节点v有且仅有一个节点,且该任务节 点P与其一阶后续节点v合并后的期望支持度大于该任务节点的期望支持度,则该复合任 务与其一阶后续节点可以合并为合理的复合任务。 0029 规则3:假定某一任务节点P的一阶前序为节点的集合H P (v i ,1),对于集合中的任 意一点v,如果集合中的其他节点都能到达v,且v的所有没有指向任务节点P的边的概率 和小于用户给定的经验阈值,则对这。
23、些边进行尝试性删除,并将集合H P (v i ,1)合并到任务 节点P中,如果合并之后的复合任务的期望支持度大于合并之前各任务节点的概率期望支 持度,则P与H P (v i ,1)可以合并为合理的复合任务。 0030 规则4:若某一任务节点集合Set(v)中的每一个节点都具有相同的一阶前序 H Set(v) (v i ,1),且这些一阶前序中的每一个节点同时具有相同的一阶后续,且节点集Set(v) 与其一阶前序H Set(v) (v i ,1)合并之后的复合任务的期望支持度大于合并前各任务节点的概 率期望支持度,则节点集Set(v)和其一阶前序H Set(v) (v i ,1)可以合并为合理的复合任务。 说 明 书CN 102902739 A 。