书签 分享 收藏 举报 版权申诉 / 9

一种基于等价类的重复任务过程发现方法.pdf

  • 上传人:Y94****206
  • 文档编号:6384685
  • 上传时间:2019-06-06
  • 格式:PDF
  • 页数:9
  • 大小:452.57KB
  • 摘要
    申请专利号:

    CN201510478613.0

    申请日:

    2015.08.06

    公开号:

    CN105117430A

    公开日:

    2015.12.02

    当前法律状态:

    授权

    有效性:

    有权

    法律详情:

    授权|||实质审查的生效IPC(主分类):G06F 17/30申请日:20150806|||公开

    IPC分类号:

    G06F17/30

    主分类号:

    G06F17/30

    申请人:

    中山大学

    发明人:

    冯健文; 常会友

    地址:

    510275广东省广州市海珠区新港西路135号

    优先权:

    专利代理机构:

    广州粤高专利商标代理有限公司44102

    代理人:

    林丽明

    PDF完整版下载: PDF下载
    内容摘要

    本发明公开一种基于等价类的重复任务过程发现方法,通过扩展事件次序关系定义,提出等价类划分同一任务子集的判定定理,在预处理阶段,通过把具有正确依赖次序关系的同名事件划分为同一任务等价类子集,在处理中阶段采用短循环过程发现算法生成WF-net模型,在处理后阶段对不同的同一任务子集重命名,以达到消除重复任务的目标。其首先读取标准的业务过程XES文件,采用次序依赖关系定义和判定定理检测重复任务,输出采用WF-net表示的业务过程模型。该方法具有解决较高的处理包含短循环结构、多前驱后继和重复任务过程发现问题的能力,且该方法能保证挖掘结果是正确合理的。

    权利要求书

    权利要求书
    1.  一种基于等价类的重复任务过程发现方法,其特征在于,读取标准的业务过程XES文件,采用次序依赖关系定义和判定定理检测重复任务,输出采用WF-net表示的业务过程模型;
    采用次序依赖关系定义和判定定理检测重复任务的具体过程如下:
    (1)从XES日志W中提取任务集合T_W;
    (2)从XES日志W中提取首任务集合T_I和末任务集合T_O;
    (3)根据次序依赖关系定义从T_W、T_I和T_O提取任务间的次序依赖关系;
    (4)初始化多次任务集合T_M和T_C;
    (5)初始化重复任务日志W_D和任务集合T_D;
    (6)根据次序依赖关系定义建立同结构任务集合ST_D;
    (7)根据同一任务子集判定定理检测和更名重复任务,运行方法Discovery;
    (8)采用第三方过程发现方法构建WF-net模型;
    (9)对WF-net模型恢复重复任务名称;
    (10)结束;
    所述步骤(7)中方法Discovery的具体步骤如下:
    (7.1)读入重复任务日志W_D、任务集合T_D、多次任务集合T_M和同结构任务集合ST_D;
    (7.2)T_M中是否还有未检测任务t;
    (7.2.1)没有未检测任务t,跳转至步骤(7.3);
    (7.2.2)有未检测任务t,则建立未检测任务t的同名事件集合,并对每个同名事件构建前驱/后继表,即P/S表;把P/S表的每个元素初始化为集合,选取任意两个集合,采用同一任务集合判定定理进行比较,如果两个集合为同一任务集合则合并,直到不能合并为止,结果保存至同一任务集合X;如果X中的元素个数大于1个,说明存在重复任务,就对W_D中,未检测任务t的同名事件进行更名操作;跳转至步骤(7.2.1);
    (7.3)输出新的日志W_D和任务集合T_D。

    说明书

    说明书一种基于等价类的重复任务过程发现方法
    技术领域
    本发明涉及数据处理领域,更具体地,涉及一种基于等价类的重复任务过程发现方法。
    背景技术
    当前,基于分布式计算、物联网和服务计算等环境的各类信息系统,都存在大量记录业务执行过程的日志数据。过程挖掘技术通过分析这些日志,发现有价值的知识,帮助改进原有业务流程。过程发现是过程挖掘的核心技术,即如何从日志发现业务过程模型。通常业务模型包括顺序、并行、选择、循环、非自由选择、隐含任务和重复任务等控制流结构。控制流结构挖掘能力,即从事件日志中构造能描述活动执行关系的过程模型,是衡量过程发现技术的核心指标。
    佩特网(Petrinet)理论是过程发现技术生成模型的主流表示方法。工作流网(WorkflowPetrinet,WF-net)是指用来表示过程模型的控制流维度的Petrinet,控制流维度是指支持业务过程建模的构造块,如顺序、选择、并行和循环等结构。当采用WF-net表示一个业务过程模型,那么业务活动采用变迁、活动间的因果依赖关系采用库所和连接弧表示。结构化工作流网(StructuredWorkflowPetrinet,SWF-net)是WF-net的一个子类。如果一个WF-net不是合理的SWF-net,那么过程模型可能不正确执行和不能准确反映日志的事件序列。
    基于WF-net的方法通过拓展任务次序依赖关系来识别常见过程结构。可发现合理的结构化WF-net(SWF-net)。WF-net算法一般分为提取、推导和构建阶段。重复任务是指在过程模型中具有相同名称的不同变迁。现有重复任务发现方法研究多采用预处理、处理中和处理后的方法,在预处理阶段提取和推导出任务次序依赖关系,识别重复任务,然后对日志中的重复任务更名,处理中阶段采用WF-net算法构建WF-net模型,处理后阶段再恢复重复任务原名称。
    现有技术中,李嘉菲提出的方法1是采用机器学习技术,通过比较给定任务的直接前驱和后继任务表(P/S表),识别重复任务,算法可在包含顺序、并行、选择结构的日志中发现重复任务,但不能处理包含短循环结构的日志。算法没有证 明生成模型是SWF-net,因此结果可能不合理。陈信敏提出方法2采用扩展方法来处理包含重复任务和非自由选择结构的日志,但仍没有解决方法1的问题。顾春琴和叶小虎提出方法3和4,引入了包围任务概念,认为被相同前驱和后继包围的轨迹序列中出现的任务都不是重复任务,虽然能识别部分包含短循环结构的日志,但没有考虑同名任务出现在不同轨迹,且没有处理多个前驱和后继的包围情况,算法正确性也没有证明。
    上述方法1不能解决包含短循环结构的重复任务识别问题,原因在于机器学习的启发规则能力不足,此外由于没有采用形式化理论来表示生成模型,因此挖掘结果可能不合理;方法2通过扩展启发规则来识别非自由选择结构,但仍没有解决方法1的不足;方法3和4只能处理部分情形的短循环和重复任务发现问题,原因在于没有考虑重复任务出现在不同执行轨迹的情形,且没有处理多个前驱和后继的包围情况。
    发明内容
    本发明为克服上述现有技术所述的至少一种不足,提供一种基于等价类的重复任务过程发现方法,可从包含顺序、并行、选择、短循环结构和重复任务的业务过程日志数据中,发现正确、合理的业务过程模型。该方法具有解决较高的处理包含短循环结构、多前驱后继和重复任务过程发现问题的能力,且该方法能保证挖掘结果是正确合理的。
    为解决上述技术问题,本发明的技术方案如下:
    实现本发明的技术思路是:通过扩展事件次序关系定义,提出等价类划分同一任务子集的判定定理,在预处理阶段,通过把具有正确依赖次序关系的同名事件划分为同一任务等价类子集,在处理中阶段采用短循环过程发现算法生成WF-net模型,在处理后阶段对不同的同一任务子集重命名,以达到消除重复任务的目标。
    一种基于等价类的重复任务过程发现方法,读取标准的业务过程XES文件,采用次序依赖关系定义和判定定理检测重复任务,输出采用WF-net表示的业务过程模型;
    采用次序依赖关系定义和判定定理检测重复任务的具体过程如下:
    (1)从XES日志W中提取任务集合T_W;
    (2)从XES日志W中提取首任务集合T_I和末任务集合T_O;
    (3)根据次序依赖关系定义从T_W、T_I和T_O提取任务间的次序依赖关系;
    (4)初始化多次任务集合T_M和T_C;
    (5)初始化重复任务日志W_D和任务集合T_D;
    (6)根据次序依赖关系定义建立同结构任务集合ST_D;
    (7)根据同一任务子集判定定理检测和更名重复任务,运行方法Discovery;
    (8)采用第三方过程发现方法构建WF-net模型;
    (9)对WF-net模型恢复重复任务名称;
    (10)结束;
    所述步骤(7)中方法Discovery的具体步骤如下:
    (7.1)读入重复任务日志W_D、任务集合T_D、多次任务集合T_M和同结构任务集合ST_D;
    (7.2)T_M中是否还有未检测任务t;
    (7.2.1)没有未检测任务t,跳转至步骤(7.3);
    (7.2.2)有未检测任务t,则建立未检测任务t的同名事件集合,并对每个同名事件构建前驱/后继表,即P/S表;把P/S表的每个元素初始化为集合,选取任意两个集合,采用同一任务集合判定定理进行比较,如果两个集合为同一任务集合则合并,直到不能合并为止,结果保存至同一任务集合X;如果X中的元素个数大于1个,说明存在重复任务,就对W_D中,未检测任务t的同名事件进行更名操作;跳转至步骤(7.2.1);
    (7.3)输出新的日志W_D和任务集合T_D。
    与现有技术相比,本发明技术方案的有益效果是:
    与方法1和方法2相比,本发明采用的检测重复任务方法是依据同一任务判定定理,这保证了挖掘得到的模型必定是正确合理的,而且当挖掘其他更复杂的结构时,只要引入新的定理,那么方法的挖掘能力就能提高,而且挖掘结果的合理性得到保证,本方法的扩展性更好;
    与方法3和方法4相比,本发明提出了包括短循环和并行结构的同结构定义,并提出了非局部依赖关系和局部依赖关系的判定同一任务定理规则,可处理多个前驱和后继的包围情况。
    附图说明
    图1为实现为软件插件的系统模型示意图。
    图2为本发明的流程图。
    图3为本发明步骤中方法Discovery的流程图。
    具体实施方式
    附图仅用于示例性说明,不能理解为对本专利的限制;为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
    对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。下面结合附图和实施例对本发明的技术方案做进一步的说明。
    实现本发明的技术思路是:通过扩展事件次序关系定义,提出等价类划分同一任务子集的判定定理,在预处理阶段,通过把具有正确依赖次序关系的同名事件划分为同一任务等价类子集,在处理中阶段采用短循环过程发现算法生成WF-net模型,在处理后阶段对不同的同一任务子集重命名,以达到消除重复任务的目标。
    本发明可采用Java、C等程序设计语言实现为独立运行的软件或者其他软件插件,附图1为实现为软件插件的系统模型。
    本发明首先读取标准的业务过程XES文件,本发明的方法运算时,采用次序依赖关系定义和判定定理检测重复任务,输出采用WF-net表示的业务过程模型。
    本发明运算实现步骤包括如下,参见附图2:
    (1)从XES日志W中提取任务集合T_W;
    (2)从XES日志W中提取首任务集合T_I和末任务集合T_O;
    (3)根据次序依赖关系定义从T_W、T_I和T_O提取任务间的次序依赖关系;
    (4)初始化多次任务集合T_M和T_C;
    (5)初始化重复任务日志W_D和任务集合T_D;
    (6)根据次序依赖关系定义建立同结构任务集合ST_D;
    (7)根据同一任务子集判定定理检测和更名重复任务,运行方法Discovery;
    (8)采用第三方过程发现方法构建WF-net模型;
    (9)对WF-net模型恢复重复任务名称。
    (10)结束。
    本发明的重点为第(7)步的方法Discovery,见附图3,具体实施步骤如下:
    (7.1)读入重复任务日志W_D、任务集合T_D、多次任务集合T_M和同结构任务集合ST_D;
    (7.2)T_M中是否还有未检测任务t;
    (7.2.1)否,跳转至步骤(7.3);
    (7.2.2)是
    (7.2.2.1)则建立t的同名事件集合,并对每个同名事件构建前驱/后继表(P/S表);
    (7.2.2.2)把P/S表的每个元素初始化为集合,选取任意两个集合,采用同一任务集合判定定理进行比较,如果两个集合为同一任务集合则合并,直到不能合并为止,结果保存至同一任务集合X;
    (7.2.2.3)如果X中的元素个数大于1个,说明存在重复任务,就对W_D中,t的同名事件进行更名操作;
    (7.2.2.4)跳转至(7.2)。
    (7.3)输出新的日志W_D和任务集合T_D。
    本发明进行了仿真实验,本发明采用Java语言实现为第三方过程发现软件ProM6的方法插件。输入XES日志9个(现有技术的方法1-4均不能处理),本发明成功挖掘出合理的WF-net模型。仿真实验例子特征如下:
    表1
    编号检测特征N1顺序、短循环1结构和多前驱、多后继任务N2顺序、短循环2结构和多前驱、多后继任务N3顺序、短循环1结构和短循环1前驱后继任务N4顺序、短循环2结构和短循环1前驱后继任务N5多个短循环1结构和多前驱后继任务N6顺序结构和并行前驱后继任务N7顺序、短循环2结构和并行前驱后继任务N8短循环1、短循环2结构和多前驱后继任务N9短循环1、短循环2结构和长循环前驱后继任务
    本发明在实现过程中的提取同名事件依赖关系的方法
    现有方法在发现重复任务前,都采用建立同名事件的前驱和后继表(P/S) 来表示多个同名事件间的依赖关系。本发明建立同名事件P/S表时,如果该同名事件属于同结构任务,则提取其非局部依赖关系,否则提取其局部依赖关系,这样解决了循环结构的同名事件判定。而方法1和方法2直接使用局部依赖关系,造成重复任务判定规则繁多、无法证明挖掘模型合理性;方法3和方法4引入了包围任务概念,但没有处理多个前驱和后继的包围情况,挖掘能力不足。
    基于同一任务等价类子集划分的重复任务发现方法
    对于发现重复任务,本发明的方案为:基于等价类思想,判断两个同名任务是否可与其他任务构成合理的SWF-net,若是则为同一任务,即同个变迁;否则为重复任务,即不同变迁。本发明的方案基于任务次序依赖关系,判定规则基于WF-net理论,通过理论证明了有效性,生成的模型必定是合理的SWF-net。方法1和2采用对比两个同名任务的前驱和后继任务的方案,判定规则没有理论基础,生成的模型无法保证合理性;方法3和4基于包围任务的思想,采用对比两个同名任务是否符合次序依赖关系的方案,判定规则不能处理多个前驱和后继的包围情况,没有证明生成的模型是合理的。
    显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

    关 键  词:
    一种 基于 等价 重复 任务 过程 发现 方法
      专利查询网所有文档均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    0条评论

    还可以输入200字符

    暂无评论,赶快抢占沙发吧。

    关于本文
    本文标题:一种基于等价类的重复任务过程发现方法.pdf
    链接地址:https://www.zhuanlichaxun.net/p-6384685.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
    经营许可证编号:粤ICP备2021068784号-1