首页 > 专利 > 杭州电子科技大学 > 一种基于轨迹重演的业务流程剩余活动序列预测方法专利详情

一种基于轨迹重演的业务流程剩余活动序列预测方法   0    0

有效专利 查看PDF
专利申请流程有哪些步骤?
专利申请流程图
申请
申请号:指国家知识产权局受理一件专利申请时给予该专利申请的一个标示号码。唯一性原则。
申请日:提出专利申请之日。
2021-06-10
申请公布
申请公布指发明专利申请经初步审查合格后,自申请日(或优先权日)起18个月期满时的公布或根据申请人的请求提前进行的公布。
申请公布号:专利申请过程中,在尚未取得专利授权之前,国家专利局《专利公报》公开专利时的编号。
申请公布日:申请公开的日期,即在专利公报上予以公开的日期。
2021-11-09
授权
授权指对发明专利申请经实质审查没有发现驳回理由,授予发明专利权;或对实用新型或外观设计专利申请经初步审查没有发现驳回理由,授予实用新型专利权或外观设计专利权。
2022-03-08
预估到期
发明专利权的期限为二十年,实用新型专利权期限为十年,外观设计专利权期限为十五年,均自申请日起计算。专利届满后法律终止保护。
2041-06-10
基本信息
有效性 有效专利 专利类型 发明专利
申请号 CN202110649058.9 申请日 2021-06-10
公开/公告号 CN113537712B 公开/公告日 2022-03-08
授权日 2022-03-08 预估到期日 2041-06-10
申请年 2021年 公开/公告年 2022年
缴费截止日
分类号 G06Q10/06 主分类号 G06Q10/06
是否联合申请 独立申请 文献类型号 B
独权数量 1 从权数量 6
权利要求数量 7 非专利引证数量 0
引用专利数量 0 被引证专利数量 0
非专利引证
引用专利 被引证专利
专利权维持 1 专利申请国编码 CN
专利事件 事务标签 公开、实质审查、授权
申请人信息
申请人 第一申请人
专利权人 杭州电子科技大学 当前专利权人 杭州电子科技大学
发明人 孙笑笑、杨思青、应钰柯、俞东进 第一发明人 孙笑笑
地址 浙江省杭州市下沙高教园区 邮编 310018
申请人数量 1 发明人数量 4
申请人所在省 浙江省 申请人所在市 浙江省杭州市
代理人信息
代理机构
专利代理机构是经省专利管理局审核,国家知识产权局批准设立,可以接受委托人的委托,在委托权限范围内以委托人的名义办理专利申请或其他专利事务的服务机构。
杭州君度专利代理事务所 代理人
专利代理师是代理他人进行专利申请和办理其他专利事务,取得一定资格的人。
杨舟涛
摘要
本发明公开了一种基于轨迹重演的业务流程剩余活动序列预测方法。该方法首先使用轨迹重演技术模拟流程轨迹在真实环境中的执行情况,并基于提取的执行上下文信息从历史事件日志中选取与当前流程实例执行情况最相似的候选前缀轨迹集合。之后,方法对流程轨迹中每个属性的重要性进行量化,即计算属性权重矩阵。最后,方法基于属性权重矩阵,在候选前缀轨迹集合筛选出综合属性相似度最高的一条前缀轨迹,将其后缀活动序列作为当前轨迹的剩余活动序列。此方法具有预测相似度高、适用性广泛、鲁棒性强等特点,能够有效地解决复杂业务流程的剩余活动序列预测问题,从而为流程管理者提供有效信息来优化流程并且避免流程异常以及资源竞争等。
  • 摘要附图
    一种基于轨迹重演的业务流程剩余活动序列预测方法
  • 说明书附图:图1
    一种基于轨迹重演的业务流程剩余活动序列预测方法
  • 说明书附图:图2
    一种基于轨迹重演的业务流程剩余活动序列预测方法
法律状态
序号 法律状态公告日 法律状态 法律状态信息
1 2022-03-08 授权
2 2021-11-09 实质审查的生效 IPC(主分类): G06Q 10/06 专利申请号: 202110649058.9 申请日: 2021.06.10
3 2021-10-22 公开
权利要求
权利要求书是申请文件最核心的部分,是申请人向国家申请保护他的发明创造及划定保护范围的文件。
1.一种基于轨迹重演的业务流程剩余活动序列预测方法,其特征在于包括以下步骤:
S
1.输入原始日志文件 其中 由 条流程轨迹σ=e3,…,e|σ|>组成,每条流程轨迹σ由|σ|个事件e=(CaseID,Activity,Resource,StartTime,CompleteTime,attr1,attr2,…attrN)组成,其中caseID代表事件所属的实例,Activity代表事件执行的活动,Resource代表事件执行所需的资源,StartTime和CompleteTime分别代表该事件的开始时间和结束时间,attr1,attr2,…attrN代表该事件的其余N个属性,日志的活动集合被记为A;
S
2.根据CompleteTime对 中的流程轨迹排序后生成训练数据;
S
3.将训练数据中的流程轨迹拆分为前缀轨迹和对应的后缀轨迹,前缀轨迹pt=为轨迹σ的前k个事件,而其对应的后缀轨迹st为轨迹σ的后|σ|‑k个事件;
S
4.使用过程挖掘算法从训练数据中挖掘Petri网PN;
S
5.使用轨迹重演技术将训练数据中的每个前缀轨迹pt在S4挖掘得到的Petri网上逐个进行轨迹重演得到Petri网中托肯的分布情况,记为执行上下文BehavContext(pt);轨迹重演过程中,遍历pt的每个事件对应的变迁t,判断其是否满足使能条件即其输入集合的库所是否都持有托肯;对于不满足使能条件即没有持有托肯的库所pi采用以下方法使其满足托肯要求:首先判断是否有库所pj与其存在由隐藏变迁组成的最短路径,如果存在则触发该条路径上的隐藏变迁,即pj中的托肯数目减一,pi中的托肯数目加一,如果不存在,则将pi中的托肯数目额外加一;
S
6.基于步骤S5得到的执行上下文BehavContext(pt),计算其与训练数据中其他所有前缀轨迹的执行相似度TBS(σ1,σ2),然后从中为其选取TBS(σ1,σ2)最大的候选前缀轨迹集合Spt,其计算公式如下所示:
其中,Eqij表示两条轨迹σ1,σ2在执行第i个活动之后在第j个库所的托肯数量的等价性,BehavContext(σ1)ij表示σ1在执行第i个活动之后在第j个库所的托肯数量,BehavContext(σ2)ij表示σ2在执行第i个活动之后在第j个库所的托肯数量,|σ1|和|σ2|分别代表轨迹σ1和σ2的事件数;|P|表示Petri网中库所的数量;
S
7.对流程轨迹中每个属性的重要性即属性权重进行计算,具体步骤如下:
S
71.首先对流程轨迹的属性进行筛选,删除无关属性后形成新属性集合D;
S
72.从训练数据中随机选择部分流程轨迹,并将它们的前缀轨迹集合记为S′pt,对于S′pt中的每条前缀轨迹,根据以下属性序列相似度计算公式为其从剩余的训练数据中选取条最相似的前缀轨迹记为SimPTi,其中属性序列相似度计算公式如下:
其中 和 为流程轨迹σ1和σ2中由属性 的属性值构成的有序序列,即属性
序列; 表示经过归一化的 和 之间的欧式距离,
表示 和 之间的Demerau‑Levinstain距离;
S
73.对于每个属性 统计S′pt中所有前缀轨迹的剩余活动序列与SimPTi的剩余活动序列之间的相似度CDi,从而得到相似度向量 根据该相似度向量
计算得到最终的属性权重向量W,具体公式如下:
其中,Actseq1和ActSeq2代表两条活动序列,DL_Dist(ActSeq1,ActSeq2)表示两条活动序列的Demerau‑Levinstain距离,l1和l2分别代表两条活动序列的长度;W是属性权重向量,为新属性集合, 为新属性的数量,wi表示属性 的权重;
S
8.针对待预测的当前流程轨迹,计算其与所述候选前缀轨迹集合Spt中的每条流程轨迹之间基于属性的轨迹相似度TS(σ1,σ2,W),即两者之间所有属性序列相似度的加权和,其计算公式如下:
S
9.经过S8的计算后,筛选出Spt中基于属性的轨迹相似度最大的一条流程轨迹,并将其剩余活动序列作为当前流程轨迹的预测剩余活动序列。

2.根据权利要求1所述的一种基于轨迹重演的业务流程剩余活动序列预测方法,其特征在于所述S4中使用过程挖掘算法从训练数据中挖掘Petri网PN的方法为Inductive Miner算法,其挖掘得到的Petri网表达式如下:
PN=(P,T,F,A,π,M)
其中P={p0,p1,…,p|P|‑1}为Petri网中的库所集合,每个库所持有非负数量的托肯,库所pi持有的托肯数目被记为β(pi);T={t0,t1,…,t|T|‑1}为Petri网中的变迁集合,|T|表示Petri网中变迁的数量;F=(P×T)∪(T×P)是连接库所和变迁的有向弧集合;A为日志的活动集合;π是一个映射函数,用于将变迁ti∈T与A中的活动或者不可观察活动相关联,其中与不可观察活动相关联的变迁为隐藏变迁;M=[β(p0),β(p1),…,β(p|P|‑1)]是Petri网中托肯的分布情况,M的初始状态记为Minit。

3.根据权利要求1所述的一种基于轨迹重演的业务流程剩余活动序列预测方法,其特征在于S5具体包含以下步骤:
S
51.对于前缀轨迹pt,首先将其执行上下文信息BehavContext(pt)初始化为一个空矩阵;然后将Petri网的初始托肯分布即Minit拼接至BehavContext(pt);
S
52.按序遍历pt的每个事件,根据π映射函数获取对应的变迁t,并判断t是否满足使能o
条件,即其输入集合t中的每个库所是否持有托肯,如果满足则执行步骤S521,否则,执行步骤S522;
o o
S
521.触发变迁t,即将变迁t的输入集合中 t每个库所的托肯数目减一,其输出集合t中每个库所的托肯数目加一,并更新Petri网的托肯分布M,然后执行S53,其更新计算步骤如下:
M=[β(p0),β(p1),…,β(p|P|‑1)]
o o
S
522.获取t中未持有托肯的库所集合,记为PTokenMissing;获取除 t中库所之外,当前持有托肯的库所集合,记为PToken;对于PTokenMissing中的每个库所pi,判断是否存在库所pj∈PToken与其存在由隐藏变迁组成的最短路径,如果存在则触发该条路径上的隐藏变迁,即pj中的托肯数目减一,pi中的托肯数目加一,使得pi满足托肯要求;如果还存在未满足托肯要求的库所,手动将其托肯数目加一;最后执行步骤S521;
S
53.将当前Petri网的托肯分布M拼接至BehavContext(pt)。

4.根据权利要求1所述的一种基于轨迹重演的业务流程剩余活动序列预测方法,其特征在于所述的S71中被删除的无关属性为与流程执行相关但与流程分析无关的属性。

5.根据权利要求4所述的一种基于轨迹重演的业务流程剩余活动序列预测方法,其特征在于所述无关属性为用于编号的ID属性。

6.根据权利要求1所述的一种基于轨迹重演的业务流程剩余活动序列预测方法,其特征在于所述的S72中 表示经过归一化的 和 之间的
欧式距离,如果σ1和σ2的序列长度不一致,则使用后向零填充法使其统一。

7.根据权利要求1所述的一种基于轨迹重演的业务流程剩余活动序列预测方法,其特征在于所述的S72中从训练数据中随机选择10%流程轨迹,并将它们的前缀轨迹集合记为S′pt。
说明书

技术领域

[0001] 本发明涉及业务流程监控领域,尤其涉及一种基于轨迹重演的业务流程剩余活动序列预测方法。

背景技术

[0002] 流程挖掘作为数据挖掘技术在业务流程管理中的应用,通过分析业务流程的事件日志,实现对业务流程的发现、建模、监控和改进。作为流程挖掘子领域之一,预测性业务流程监控基于历史事件日志构建预测模型,从而为在线流程实例提供未来执行信息,其研究旨在优化流程执行以及降低流程违规的风险。本发明主要进行业务流程剩余活动序列的预测,即预测业务流程未完成实例的未来执行活动序列,有助于加深参与者对流程执行状态的了解,并且有利于管理者发现流程早期的执行偏差与潜在的资源短缺,并及时采取有效措施。
[0003] 然而,目前针对业务流程剩余活动序列预测的研究工作较少,大多数研究基于迭代进行下一活动预测进而实现序列预测,而中间预测偏差会导致整条序列与真实序列不相符。因此研究一种高相似度且符合业务流程实际执行情况的剩余活动序列预测方法意义重大。

发明内容

[0004] 为了克服上述现有技术的不足,本发明提供一种基于轨迹重演的业务流程剩余活动序列预测方法,可有效解决上述问题。本发明具体采用的技术方案如下:
[0005] 一种基于轨迹重演的业务流程剩余活动序列预测方法,其包括以下步骤:
[0006] S1.输入原始日志文件 其中 由 条流程轨迹σ=组成,每条流程轨迹σ由|σ|个事件 e=(CaseID,Activity,Resource,StartTime,CompleteTime,attr1,attr2,…attrN)组成,其中CaseID代表事件所属的实例,Activitt代表事件执行的活动,Resource代表事件执行所需的资源,StartTime和CompleteTime分别代表该事件的开始时间和结束时间,attr1,attr2,…attrN代表该事件的其余N个属性,日志的活动集合被记为A;
[0007] S2.根据CompleteTime对 中的流程轨迹排序后生成训练数据;
[0008] S3.将训练数据中的流程轨迹拆分为前缀轨迹和对应的后缀轨迹,前缀轨迹 pt=为轨迹σ的前k个事件,而其对应的后缀轨迹st为轨迹σ的后 |σ|‑k个事件;
[0009] S4.使用过程挖掘算法从训练数据中挖掘Petri网PN;
[0010] S5.使用轨迹重演技术将训练数据中的每个前缀轨迹pt在S4挖掘得到的Petri 网上逐个进行轨迹重演得到Petri网中托肯的分布情况,记为执行上下文 BehavContext(pt);轨迹重演过程中,遍历pt的每个事件对应的变迁t,判断其是否满足使能条件即其输入集合的库所是否都持有托肯;对于不满足使能条件即没有持有托肯的库所pi采用以下方法使其满足托肯要求:首先判断是否有库所pj与其存在由隐藏变迁组成的最短路径,如果存在则触发该条路径上的隐藏变迁,即pj中的托肯数目减一,pi中的托肯数目加一,如果不存在,则将pi中的托肯数目额外加一;
[0011] S6.基于步骤S5得到的执行上下文BehavContext(pt),计算其与训练数据中其他所有前缀轨迹的执行相似度TBS(σ1,σ2),然后从中为其选取TBS(σ1,σ2) 最大的候选前缀轨迹集合Spt,其计算公式如下所示:
[0012]
[0013]
[0014] 其中,Eqij表示两条轨迹σ1,σ2在执行第i个活动之后在第j个库所的托肯数量的等价性,BehavContext(σ1)ij表示σ1在执行第i个活动之后在第j个库所的托肯数量,BehavContext(σ2)ij表示σ2在执行第i个活动之后在第j个库所的托肯数量, |σ1|和|σ2|分别代表轨迹σ1和σ2的事件数;
[0015] S7.对流程轨迹中每个属性的重要性即属性权重进行计算,具体步骤如下:
[0016] S71.首先对流程轨迹的属性进行筛选,删除无关属性后形成新属性集合[0017] S72.从训练数据中随机选择部分流程轨迹,并将它们的前缀轨迹集合记为 S′pt,对于S′pt中的每条前缀轨迹,根据以下属性序列相似度计算公式为其从剩余的训练数据中选取 条最相似的前缀轨迹记为SimPTi,其中属性序列相似度计算公式如下:
[0018]
[0019] 其中 和 为流程轨迹σ1和σ2中由属性 的属性值构成的有序序列,即属性序列; 表示经过归一化的 和 之间的欧式距
离, 表示 和 之间的Demerau‑
Levinstain距离;
[0020] S73.对于每个属性 统计S′pt中所有前缀轨迹的剩余活动序列与SimPTi的剩余活动序列之间的相似度CDi,从而得到相似度向量 根据该相似度向量计算得到最终的属性权重向量W,具体公式如下:
[0021]
[0022]
[0023] 其中,ActSeq1和ActSeq2代表两条活动序列,DL_Dist(ActSeq1,ActSeq2) 表示两条活动序列的Demerau‑Levinstain距离,l1和l2分别代表两条活动序列的长度;W是属性权重向量, 为新属性集合, 为新属性的数量,wi表示属性 的权重;
[0024] S8.针对待预测的当前流程轨迹,计算其与所述候选前缀轨迹集合Spt中的每条流程轨迹之间基于属性的轨迹相似度TS(σ1,σ2,W),即两者之间所有属性序列相似度的加权和,其计算公式如下:
[0025]
[0026] S9.经过S8的计算后,筛选出Spt中基于属性的轨迹相似度最大的一条流程轨迹,并将其剩余活动序列作为当前流程轨迹的预测剩余活动序列。
[0027] 作为优选,所述S4中使用过程挖掘算法从训练数据中挖掘Petri网PN的方法为Inductive Miner算法,其挖掘得到的Petri网表达式如下:
[0028] PN=(P,T,F,A,π,M)
[0029] 其中P={p0,p1,…,p|P|‑1}为Petri网中的库所集合,|P|表示Petri网中库所的数量,每个库所持有非负数量的托肯,库所pi持有的托肯数目被记为β(pi); T={t0,t1,…,t|T|‑1}为Petri网中的变迁集合,|T|表示Petri网中变迁的数量;F=(P×T)∪(T×P)是连接库所和变迁的有向弧集合;A为日志的活动集合;π是一个映射函数,用于将变迁ti∈T与A中的活动或者不可观察活动相关联,其中与不可观察活动相关联的变迁为隐藏变迁;M=[β(p0),β(p1),…,β(p|P|‑1)]是Pet ri网中托肯的分布情况,M的初始状态记为Minit。
[0030] 作为优选,S5具体包含以下步骤:
[0031] S51.对于前缀轨迹pt,首先将其执行上下文信息BehavContext(pt)初始化为一个空矩阵;然后将Petri网的初始托肯分布即Minit拼接至BehavContext(pt);
[0032] S52.按序遍历pt的每个事件,根据π映射函数获取对应的变迁t,并判断t是否满足使能条件,即其输入集合°t中的每个库所是否持有托肯,如果满足则执行步骤S521,否则,执行步骤S522;
[0033] S521.触发变迁t,即将变迁t的输入集合中°t每个库所的托肯数目减一,其输出集合t°中每个库所的托肯数目加一,并更新Petri网的托肯分布M,然后执行S5 3,其更新计算步骤如下:
[0034]
[0035] M=[β(p0),β(p1),...,β(p|P|‑1)]
[0036] S522.获取°t中未持有托肯的库所集合,记为PTokenMissing;获取除°t中库所之外,当前持有托肯的库所集合,记为PToken;对于PTokenMissing中的每个库所pi,判断是否存在库所pj∈PToken与其存在由隐藏变迁组成的最短路径,如果存在则触发该条路径上的隐藏变迁,即pj中的托肯数目减一,pi中的托肯数目加一,使得pi满足托肯要求;如果还存在未满足托肯要求的库所,手动将其托肯数目加一;最后执行步骤S521;
[0037] S53.将当前Petri网的托肯分布M拼接至BehavContext(pt);
[0038] 作为优选,所述的S71中被删除的无关属性为与流程执行相关但与流程分析无关的属性。
[0039] 作为优选,所述无关属性为用于编号的ID属性。
[0040] 作为优选,所述的S72中 表示经过归一化的 和之间的欧式距离,如果σ1和σ2的序列长度不一致,则使用后向零填充法使其统一。
[0041] 作为优选,所述的S72中从训练数据中随机选择10%流程轨迹,并将它们的前缀轨迹集合记为S′pt。
[0042] 相比于传统的业务流程剩余活动序列预测方法,本发明具有如下收益:1、融合了过程挖掘技术与轨迹重演技术,模拟轨迹在真实环境中的执行,从而提取并表征了其执行上下文信息,为剩余活动序列预测提供了基础;2、对日志中的每个属性的重要性进行了衡量,即计算属性权重矩阵,为剩余活动序列的进一步匹配提供了基础;3、融合上述两类信息,从历史执行轨迹中选取与在线流程实例执行一致且最可能具有相似未来数据信息的前缀轨迹,并将其剩余活动序列作为在线实例的未来执行活动序列。此外,匹配得到的该前缀轨迹的未来资源执行情况、执行结果以及时间等信息也可以为在线实例提供有效参考。

实施方案

[0045] 为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行详细说明。
[0046] 相反,本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本发明有更好的了解,在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。
[0047] 如图1所示,本发明的一种基于轨迹重演的业务流程剩余活动序列预测方法,包括以下步骤:
[0048] S1.输入原始日志文件 其中 由 条流程轨迹σ=组成,每条流程轨迹σ由|σ|个事件 e=(CaseID,Activity,Resource,StartTime,CompleteTime,attr1,attr2,…attrN)组成,其中CaseID代表事件所属的实例,Activity代表事件执行的活动,Resource代表事件执行所需的资源,StartTime和CompleteTime分别代表该事件的开始时间和结束时间,attr1,attr2,…attrN代表该事件的其余N个属性,日志的活动集合被记为A。
[0049] S2.根据CompleteTime对 中的流程轨迹排序后生成训练数据。
[0050] S3.将训练数据中的流程轨迹拆分为前缀轨迹和对应的后缀轨迹,前缀轨迹 pt=为轨迹σ的前k个事件,而其对应的后缀轨迹st为轨迹σ的后 |σ|‑k个事件。
[0051] S4.使用过程挖掘算法从训练数据中挖掘Petri网PN。本实施例中,使用的过程挖掘算法为Inductive Miner算法,其挖掘得到的Petri网表达式如下:
[0052] PN=(P,T,F,A,π,M)
[0053] 其中P={p0,p1,…,p|P|‑1}为Petri网中的库所集合,|P|表示Petri网中库所的数量,每个库所持有非负数量的托肯,库所pi持有的托肯数目被记为β(pi); T={t0,t1,…,t|T|‑1}为Petri网中的变迁集合,|T|表示Petri网中变迁的数量; F=(P×T)∪(T×P)是连接库所和变迁的有向弧集合;A为日志的活动集合;π是一个映射函数,用于将变迁ti∈T与A中的活动或者不可观察活动相关联,其中与不可观察活动相关联的变迁为隐藏变迁;M=[β(p0),β(p1),…,β(p|P|‑1)]是Pet ri网中托肯的分布情况,也被称为Petri网的标识,M的初始状态记为Minit。
[0054] S5.使用轨迹重演技术将训练数据中的每个前缀轨迹pt在S4挖掘得到的Petri 网上逐个进行轨迹重演得到Petri网中托肯的分布情况,记为执行上下文 BehavContext(pt);轨迹重演过程中,遍历pt的每个事件对应的变迁t,判断其是否满足使能条件即其输入集合的库所是否都持有托肯;对于不满足使能条件即没有持有托肯的库所pi采用以下方法使其满足托肯要求:首先判断是否有库所pj与其存在由隐藏变迁组成的最短路径,如果存在则触发该条路径上的隐藏变迁,即pj中的托肯数目减一,pi中的托肯数目加一,如果不存在,则将pi中的托肯数目额外加一。
[0055] 本实施例中,该S5步骤具体包含以下步骤:
[0056] S51.对于前缀轨迹pt,首先将其执行上下文信息BehavContext(pt)初始化为一个空矩阵;然后将Petri网的初始托肯分布即Minit拼接至BehavContext(pt);
[0057] S52.按序遍历pt的每个事件,根据π映射函数获取对应的变迁t,并判断t是否满足使能条件,即其输入集合°t中的每个库所是否持有托肯,如果满足则执行步骤S521,否则,执行步骤S522;
[0058] S521.触发变迁t,即将变迁t的输入集合中°t每个库所的托肯数目减一,其输出集合t°中每个库所的托肯数目加一,并更新Petri网的托肯分布M,然后执行S5 3,其更新计算步骤如下:
[0059]
[0060] M=[β(p0),β(p1),...,β(p|P|‑1)]
[0061] S522.获取°t中未持有托肯的库所集合,记为PTokenMissing;获取除°t中库所之外,当前持有托肯的库所集合,记为PToken;对于PTokenMissing中的每个库所pi,判断是否存在库所pj∈PToken与其存在由隐藏变迁组成的最短路径,如果存在则触发该条路径上的隐藏变迁,即pj中的托肯数目减一,pi中的托肯数目加一,使得pi满足托肯要求;如果还存在未满足托肯要求的库所,手动将其托肯数目加一;最后执行步骤S521;
[0062] S53.将当前Petri网的托肯分布M拼接至BehavContext(pt)。
[0063] 图2展示了一个轨迹重演的例子,即将活动序列为的轨迹σ在Petr i网中重演的示例。如图所示,在起始状态,仅库所p0存在托肯,因此当前Petri 网的标识为pn.Minit=[1,0,0,0,0,0]。当进行重演时,σ的第一个活动A对应的变迁为t0,t0目前为使能状态。因此触发t0,库所p0的托肯被消耗而库所p1中会产生一个托肯,从而得到新标识pn.M=[0,1,0,0,0,0]。之后执行活动C,C对应的变迁为处于使能状态的t2,执行之后p1中的托肯被消耗,而p3中产生一个托肯,获得新标识pn.M=[0,0,0,1,0,0]。下一个执行活动为F,其对应的变迁为t5,而此时t5并未达到使能状态,因此使用隐藏变迁使其强制满足使能条件。t5的输入集合为库所p4,目前持有托肯的库所为p3。通过对Petri网的分析可以观察到p3和p4之间可以通过隐藏变迁th2相连。因此,触发th2使p3的托肯转移至p4,此时的标识 pn.M=[0,
0,0,0,1,0]。最后,触发变迁t5以完成整条轨迹的重演,获得最终的标识pn.M=[0,0,0,0,
0,1],即为该轨迹重演后得到的执行上下文。
[0064] S6.基于步骤S5得到的执行上下文BehavContext(pt),计算其与训练数据中其他所有前缀轨迹的执行相似度TBS(σ1,σ2),然后从中为其选取TBS(σ1,σ2) 最大的候选前缀轨迹集合Spt,其计算公式如下所示:
[0065]
[0066]
[0067] 其中,Eqij表示两条轨迹σ1,σ2在执行第i个活动之后在第j个库所的托肯数量的等价性,BehavContext(σ1)ij表示σ1在执行第i个活动之后在第j个库所的托肯数量,BehavContext(σ2)ij表示σ2在执行第i个活动之后在第j个库所的托肯数量, |σ1|和|σ2|分别代表轨迹σ1和σ2的事件数。
[0068] S7.对流程轨迹中每个属性的重要性即属性权重进行计算,具体步骤如下:
[0069] S71.首先对流程轨迹的属性进行筛选,删除无关属性后形成新属性集合D;被删除的无关属性一般为与流程执行相关但与流程分析无关的属性。本实施例中,被删除的无关属性为用于编号的ID属性,例如如案例ID属性和事件ID属性。
[0070] S72.从训练数据中随机选择10%流程轨迹,并将它们的前缀轨迹集合记为 S′pt,对于S′pt中的每条前缀轨迹,根据以下属性序列相似度计算公式为其从剩余90%的训练数据中选取 条最相似的前缀轨迹记为SimPTi,其中属性序列相似度计算公式如下:
[0071]
[0072] 其中 和 为流程轨迹σ1和σ2中由属性 的属性值构成的有序序列,即属性序列; 表示经过归一化的 和 之间的欧式距
离, 表示 和 之间的Demerau‑Levinstain
距离。
[0073] 其中需注意的是,对于欧式距离 的计算,如果σ1和σ2的序列长度不一致,则使用后向零填充法使其统一。
[0074] S73.对于每个属性 统计S′pt中所有前缀轨迹的剩余活动序列与SimPTi的剩余活动序列之间的相似度CDi,从而得到相似度向量 根据该相似度向量计算得到最终的属性权重向量W,具体公式如下:
[0075]
[0076]
[0077] 其中,ActSeq1和ActSeq2代表两条活动序列,DL_Dist(ActSeq1,ActSeq2) 表示两条活动序列的Demerau‑Levinstain距离,l1和l2分别代表两条活动序列的长度;W是属性权重向量, 为新属性集合, 为新属性的数量,wi表示属性 的权重。
[0078] S8.针对待预测的当前流程轨迹,计算其与所述候选前缀轨迹集合Spt中的每条流程轨迹之间基于属性的轨迹相似度TS(σ1,σ2,W),即两者之间所有属性序列相似度的加权和,其计算公式如下:
[0079]
[0080] S9.经过S8的计算后,筛选出Spt中基于属性的轨迹相似度最大的一条流程轨迹,并将其剩余活动序列作为当前流程轨迹的预测剩余活动序列。
[0081] 下面基于上述S1~S9方法流程,通过实施例进一步展示其技术效果。
[0082] 实施例
[0083] 本实施例步骤与具体实施方式前述步骤相同,在此不再进行赘述。下面就部分实施过程和实施结果进行展示:
[0084] 本实施例选用四个来源于4TU Centre  for Research Data(https://data.4tu.nl/) 的真实数据集进行实验。数据集的介绍如下,其特征如表1所示。
[0085] Helpdesk:此数据集包含来自意大利软件公司服务台的自2010年1月至 2014年1月的票务管理流程执行信息。日志中的所有案例均始于在票务管理系统中插入新票证,结束于关闭票证。
[0086] Sepsis:Sepsis数据集来源于荷兰某医院,记录了由ERP系统记录的医院败血症患者的诊断流程,包括病人注册挂号开始直至出院的所有事件。
[0087] BPIC2013 Incidents:BPIC2013数据集是来自Volvo IT Belgium的事件日志,包含来自名为VINST的事件和问题管理系统的事件。在数据集中主要分为两种类型的实例,即处理事件的实例和处理问题的实例。本章对数据集进行过滤得到所有处理事件的案例,即BPIC2013 Incidents,并在这些案例上进行实验。
[0088] BPIC2012O/BPIC2012W/BPIC2012W去重:BPIC2012数据集是从荷兰金融学院获取的事件日志,代表全球融资组织内个人贷款或者透支的申请流程。该流程可以分为与申请相关的三个子流程,即BPIC2012A、BPIC2012O和 BPIC2012W。本章使用BPIC2012O、BPIC2012W进行实验。特别地,由于 BPIC2012W数据集中包含大量的自循环,即单个事件活动会被连续执行数次,这些自循环可能会影响最终的预测结果。将BPIC2012W数据集进行了处理,即对于一些重复执行的事件,仅保留第一个事件而删除冗余的事件,经过处理之后的数据集被称为BPIC2012W去重数据集。本实施例也同样采用 BPIC2012W去重数据集进行了实验。
[0089] 表1数据集特征表
[0090]
[0091] 为验证本发明技术方案的技术效果,本实施例选取Demerau编辑距离相似度对预测结果进行衡量,其主要用于衡量两条序列之间转换所需的单字符操作次数(插入、删除、替换和交换),DL距离相似度计算公式如下:
[0092]
[0093] 其中ActSeq1和ActSeq2代表两条活动序列,DL_Dist(ActSeq1,ActSeq2)表示它们的DL距离,l1和l2分别代表它们的长度。
[0094] 利用本发明方法在六个数据集上进行实验并计算每个数据集的平均DL距离相似度的结果如表2所示。对每个数据集过滤特定长度前缀轨迹之后的平均 DL距离相似度进行了统计。即对于Sepsis、BPIC2013 Incidents、BPIC2012O 和BPIC2012W数据集,分别计算过滤长度小于2、5和10的前缀轨迹之后的平均DL距离相似度。由于Helpdesk全部和BPIC2012W去重数据集的平均轨迹长度小于其余四者,因此对其计算过滤长度小于2、4和6之后的平均DL距离相似度。由表可知,不同数据集间相似度差异较大。在所有的情况下, Helpdesk为表现最佳的数据集,BPIC2012W去重次之,而BPIC2012W的表现则最差。根据表格中的数据,还可以发现对于大多数数据集而言,滤除一些短前缀轨迹会使得整体的相似度更高。
[0095] 表2实验结果表
[0096]
[0097] 以上所述的实施例只是本发明的一种较佳的方案,然其并非用以限制本发明。有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。

附图说明

[0043] 图1为本发明基于轨迹重演的业务流程剩余活动序列预测方法的步骤图;
[0044] 图2为轨迹重演的一个例子。
版权所有:盲专网 ©2023 zlpt.xyz  蜀ICP备2023003576号