首页 > 专利 > 杭州电子科技大学 > 基于平均影响值数据变换的特征加权K近邻故障诊断方法专利详情

基于平均影响值数据变换的特征加权K近邻故障诊断方法 0 0

有效专利查看PDF

申请进展

基本信息

申请人信息

代理人信息

摘要

法律状态

权利要求

说明书

专利申请流程有哪些步骤？

申请

申请号：指国家知识产权局受理一件专利申请时给予该专利申请的一个标示号码。唯一性原则。

申请日：提出专利申请之日。

2017-11-01

申请公布

申请公布指发明专利申请经初步审查合格后，自申请日（或优先权日）起18个月期满时的公布或根据申请人的请求提前进行的公布。

申请公布号：专利申请过程中，在尚未取得专利授权之前，国家专利局《专利公报》公开专利时的编号。

申请公布日：申请公开的日期，即在专利公报上予以公开的日期。

2018-04-17

授权

授权指对发明专利申请经实质审查没有发现驳回理由，授予发明专利权；或对实用新型或外观设计专利申请经初步审查没有发现驳回理由，授予实用新型专利权或外观设计专利权。

2020-11-06

预估到期

发明专利权的期限为二十年，实用新型专利权期限为十年，外观设计专利权期限为十五年，均自申请日起计算。专利届满后法律终止保护。

2037-11-01

基本信息

有效性	有效专利	专利类型	发明专利
申请号	CN201711053636.2	申请日	2017-11-01
公开/公告号	CN107832789B	公开/公告日	2020-11-06
授权日	2020-11-06	预估到期日	2037-11-01
申请年	2017年	公开/公告年	2020年
缴费截止日
分类号	G06K9/62 、G06N3/08 、G06N3/04 、G06F30/27	主分类号	G06K9/62
是否联合申请	独立申请	文献类型号	B
独权数量	1	从权数量	0
权利要求数量	1	非专利引证数量	0
引用专利数量	4	被引证专利数量	0
非专利引证
引用专利	CN105960021A、CN103150594A、CN107273845A、CN103984856A	被引证专利
专利权维持	5	专利申请国编码	CN
专利事件		事务标签	公开、实质审查、授权

申请人信息

申请人	杭州电子科技大学	第一申请人	杭州电子科技大学
专利权人	杭州电子科技大学	当前专利权人	杭州电子科技大学
发明人	文成林、姬思雨	第一发明人	文成林
地址	浙江省杭州市下沙高教园区2号大街	邮编	310018
申请人数量	1	发明人数量	2
申请人所在省	浙江省	申请人所在市	浙江省杭州市

代理人信息

代理机构

专利代理机构是经省专利管理局审核，国家知识产权局批准设立，可以接受委托人的委托，在委托权限范围内以委托人的名义办理专利申请或其他专利事务的服务机构。

杭州君度专利代理事务所

代理人

专利代理师是代理他人进行专利申请和办理其他专利事务，取得一定资格的人。

朱月芬

摘要

本发明公开了一种基于平均影响值数据变换的特征加权K近邻故障诊断方法。本发明中MIV的计算过程是通过对系统的输入值做等比例增加和减小，得到增加和减少后的数据分别作为系统输入，求解其对应的系统输出值。求取各个输入变量做等比例增加对应的系统输出值减去各个输入变量做等比例减小对应的系统输出值得到系统输入的各个参变量对系统输出的影响程度值及MIV值；采用多次计算求平均值的方式确定各个特征变量最终的MIV值。通过对MIV值一定的等比例放缩，将其用作K近邻方法输入数据的特征权值来进行故障诊断。通过UCI标准数据集的仿真测试，验证了本方法的有效性。

摘要附图

法律状态

序号	法律状态公告日	法律状态	法律状态信息
1	2020-11-06	授权
2	2018-04-17	实质审查的生效	IPC(主分类): G06K 9/62 专利申请号: 201711053636.2 申请日: 2017.11.01
3	2018-03-23	公开

权利要求

权利要求书是申请文件最核心的部分，是申请人向国家申请保护他的发明创造及划定保护范围的文件。

1.基于MIV数据变换的特征加权电网信息故障诊断方法，其特征在于该方法具体包括以下各步骤：
步骤(1)依据智能电网信息物理系统信号的前向传播和误差的反向传播来构建BP神经网络：
步骤(1-1)网络的初始化：
假设输入层的节点个数为n，隐含层的节点个数为l，输出层的节点个数为m；输入层到隐含层的权重ωij，隐含层到输出层的权重为ωjk'，输入层到隐含层的偏置为aj，隐含层到输出层的偏置为bk'；以上权重及偏置参数的初始化是随机的，在接下来的多次迭代中进行一次次的更新修正；学习速率为η，取[0.01,0.1]之间，激励函数g(x)的输出结果是[-1,1]或者[0,1]，其中激励函数g(x)将其取作Sigmoid函数；形式为：
步骤(1-2)正向传递：有了输入和初始参数以及激励函数，一个节点的输出表示如下，对应输入乘以连接隐含层的对应权值加上偏置，最后经过激励函数得到隐含层节点的一个输出，假设系统输入为X＝[x1,x2,....xn]，计算表达式如下；
隐含层节点的输入：
隐含层节点的输出：
输出节点的输出：
其中， i＝1,2,…,n；j＝1,2,…,l；k'＝1,2,…,m；
步骤(1-3)反向传递：误差计算，定义损失函数如下：
以上，Y为期望输出，O为实际输出，权值更新即是隐含层和输出层权值更新；其表达式如下
隐含层到输出层的权值更新计算：
ωjk'＝ωjk'+ηHjek  ' (8)
输出层到隐含层的权值更新计算：
步骤(1-4)判断算法迭代是否结束，一种是迭代次数达到上限，另一种是判断相邻的两次误差之间的差别是否小于指定的值；
步骤(2)将待输入的智能电网信息物理系统样本数据通过公式(13)进行标准化处理步骤(3)求取数据集的各输入变量对输出的MIV，MIV是用于确定输入神经元对输出神经元影响大小的一个指标，其符号代表相关的方向，绝对值大小代表影响的相对重要性；具体计算过程如下：
IVi＝Oi,+-Oi,-  (17)
综上，取0.1≤δ≤0.3；表示所有样本的第i个特征分量分别增减δ后的矩阵；
表示第k'个样本数据的第i个特征分量分别增减δ后的向量；xi(k')表示第k'样本数据的第i个特征分量的值；网络训练终止后，将训练样本集和分别作为仿真样本利用已建成的网络进行仿真，得到两个仿真结果Oi,+和Oi,-，IVi即为样本数据中第i个变量的平均影响值；同理可求得样本数据中其它各变量的平均影响值；
IV＝[IV1,IV2,…,IVn]T  (18)
IV中的各个参数即为样本数据中各个特征变量对输出的影响值；最后，多次仿真取m组IV值，求取其中对应特征变量IV值的平均值，记作MIV；
MIV绝对值的大小即为各自变量对网络输出影响的相对重要性，从而实现样本数据特征的加权；
步骤(4)K近邻算法设计
a.训练样本中找k个近邻
计算测试样本中每一个样本x(k')，k'＝1,2,…,N，与训练样本之间的欧氏距离，并找到距离它最近的k'个样本；
di,j＝||x(i)-x(j)||2,i≠j  (20)
上式中，x(i)和x(j)分别表示两个样本，i,j＝1,2,…,N；
b.统计计算k个近邻中属于各类的概率
以上k表示k个近邻，kα表示k个近邻中属于α类的样本个数，α＝1，2，…，c，其中c为样本中类别个数；
c.故障诊断
对于一个新的样本x(k)，根据式(20)计算其k个近邻；根据式(21)统计计算p(α)；将p(α)从大到小排序，pmax(α)所属的类就是测试样本x(k)所属的故障类。

说明书

技术领域

[0001] 本发明属于故障诊断领域，具体涉及一种基于平均影响值数据变换的特征加权K近邻故障诊断方法。

背景技术

[0002] 在现在工业生产和社会服务中，各类自动化设备越来越复杂，使得精细建模较为困难。但近年来传感器技术的发展，我们可以获得大量的监测数据。常存在着大量的高度相关的状态变量，而这些变量的瞬时采样值都反映着设备运行是否正常、系统输出是否达标等关键信息。因此基于数据驱动的故障诊断方法越来越受到人们的重视。然而基于数据驱动的方法必然要面临各类变量量纲差异的问题，现有基于数据驱动的故障诊断方法有很多，像主元分析、小波变换、支持向量机等大多是在原有量纲的基础上进行故障诊断。即使进行数据标准化，同样要面临标准化之后变量之间的多样性降低，几何角度呈均匀分布等问题。这给后续数据压缩和特征提取带来了一定的难度。尽管后来提出了一些基于像信息增益、信息熵、Gini不纯度等方法求取特征权值的方法，但因其计算的复杂性，使得其实际应用较为困难。为解决上述问题，从业人员进行了大量的探索，也提出了一些方法。其中一种称为相对主元分析(Relative Principle Component Analysis，RPCA)的方法，它利用系统的先验信息来引入每个变量的权重，以消除由于标准化后数据“均匀”分布造成的特征提取困难的问题，但是该方法的不足之处在于它需要来自系统的大量先验信息这在实际工程应用中难以获得。MIV方法能够反映处神经网络的权重矩阵的变化情况，被认为评价神经网络输入参数相关性的最佳指标，MIV可以测定出神经网络输入神经元对输出神经元的影响权重。MIV符号代表相关的方向，绝对值大小代表影响的相对权重。

发明内容

[0003] 本发明针对现有技术的不足，设计一种基于平均影响值数据变换的特征加权K近邻故障诊断方法。本方法通过运用平均影响值(MIV)算法计算经过标准化处理后各个特征分量对系统输出的影响程度，根据其数值上的比例关系为各个特征变量赋权值。然后，采用UI-balance标准数据集，根据创建的机器学习故障诊断模型进行模型测试，并将其应用到智能电网信息物理系统的攻击检测中。

[0004] 本发明包括以下各步骤：

[0005] 步骤(1)依据信号的前向传播和误差的反向传播来构建BP神经网络：

[0006] 步骤(1-1)网络的初始化：

[0007] 假设输入层的节点个数为n，隐含层的节点个数为l，输出层的节点个数为m；各层节点的个数无统一的标准，一般是根据输入输出序列在经过多次实验来确定。输入层到隐含层的权重ωij，隐含层到输出层的权重为ωjk'，输入层到隐含层的偏置为aj，隐含层到输出层的偏置为bk'。以上权重及偏置参数的初始化是随机的，在接下来的多次迭代中进行一次次的更新修正。学习速率为η，取[0.01,0.1]之间，激励函数g(x)的输出结果是[-1,1]或者[0,1]，其中激励函数g(x)有诸多形式，本方法将其取作Sigmoid函数。形式为：

[0008]

[0009] 步骤(1-2)正向传递：有了输入和初始参数以及激活函数，一个节点的输出表示如下，对应输入乘以连接隐含层的对应权值加上阈值，最后经过激活函数得到隐含层节点的一个输出，假设系统输入为X＝[x1,x2,....xn]，计算表达式如下。

[0010] 隐含层节点的输入：

[0011]

[0012] 隐含层节点的输出：

[0013]

[0014] 输出节点的输出：

[0015]

[0016] 其中，；i＝1,2,…,n；j＝1,2,…,l；k'＝1,2,…,m；

[0017] 步骤(1-3)反向传递：误差计算，我们定义损失函数(loss function)如下：

[0018]

[0019] 以上，Y为期望输出，O为实际输出，权值更新即是隐含层和输出层权值更新。其表达式如下

[0020]

[0021] 隐含层到输出层的权值更新计算：

[0022]

[0023] ωjk'＝ωjk'+ηHjek' (8)

[0024] 输出层到隐含层的权值更新计算：

[0025]

[0026]

[0027]

[0028]

[0029] 步骤(1-4)判断算法迭代是否结束，一种是迭代次数达到上限，另一种是判断相邻的两次误差之间的差别是否小于指定的值。

[0030] 步骤(2)求取数据集的各输入变量对输出的MIV，MIV是用于确定输入神经元对输出神经元影响大小的一个指标，其符号代表相关的方向，绝对值大小代表影响的相对重要性。具体计算过程如下：

[0031]

[0032]

[0033]

[0034] IVi＝Oi,+-Oi,- (16)

[0035] 综上，取0.1≤δ≤0.3；表示所有样本的第i个特征分量分别增减δ后的矩阵；表示第k'个样本数据的第i个特征分量分别增减δ后的向量；xi(k')表示第k'样本数据的第i个特征分量的值。网络训练终止后，将训练样本集和分别作为仿真样本利用已建成的网络进行仿真，得到两个仿真结果Oi,+和Oi,-，IVi即为样本数据中第i个变量的平均影响值。同理可求得样本数据中其它各变量的平均影响值。

[0036] IV＝[IV1,IV2,…,IVn]T (17)

[0037] IV(Impact Value)中的各个参数即为样本数据中各个特征变量对输出的影响值。最后，多次仿真取m组IV值，求取其中对应特征变量IV值的平均值，记作MIV。

[0038]

[0039] MIV绝对值的大小即为各自变量对网络输出影响的相对重要性，从而实现样本数据特征的加权。

[0040] 步骤(3)K近邻算法设计

[0041] a.训练样本中找k个近邻

[0042] 计算测试样本中每一个样本x(k')，k'＝1,2,…,N，与训练样本之间的欧氏距离，并找到距离它最近的k'个样本。

[0043] di,j＝||x(i)-x(j)||2,i≠j (19)

[0044] 上式中，x(i)和x(j)分别表示两个样本，i,j＝1,2,…,N。

[0045] b.统计计算k个近邻中属于各类的概率

[0046]

[0047] 以上k表示k个近邻，kα表示k个近邻中属于α类的样本个数，α＝1，2，…，c，其中c为样本中类别个数。

[0048] c.故障诊断

[0049] 对于一个新的样本x(k)，根据式(19)计算其k个近邻；根据式(20)统计计算p(α)；将p(α)从大到小排序，pmax(α)所属的类就是测试样本x(k)所属的故障类。

[0050] 步骤(4)载入UI-balance数据集进行故障诊断仿真测试

[0051] 为验证本文提出算法的有效性，我们使用UCI标准数据集中balance数据集进行对比仿真实验。其中balance数据集中有625组数据，每组数据包含4个特征(4×625)，共3类，1类数据49组，2类数据288组，3类数据288组。标准化处理后，由基于MIV的BP神经网络算法进行数据特征加权。然后我们采用交叉验证的方法选取500组(80％)数据作为训练样本，用于分类器构建，剩下的125组(20％)数据作为测试样本，用于测试计算本文提出的特征加权算法对分类器性能的影响。

[0052] 样本数据特征权值(MIV)的求取过程如下：

[0053] a.原始样本数据的标准化，按照如下方式标准化

[0054]

[0055] b.将标准化后的数据运用基于MIV的BP神经网络进行特征变量权值求取，对神经网络的部分参数进行设置，本文将神经网络的最大迭代次数设置成2000，期望目标误差最小值设为1.0*e-5。

[0056] 针对同一标准UCI-balance数据集，分别采用普通的标准化处理和MIV-BP神经网络加权处理后，用机器学习算法中的KNN算法进行分类。

[0057] 本发明的有益效果：利用基于平均影响值数据变换的特征加权方法，可使K-近邻故障诊断方法的诊断准确率最高提高8％；由于BP神经网络中的部分参数是随机初始化，故造成每次计算得到的各变量的IV值不同，故采用多次计算求平均值的方式确定各个特征变量最终的MIV值，通过MIV加权后的分类准确率也均高于直接数据标准化的分类准确率。最终将其应用到智能的电网信息物理系统的攻击检测中，相较于传统检测手段，本发明提出的算法有效提高了攻击的检测精度。

实施方案

[0063] 以下结合附图对本发明作进一步说明。

[0064] 如图1、图2所示，本发明提出基于平均影响值数据变换的特征加权K-近邻故障诊断方法，包括以下各步骤：

[0065] 1、依据信号的前向传播和误差的反向传播来构建BP神经网络：

[0066] 步骤(1-1)网络的初始化：

[0067] 假设输入层的节点个数为n，隐含层的节点个数为l，输出层的节点个数为m；各层节点的个数无统一的标准，一般是根据输入输出序列在经过多次实验来确定。输入层到隐含层的权重ωij，隐含层到输出层的权重为ωjk'，输入层到隐含层的偏置为aj，隐含层到输出层的偏置为bk'。以上权重及偏置参数的初始化是随机的，在接下来的多次迭代中进行一次次的更新修正。学习速率为η，取[0.01,0.1]之间，激励函数g(x)的输出结果是[-1,1]或者[0,1]，其中激励函数g(x)有诸多形式，本方法将其取作Sigmoid函数。形式为：

[0068]

[0069] 步骤(1-2)正向传递：有了输入和初始参数以及激活函数，一个节点的输出表示如下，对应输入乘以连接隐含层的对应权值加上阈值，最后经过激活函数得到隐含层节点的一个输出，假设系统输入为X＝[x1,x2,....xn]，计算表达式如下。

[0070] 隐含层节点的输入：

[0071]

[0072] 隐含层节点的输出：

[0073]

[0074] 输出节点的输出：

[0075]

[0076] 其中，；i＝1,2,…,n；j＝1,2,…,l；k'＝1,2,…,m。

[0077] 步骤(1-3)反向传递：误差计算，我们定义损失函数(loss function)如下：

[0078]

[0079] 以上，Y为期望输出，O为实际输出，权值更新即是隐含层和输出层权值更新。其表达式如下

[0080]

[0081] 隐含层到输出层的权值更新计算：

[0082]

[0083] ωjk'＝ωjk'+ηHjek ' (8)

[0084] 输出层到隐含层的权值更新计算：

[0085]

[0086]

[0087]

[0088]

[0089] 测试数据的拟合程度见图5。

[0090] 步骤(1-4)判断算法迭代是否结束，一种是迭代次数达到上限，另一种是判断相邻的两次误差之间的差别是否下月指定的值。

[0091] 2、求取数据集的各输入变量对输出的MIV，MIV是用于确定输入神经元对输出神经元影响大小的一个指标，其符号代表相关的方向，绝对值大小代表影响的相对重要性。具体计算过程如下：

[0092]

[0093]

[0094]

[0095] IVi＝Oi,+-Oi,- (16)

[0096] 综上，取0.1≤δ≤0.3，表示所有样本的第i个特征分量分别增减δ后的矩阵；表示第k'个样本数据的第i个特征分量分别增减δ后的向量；xi(k')表示第k'样本数据的第i个特征分量的值。网络训练终止后，将训练样本集和分别作为仿真样本利用已建成的网络进行仿真，得到两个仿真结果Oi,+和Oi,-，IVi即为样本数据中第i个变量的平均影响值。同理可求得样本数据中其他各变量的平均影响值。

[0097] IV＝[IV1,IV2,…,IVn]T (17)

[0098] IV(Impact Value)中的各个参数即为样本数据中各个特征变量对输出的影响值。最后，多次仿真取m组IV值，求取其中对应特征变量IV值的平均值，记作MIV。

[0099]

[0100] MIV绝对值的大小即为各自变量对网络输出影响的相对重要性，从而实现样本数据特征的加权。

[0101] 如下表1是通过以上算法求得的输入数据的各特征变量对输出的影响值，由于BP神经网络中的部分参数是随机初始化，故造成每次计算得到的各变量的IV值不同，故采用多次计算求平均值的方式确定各个特征变量最终的MIV值。

[0102] 表1输入数据的各特征变量对输出的影响值

[0103]

[0104]

[0105] 图3为BP神经网络的测试数据在网络中经过2000次的迭代，最终的误差最小为0.14468。图4表示BP神经网络的迭代方向沿着梯度下降的方向进行，并在第2000次迭代后梯度达到0.011897。图5表示BP神经网络经过2000次迭代后的回归曲线，Output＝0.63*Target+0.89。

[0106] 3、K近邻算法设计

[0107] a.训练样本中找k个近邻

[0108] 计算测试样本中每一个样本x(k')，k'＝1,2,…,N，与训练样本之间的欧氏距离，并找到距离它最近的k'个样本。

[0109] di,j＝||x(i)-x(j)||2,i≠j (19)

[0110] 上式中，x(i)和x(j)分别表示两个样本，i,j＝1,2,…,N。

[0111] b.统计计算k个近邻中属于各类的概率

[0112]

[0113] 以上k表示k个近邻，kα表示k个近邻中属于α类的样本个数，α＝1，2，…，c，其中c为样本中类别个数。

[0114] c.故障诊断

[0115] 对于一个新的样本x(k)，根据式(19)计算其k个近邻；根据式(20)统计计算p(α)；将p(α)从大到小排序，pmax(α)所属的类就是测试样本x(k)所属的故障类。

[0116] 4、载入UI-balance数据集进行故障诊断仿真测试

[0117] 为验证本文提出算法的有效性，我们使用UCI标准数据集中balance数据集进行对比仿真实验。其中balance数据集中有625组数据，每组数据包含4个特征(4×625)，共3类，1类数据49组，2类数据288组，3类数据288组。标准化处理后，由基于MIV的BP神经网络算法进行数据特征加权。然后我们采用交叉验证的方法选取500组(80％)数据作为训练样本，用于分类器构建，剩下的125组(20％)数据作为测试样本，用于测试计算本文提出的特征加权算法对分类器性能的影响。

[0118] 样本数据特征权值(MIV)的求取过程如下：

[0119] 1)原始样本数据的标准化，按照如下方式标准化

[0120]

[0121] 2)将标准化后的数据运用基于MIV的BP神经网络进行特征变量权值求取，对神经网络的部分参数进行设置，本文将神经网络的最大迭代次数设置成2000，期望目标误差最小值设为1.0*e-5。

[0122] 针对同一标准UCI-balance数据集，分别采用普通的标准化处理和MIV-BP神经网络加权处理后，用机器学习算法中的KNN算法进行分类。表2为本算法的仿真实验结果。

[0123] 表2仿真实验结果

[0124]

附图说明

[0058] 图1是本方法的算法实现流程图。

[0059] 图2是BP神经网络架构图。

[0060] 图3是BP神经网络迭代误差曲线。

[0061] 图4是BP神经网络梯度下降曲线。

[0062] 图5是BP神经网络测试数据拟合图。

1一种基于加权近邻决策的故障分类诊断方法 2基于平均影响值数据变换的特征加权K近邻故障诊断方法