[0060] 为了使本领域技术人员更好地理解本发明的技术方案,下面将结合具体的实施方式,对本发明进行详细地介绍说明。
[0061] 本发明所述凸规划聚类水污染溯源方法,包括如下步骤:
[0062] S1,基于Siamese网络的邻近点相似度描述样本;
[0063] S2,利用所述邻近节点相似度抽取水污染溯源特征;
[0064] S3,将所述水污染溯源特征结合监测网络节点的地理分布信息,构造图模型;将水污染溯源等价于所述图模型的全局优化分割,将所述图模型的全局优化分割转换为最小传导率;
[0065] S4,最大化特征基内接椭球体的凸规划,求解所述最小传导率。
[0066] Siamese网络是一种相似性度量方法,即便是每个类别只有少数几个样本,但不同河段和区域的观测样本对都可以用于Siamese网络相似性度量的训练,这样Siamese网络获取的观测样本对相似度数值就可以为水污染预警提供一种可行途径。
[0067] 如图1所示为Siamese网络邻近监测节点的全光谱指纹图谱,Siamese网络的基本思想是通过网络将输入映射到目标空间,在目标空间使用简单的距离(欧式距离等)进行对比相似度。在训练阶段最小化来自相同类别的样本对损失函数值,最大化来自不同类别的样本对损失函数值。由于利用抽象的相似性度量代替具体的样本正常(不存在水污染)与异常(存在水污染),既有效地规避的类别数多或类别样本数量不足的问题,又能够充分利用全光谱指纹图谱的丰富信息。
[0068] 如图2所示Siamese网络结构图,左右两个网络是完全相同的网络结构,它们共享相同的网络权值。这个网络主要的优点是淡化了标签,使得网络具有很好的扩展性,可以对那些没有训练过的类别进行分类,这点是优于很多算法的。而且这个算法对一些小数据量的数据集也适用,变相的增加了整个数据集的大小,使得数据量相对较小的数据集也能用深度网络训练出不错的效果。
[0069] 本实施例中,步骤S1具体为:
[0070] 定义一组样本对(x1,x2),作为Siamese网络的输入值,样本对标签为y;当样本对属于相同类别时,样本对标签y=1;反之,样本对标签y=0;
[0071] 针对两个输入x1和x2,网络低维空间的相似度输出结果分别为GW(x1)和GW(x2),Siamese网络的相似度损失函数定义为:
[0072] L(W;x1,x2,y)=yL1(W;x1,x2)+(1‑y)L2(W;x1,x2) (1)
[0073] 式中L1(W;x1,x2)=||GW(x1)‑GW(x2)||2,L2(W;x1,x2)=max(c‑||GW(x1)‑GW(x2)||2,0);W为Siamese网络参数,常数c定义为相似度的最大值,通常取值为1。
[0074] 水质检测传感器获取的数据,由于各种非线性因素的影响区分度并不理想,无法直接用于作为水污染溯源特征。为了获取溯源特征,希望构造一种特征变换y=Fθ(x),能够将输入样本x映射为溯源特征y。溯源特征同时需符合前面的相似度评价,即样本相似则溯源特征的欧氏距离接近。
[0075] 因此,本实施例中,步骤S2具体为:
[0076] S21,定义溯源特征变换网络的损失函数为:
[0077]
[0078] 式中θ表示变换网络y=Fθ(x)的参数,w(xi,xj)是由所述Siamese网络输入xi和xj计算得到的相似度。
[0079] 若所有样本点映射到相同溯源特征(即所有的x,有Fθ(x)=y0),此时网络成为退化网络没有实际意义。为了防止网络退化,网络最后添加一个正交化层,实现网络输出的正交化约束。
[0080] 步骤S22,抽取m个样本x1,...,xm∈Rd,构成一个m×d的矩阵X,设对应的溯源特征为一个m×k的矩阵Y,则正交化约束描述为:
[0081]
[0082] 其中Ik×k是一个k阶单位阵。
[0083] 对于像ATA为满秩的任意矩阵A,可以通过Cholesky分解ATA=LLT获得QR分解,其中‑1 ‑1 T ‑1 TL是下三角矩阵,L 也是下三角矩阵,而(L ) 是上三角矩阵。设置Q=A(L ) ,则:
[0084] QTQ=L‑1ATA(L‑1)T=L‑1LLT(L‑1)T=(L‑1L)=I (4)
[0085] 因此,正交化层表示为 其中L是从 的Cholesky分解中获得的, 是用来满足正交化约束。
[0086] 步骤S23,进行网络训练过程,具体包括前向计算过程和反向计算过程;
[0087] 所述前向计算过程为:
[0088] 随机选择m个数据构成数据批X;
[0089] 前向网络计算,得到网络归一化层输入
[0090] 计算Cholesky分解
[0091] 设置网络归一化层权系数为 并计算输出
[0092] 所述反向计算过程为:
[0093] 利用Siamese网络计算输入数据对的相似度;
[0094] 计算溯源特征变换网络的损失函数;
[0095] 反向传播,更新除归一化层之外的全部网络参数。
[0096] 本实施例中,步骤S3具体计算过程为:
[0097] 利用溯源特征,可以结合监测网络节点的地理分布信息,构造一个图模型G=(V,E),其中节点集V对应监测网络节点,边沿集E由相邻节点(vi,vj)和连接权值wi,j集合构成,wi,j的定义为:
[0098] wi,j=||Yi‑Yj||2 (5)
[0099] 其中节点i和节点j在地理邻域范围之内。
[0100] 这里需要说明的是,经图谱网络获取的溯源特征具有二次范数可分性,故连接权值定义为溯源特征差值的二次范数;地理邻域范围并不是一个确定的常数,根据监测网络节点的地理分布不同局域具有不同的地理邻域范围数值。
[0101] 根据获取的图模型G,水污染的溯源问题等效于图模型的全局优化分割问题。设节点集S是图模型节点集V的一个子集,定义节点集S的传导率为:
[0102]
[0103] 其中 V\S表示集合S在集合V上的补集。这意味着图模型的全局优化分割问题转换为最小传导率问题,可以表示为:
[0104]
[0105] 这里k是分割区域数(即需要同时对监测网络中的k‑1个污染事件进行溯源),S1∪S2∪…∪Sk=V。
[0106] 理论上最小传导率问题是不可解的,是一个NP困难问题,需要寻求一种近似解决方法。注意到以下两点事实:1)溯源特征在欧氏空间上呈现聚类特性;2)溯源特征经过归一化正交处理获取。这意味着溯源特征的基在欧氏空间中是空间角近似可分,各个类别的代表基可以通过最大化所有基的内接椭球体获得,等价于一个凸规划问题。
[0107] 因此,本实施例中,步骤S4具体计算过程为:
[0108] S41,将溯源特征的基分为多个类别,每个类别的代表基表示为:
[0109] min[‑log det X] (8)T
[0110] 满足条件:pXp≤1,X>0(正定),任意 其中T
[0111] 这样,就可以根据选择的k个满足条件pXp=1的基,可以通过内积运算对集合中的所有基进行类别归属确定。
[0112] S42,计算拉普拉斯矩阵L最小k个特征值对应的特征矢量f1,f2,…,fk,构造矩阵T即P=[f1,f2,…,fk] ,矩阵P的列向量表示为p1,p2,…pn;
[0113] S43,确定矩阵P列向量p1,p2,…pn以原点为中心的最小封闭区域 根据最小封闭区域边界上的列向量点构造分类指示标记集I=[i1,i2,…,ik],其中i1表示 属于节点集T1,i2表示 属于节点集T2,其它雷同。
[0114] 如果边界上的列向量点大于k个,使用连续投影算法选择k个在k‑1维子空间上投影范数最小的边界上的列向量点;
[0115] S44,归一化处理 i=1,2,…,n,初始化节点分类集{T1,T2,…,Tk}为空集,根据分类指示标记集I=[i1,i2,…,ik],计算:
[0116] c)选择 计算 确定极大值对应列向量pj;
[0117] d)更新
[0118] 输出节点分类集{T1,T2,…,Tk}。
[0119] 以上实施例仅用于说明本发明的优选实施方式,但本发明并不限于上述实施方式,在所述领域普通技术人员所具备的知识范围内,本发明的精神和原则之内所作的任何修改、等同替代和改进等,其均应涵盖在本发明请求保护的技术方案范围之内。