[0041] 以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
[0042] 本发明的目的是针对现有技术的缺陷,提供了一种基于Sliced‑Wasserstein 距离的深度自编码嵌入聚类的方法。
[0043] 实施例一
[0044] 本实施例提供一种基于Sliced‑Wasserstein距离的深度自编码进行图像降维并嵌入聚类的方法,如图1‑3所示,包括步骤:
[0045] S11.构建基于Sliced‑Wasserstein距离的自编码网络模块;
[0046] S12.构建聚类模块;
[0047] S13.将所述构建的自编码网络模块和聚类模块进行联合,构建基于Sliced‑Wasserstein距离的自编码嵌入式聚类网络;
[0048] S14.初始化构建后的自编码嵌入式聚类网络的聚类中心,将无标签的数据集输入到网络进行迭代训练,并对自编码嵌入式聚类网络进行处理,当所述处理后的自编码嵌入式聚类网络达到预设阈值时,完成最终的聚类。
[0049] 本实施例利用基于Sliced‑Wasserstein距离的自编码网络框架,并在此基础上引入了均方误差损失、L1损失、软分配聚类损失,以及KL损失进行联合优化聚类,在网络的迭代训练过程中,同时优化了自编码网络模块以及聚类模块,从而达到聚类完成的效果。
[0050] 本实施例基于Sliced‑Wasserstein距离的自编码嵌入式聚类网络,是深度自编码网络和聚类模块两部分的融合。
[0051] 在步骤S11中,构建基于Sliced‑Wasserstein距离的自编码网络模块。
[0052] 构造基于Sliced‑Wasserstein距离的自编码网络(SWAE)模块。该自动编码网络结构由通用的编码器f(x;θf)和解码器g(z;θg)组成,如图2所示。原始图像经过网络的编码器,在指定的特征空间中提取图像的低维特征向量z,再经过网络的解码器,得到重构的新图像。设数据x1,x2,...,xN∈X是原始图像的输入, z是自编码网络(SWAE)中编码器f(x;θf)输出的特征向量,而x′n是解码器 g(z;θg)的输出重构图像,为了使网络重构后的图像保留更多原始图像的特征信息,可以利用均方损失、L1范数损失以及Sliced‑Wasserstein的近似距离来约束网络的重构和映射至潜在特征空间的性能,即
[0053]
[0054]
[0055]
[0056]
[0057]
[0058] 其中,μ表示输入数据的分布;η表示自编码网络重构后的数据分布,pz表示数据在指定特征空间中编码后的分布;qz表示预先定义的采样分布;λ表示一个超参数,用于鉴定损失函数的相对重要性。
[0059] 设Sd‑1是概率空间Ωd中的单位球,对于一个向量v∈Sd‑1,其中 代表选取的N个切片单元,(∏v)#η表示η的投影分布,Γ(η,μ)表示的是η和μ组合起来的所有可能联合分布的集合,自编码器模块的最终优化约束条件为:
[0060]
[0061] 在步骤S12中,构建聚类模块。
[0062] 其中,构建聚类模块包括构建聚类模块中的软分配、KL损失优化、软聚类损失优化。
[0063] 构建聚类模块中的软分配:
[0064] 假设质心为ρ1,ρ2,...,ρK,使用t分布作为核函数来测量嵌入点zi和质心ρj之间的相似性:具体为:
[0065]
[0066] 其中,ρj表示质心;zi表示嵌入点;zi=fθ(xi)∈Z对应于数据点xi∈X嵌入后的特征向量;Z表示数据提取特征后的低维空间;X表示数据的原始空间;α表示t分布的自由度;qij表示将样本i分配给聚类质心ρj的概率;通常,自由度α=1。
[0067] 构建聚类模块中的KL损失优化:
[0068] 在辅助目标分布的帮助下,模型通过将软分配与辅助分布相匹配来进行训练。为此,将目标函数定义为软分配分布qi和辅助分布pi之间的KL‑divergence 损失:
[0069]
[0070] 通过将qi提升到第二个幂然后按每个簇的频率进行归一化来定义辅助目标函数pi:
[0071]
[0072] 其中,fj=∑iqij表示软集群频率;qij可以通过嵌入式聚类网络由公式(7) 计算得到。通过对原始分布求平方并对其进行归一化,辅助分布pij强制赋值具有更严格的概率,即更接近0和1。
[0073] 构建聚类模块中的软聚类损失优化:
[0074] 软聚类需要最小化损失函数
[0075]
[0076] 其中,Ewkm表示软聚类最小损失;需要满足条件φi(k)>0; β>0。在神经网络的训练中,质心会根据网络的迭代训练过程进行更新优化,对于软分配的计算,在实验中将公式设置为φi(k)=qij。
[0077] 在步骤S13中,将所述构建的自编码网络模块和聚类模块进行联合,构建基于Sliced‑Wasserstein距离的自编码嵌入式聚类网络。
[0078] 具体为将构建的自编码网络模块和构建的聚类模块中的软分配、KL损失优化、软聚类损失优化进行联合到最终的网络中,整体框架如图3所示。结合步骤S11中的公式(6)和步骤S12中的公式(8)、(10),得到最终的整个网络的损失函数为:
[0079]
[0080] 其中,α,β,γ表示超参数,用于更好的协调网络各部分之间的权重。
[0081] 在步骤S14中,初始化构建后的自编码嵌入式聚类网络的聚类中心,将无标签的数据集输入到网络进行迭代训练,并对自编码嵌入式聚类网络进行处理,当所述处理后的自编码嵌入式聚类网络达到预设阈值时,完成最终的聚类。
[0082] 搭建完嵌入式聚类网络的整体模块后,首先使用Xavier Uniform方法初始化网络的聚类中心,再将无标签的数据集输入到网络进行迭代的训练,微调超参数α,β,γ,网络会根据最终的网络损失函数(11)自动优化嵌入式聚类网络,当达到一定的精度或者达到指定的迭代次数时,终止训练,从而完成最终的聚类。
[0083] 本实施例是一种更有效的深度学习的无监督聚类方法,提出了基于 Sliced‑Wasserstein距离的深度自编码器(SWAE),并利用该编码器进行深度非线性特征的提取以及同时完成聚类的过程。这是一种使用深度神经网络同时学习特征表示和优化聚类分配的无监督方法,其中,基于Sliced‑Wasserstein距离的自编码网络学习从高维数据空间到指定低维特征空间的映射,它可以使潜在空间的分布成形为任何可简化的概率分布,避免了在编码空间中执行昂贵的对抗训练的过程,在计算性能方面产生显着的提升,并且不仅限于封闭形式的分布,同时仍然受益于Wasserstein距离测度编码空间,可以对问题进行简单的数值解,保留了Wasserstein AutoEncoder模型提取数据低维特征的优势。另外,整体网络能够在映射到该空间中的同时迭代地优化聚类目标以完成聚类,从而提升聚类的精度、泛化性能。
[0084] 本实施例利用基于Sliced‑Wasserstein距离的自编码网络框架,并在此基础上引入了均方误差损失、L1损失、软分配聚类损失,以及KL损失进行联合优化聚类,在网络的迭代训练过程中,同时优化了自编码网络模块以及聚类模块,从而达到聚类完成的效果。
[0085] 注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。