[0005] 本发明的目的就是针对现有技术的不足,提供一种基于离散余弦变换的视频目标分割对抗攻击方法。本发明方法通过构建视频目标运动感知模块,从视频中提取光流并得到运动向量,为对抗攻击算法提供时序特征,进而使得攻击算法侧重于视频中的运动目标;同时构建语义权重量化模块和语义离散余弦筛选模块,分别用于捕捉语义权重、筛选去除视频帧语义特征,能够突破基于噪声去除的对抗防御技术,从而实现对视频目标分割模型的攻击,降低原有模型的分割精度。
[0006] 本发明方法首先获取视频数据集合、像素级目标类别矩阵(掩膜)与预训练的视频目标分割模型,然后进行如下操作:
[0007] 步骤(1)对视频进行均匀采样,获得视频帧序列 将其输入到预训练视频目标分割模型,获得原始视频帧语义特征Zt;
[0008] 步骤(2)构建视频目标运动感知模块,将视频帧序列 作为输入,获得运动向量O′t;
[0009] 步骤(3)构建语义权重量化模块,引入初始化的语义权重梯度张量与运动向量一并作为输入,获得语义权重Qt;
[0010] 步骤(4)构建语义离散余弦筛选模块,将语义权重Qt与视频帧语义特征Zt作为输入,获得对抗性语义特征
[0011] 步骤(5)固定由视频目标运动感知模块、语义权重量化模块、语义离散余弦筛选模块构成的语义攻击网络参数,使用交叉熵损失函数迭代优化对抗性语义特征,获得优化的对抗性语义特征集合
[0012] 步骤(6)将优化的对抗性语义特征集合输入视频目标分割模型中间层的后一层,并经过后续网络层,获得被攻击后的视频目标分割结果。
[0013] 进一步,步骤(1)具体是:
[0014] (1‑1)对视频进行每秒5~10帧的均匀采样获取T个视频帧,得到视频帧序列 和真实掩膜序列 Xt表示第t个视频帧,Yt为第t个视频帧对应的真实掩膜,T为视频帧数目, 表示实数域,H、W分别表示视频帧的高度、宽度,3表示RGB通道数;
[0015] (1‑2)将视频帧序列 中的每个视频帧Xt依次输入到由残差卷积神经网络(如ResNet)组成的预训练视频目标分割模型中,在模型的中间层获得对应的原始视频帧语义特征 中间层即模型总层数的一半向上取整的第l层卷积;其中H′、W′、C′分别为视频帧语义特征的高度、宽度和通道数,Φl(·)为预训练视频目标分割模型第l层卷积前的所有网络结构,整个预训练视频目标分割模型记为Φ(·)。
[0016] 又进一步,步骤(2)具体是:
[0017] (2‑1)视频目标运动感知模块由FlowNet模块、一个二维卷积层以及运动函数组成,所述的FlowNet模块为由多个卷积层组成的的光流提取网络,将视频帧序列 输入至FlowNet,获得所有相邻两帧视频之间的光流集合 Mt表示第t个帧视频与第t+1个帧视频的光流,当t=T,MT由全0初始化补全;
[0018] (2‑2)将光流集合 输入下采样函数,对每个光流Mt进行下采样M′t=Interpolate(Mt),获得下采样光流集合 M′t表示第t个帧视频与第t+1个帧视频的下采样光流,Interpolate(·)为下采样函数将光流Mt维度从H×W×2变为H′×W′×2;
[0019] (2‑3)将下采样光流集合 输入二维卷积,对每个下采样光流M′t进行卷积M″t=Conv2D(M′t),得到多通道光流集合 M″t表示第t个帧视频与第t+1个帧视频的多通道光流,Conv2D(·)为二维卷积,其输入通道数为2,输出通道数为C′,卷积核尺寸为1×1;
[0020] (2‑4)随机初始化运动向量集合 Ot为第t个帧视频Xt对应的随机初始化运动向量,将随机初始化运动向量Ot与多通道光流M″t依次输入运动函数Motion(Ot,M″t)=Sigmoid(Ot⊙M″t),获得运动向量 ⊙为逐元素乘积,Sigmoid(·)为Sigmoid激活函数,将变量映射到0,1之间。
[0021] 再进一步,步骤(3)具体是:构建语义权重量化模块由语义权重量化函数组成,初始化全1的语义权重梯度矩阵 语义权重矩阵 并与运动向量O′t输入语义权重量化函数
获得语义权重 其中α为扰动系数其大小设置为2.0/255,Φ(Xt)为预训练视频目标分割模型对第t个帧视频的预测掩膜, 为更新后的语义权重
梯度矩阵 表示交叉熵损失函数,Softmax(·)指Softmax函数其作用为
对变量进行归一化。
[0022] 更进一步,步骤(4)具体是:
[0023] (4‑1)构建语义离散余弦筛选模块由离散余弦变换函数、反离散余弦变换函数和阈值函数组成,将获得的第1~T个原始视频帧语义特征Zt依次输入离散余弦变换函数,获得频域语义特征 Cosine(·)表示离散余弦变换函数;
[0024] (4‑2)将语义权重Qt中每个元素qk依次输入阈值函数获得语义筛选矩阵 k表示语义权重Qt中的第k个元素,β为一个大于0的阈值系数;(4‑3)将语义筛选矩阵 与频域语义特征Z′t进行逐元素乘积获得筛选频域语义特征
[0025] (4‑4)将筛选频域语义特征 输入反离散余弦变换函数,获得对抗性语义特征InverseCosine(·)表示反离散余弦变换函数。
[0026] 还进一步,步骤(5)的具体是:
[0027] (5‑1)将对抗性语义特征 输入到预训练的视频目标分割模型中间层之后所有网络结构Φl+(·),获得预测掩膜 中间层即为第l层卷积;
[0028] (5‑2)计算预测掩膜 与视频帧Xt的真实掩膜Yt的交叉熵损失 通过反向传播获得语义权重的梯度
[0029] (5‑3)固定由视频目标运动感知模块、语义权重量化模块、语义离散余弦筛选模块构成的语义攻击网络参数,通过随机梯度下降法对语义权重梯度矩阵H′t进行更新,获得优化的语义权重梯度H″t;
[0030] (5‑4)将优化的语义权重梯度H′t′按照步骤(4)获得初始对抗性语义特征上标n表示第n次迭代优化;
[0031] (5‑5)将每次迭代获得的初始对抗性语义特征 保留,获得初始对抗性语义特征集合 N表示总迭代优化次数;
[0032] (5‑6)将第1~T个视频帧Xt对应的原始语义特征Zt和对应的初始对抗性语义特征集合 依次输入约束函数获得优化的对抗
性语义特征集合 为每个视频帧Xt对应的优化的对抗
性语义特征,其中||·||p为Lp范数,p∈{2,∞},ε∈{128/255,8/255}为约束Lp范数的一个阈值。
[0033] 继续进一步,步骤(6)具体是:将优化的对抗性语义特征集合 输入预训练视频目标分割模型中间层后的网络结构Φl+(·)进行对抗攻击,输出攻击后的最终视频目标分割结果 Y′t为第t个视频帧对应的分割结果。
[0034] 本发明提出了基于离散余弦变换的视频目标分割对抗攻击方法,该方法具有以下几个特点:1)针对视频数据和视频目标分割任务设计语义攻击网络,提出视频目标运动感知模块,使得语义攻击网络关注于视频中运动目标;2)提出语义权重量化模块,给予视频帧语义特征语义权重,来区分不同语义特征的重要程度;3)提出语义离散余弦筛选模块,根据语义权重对部分视频语义特征进行筛选去除,获得对抗性语义特征,并根据视频目标分割模型的输出迭代优化,进而获取到优化的对抗性语义特征,保证对抗攻击的有效性。
[0035] 本发明适用于针对视频目标分割模型进行对抗攻击,有益效果包括:1)通过视频目标运动感知模块,使得语义攻击网络能够关注视频中运动目标,破坏视频帧之间时序连贯性,增强对视频目标分割模型的攻击效果;2)通过语义权重量化模块得到的语义权重对视频帧语义特征做出区分,从而筛选去除语义特征来实现对抗攻击,提高对抗攻击的有效性;3)从视频数据自身出发,通过迭代优化并筛选去除部分语义特征来产生对抗样本,能够突破基于去噪的对抗防御方法,提升攻击的泛化能力。