首页 > 专利 > 杭州电子科技大学 > 基于离散余弦变换的视频目标分割对抗攻击方法专利详情

基于离散余弦变换的视频目标分割对抗攻击方法 0 0

有效专利查看PDF

申请进展

基本信息

申请人信息

代理人信息

摘要

法律状态

权利要求

说明书

专利申请流程有哪些步骤？

申请

申请号：指国家知识产权局受理一件专利申请时给予该专利申请的一个标示号码。唯一性原则。

申请日：提出专利申请之日。

2022-05-05

申请公布

申请公布指发明专利申请经初步审查合格后，自申请日（或优先权日）起18个月期满时的公布或根据申请人的请求提前进行的公布。

申请公布号：专利申请过程中，在尚未取得专利授权之前，国家专利局《专利公报》公开专利时的编号。

申请公布日：申请公开的日期，即在专利公报上予以公开的日期。

2022-08-16

授权

授权指对发明专利申请经实质审查没有发现驳回理由，授予发明专利权；或对实用新型或外观设计专利申请经初步审查没有发现驳回理由，授予实用新型专利权或外观设计专利权。

2022-12-02

预估到期

发明专利权的期限为二十年，实用新型专利权期限为十年，外观设计专利权期限为十五年，均自申请日起计算。专利届满后法律终止保护。

2042-05-05

基本信息

有效性	有效专利	专利类型	发明专利
申请号	CN202210481562.7	申请日	2022-05-05
公开/公告号	CN114821432B	公开/公告日	2022-12-02
授权日	2022-12-02	预估到期日	2042-05-05
申请年	2022年	公开/公告年	2022年
缴费截止日
分类号	G06V20/40 、G06V10/26 、G06V10/82 、G06N3/04 、G06N3/08 、G06T7/246 、G06T7/269	主分类号	G06V20/40
是否联合申请	独立申请	文献类型号	B
独权数量	1	从权数量	4
权利要求数量	5	非专利引证数量	0
引用专利数量	7	被引证专利数量	0
非专利引证
引用专利	CN113538457A、CN101668170A、CN114202017A、CN1767653A、CN104243974A、US2003081673A1、US5301019A	被引证专利
专利权维持	0	专利申请国编码	CN
专利事件		事务标签	公开、实质审查、授权

申请人信息

申请人	杭州电子科技大学	第一申请人	杭州电子科技大学
专利权人	杭州电子科技大学	当前专利权人	杭州电子科技大学
发明人	潘震、李平、张宇	第一发明人	潘震
地址	浙江省杭州市下沙高教园区2号大街	邮编	310018
申请人数量	1	发明人数量	3
申请人所在省	浙江省	申请人所在市	浙江省杭州市

代理人信息

代理机构

专利代理机构是经省专利管理局审核，国家知识产权局批准设立，可以接受委托人的委托，在委托权限范围内以委托人的名义办理专利申请或其他专利事务的服务机构。

杭州君度专利代理事务所

代理人

专利代理师是代理他人进行专利申请和办理其他专利事务，取得一定资格的人。

陈炜

摘要

本发明公开了基于离散余弦变换的视频目标分割对抗攻击方法。本发明方法在预训练的视频目标分割模型卷积层获得视频语义特征，由离散余弦变换将语义特征变为频域语义特征；通过视频目标运动感知模块获得运动向量，由语义权重量化模块获得语义权重；最后根据语义权重对频域语义特征的频域值筛选去除，由反离散余弦变换还原获得对抗性语义特征，通过去除语义特征实现对视频目标分割模型的攻击，即获得性能差的分割掩膜。本发明方法将视频的时序关系融入对抗攻击中，使其聚焦于视频中的运动目标，破坏时序关系；通过语义权重并对视频帧语义特征进行筛选去除，在视频语义特征上生成对抗样本来实现对抗攻击，降低了视频目标分割精度并提升了攻击效果。

摘要附图
说明书附图：图1

法律状态

序号	法律状态公告日	法律状态	法律状态信息
1	2022-12-02	授权
2	2022-08-16	实质审查的生效	IPC(主分类): G06V 20/40 专利申请号: 202210481562.7 申请日: 2022.05.05
3	2022-07-29	公开

权利要求

权利要求书是申请文件最核心的部分，是申请人向国家申请保护他的发明创造及划定保护范围的文件。

1.基于离散余弦变换的视频目标分割对抗攻击方法，其特征在于：首先获取视频数据集合、像素级目标类别矩阵与预训练的视频目标分割模型，然后进行如下操作：
步骤(1)对视频进行均匀采样，获取T个视频帧，得到视频帧序列和真实掩膜序列Xt表示第t个视频帧，Yt
为第t个视频帧对应的真实掩膜，T为视频帧数目，表示实数域，H、W分别表示视频帧的高度、宽度，3表示RGB通道数；
将视频帧序列中的每个视频帧Xt依次输入到由残差卷积神经网络组成的预训练视频目标分割模型中，在模型的中间层获得对应的原始视频帧语义特征
中间层即模型总层数的一半向上取整的第l层卷积；其中H′、W′、C′分别为视频帧语义特征的高度、宽度和通道数，Φl(·)为预训练视频目标分割模型第l层卷积前的所有网络结构；
步骤(2)构建视频目标运动感知模块，将视频帧序列作为输入，获得运动向量O′t；
步骤(3)构建语义权重量化模块，引入初始化的语义权重梯度张量与运动向量一并作为输入，获得语义权重Qt；
所述的语义权重量化模块由语义权重量化函数组成，初始化全1的语义权重梯度矩阵语义权重矩阵并与运动向量O′t输入语义权重量化函数
获得语义权重
其中，α为扰动系数其大小设置为2.0/255，Φ(Xt)为预训练视频目标分割模型对第t个帧视频的预测掩膜，为更新后的语义权重梯度矩阵
表示交叉熵损失函数，⊙为逐元素乘积，Softmax(·)指Softmax函数其作用为对变量进行归一化；
步骤(4)构建语义离散余弦筛选模块，将语义权重Qt与视频帧语义特征Zt作为输入，获得对抗性语义特征
(4‑1)构建语义离散余弦筛选模块由离散余弦变换函数、反离散余弦变换函数和阈值函数组成，将获得的第1～T个原始视频帧语义特征Zt依次输入离散余弦变换函数，获得频域语义特征 Cosine(·)表示离散余弦变换函数；
(4‑2)将语义权重Qt中每个元素qk依次输入阈值函数获得
语义筛选矩阵 k表示语义权重Qt中的第k个元素，β为一个大于0的阈值系数；
(4‑3)将语义筛选矩阵与频域语义特征Z′t进行逐元素乘积获得筛选频域语义特征
(4‑4)将筛选频域语义特征输入反离散余弦变换函数，获得对抗性语义特征InverseCosine(·)表示反离散余弦变换函数；
步骤(5)固定由视频目标运动感知模块、语义权重量化模块、语义离散余弦筛选模块构成的语义攻击网络参数，使用交叉熵损失函数迭代优化对抗性语义特征，获得优化的对抗性语义特征集合
步骤(6)将优化的对抗性语义特征集合输入视频目标分割模型中间层的后一层，并经过后续网络层，获得被攻击后的视频目标分割结果。

2.如权利要求1的基于离散余弦变换的视频目标分割对抗攻击方法，其特征在于，步骤(1)中对视频进行每秒5～10帧的均匀采样。

3.如权利要求1或2的基于离散余弦变换的视频目标分割对抗攻击方法，其特征在于，步骤(2)具体是：
(2‑1)视频目标运动感知模块由FlowNet模块、一个二维卷积层以及运动函数组成，所述的FlowNet模块为由多个卷积层组成的光流提取网络，将视频帧序列输入至FlowNet，获得所有相邻两帧视频之间的光流集合 Mt表示第t个帧视
频与第t+1个帧视频的光流，当t＝T，MT由全0初始化补全；
(2‑2)将光流集合输入下采样函数，对每个光流Mt进行下采样M′t＝Interpolate(Mt)，获得下采样光流集合 M′t表示第t个帧视频与第t+1
个帧视频的下采样光流，Interpolate(·)为下采样函数将光流Mt维度从H×W×2变为H′×W′×2；
(2‑3)将下采样光流集合输入二维卷积，对每个下采样光流M′t进行卷积M″t＝Conv2D(M′t)，得到多通道光流集合 M″t表示第t个帧视
频与第t+1个帧视频的多通道光流，Conv2D(·)为二维卷积，其输入通道数为2，输出通道数为C′，卷积核尺寸为1×1；
(2‑4)随机初始化运动向量集合 Ot为第t个帧视频
Xt对应的随机初始化运动向量，将随机初始化运动向量Ot与多通道光流M″t依次输入运动函数获得运动向量 Sigmoid(·)为Sigmoid
激活函数，将变量映射到0,1之间。

4.如权利要求3的基于离散余弦变换的视频目标分割对抗攻击方法，其特征在于，步骤(5)的具体是：
(5‑1)将对抗性语义特征输入到预训练的视频目标分割模型中间层之后所有网络结构Φl+(·)，获得预测掩膜中间层即为第l层卷积；
(5‑2)计算预测掩膜与视频帧Xt的真实掩膜Yt的交叉熵损失通过反向传播获得语义权重的梯度
(5‑3)固定由视频目标运动感知模块、语义权重量化模块、语义离散余弦筛选模块构成的语义攻击网络参数，通过随机梯度下降法对语义权重梯度矩阵H′t进行更新，获得优化的语义权重梯度H″t；
(5‑4)将优化的语义权重梯度H″t按照步骤(4)获得初始对抗性语义特征上标n表示第n次迭代优化；
(5‑5)将每次迭代获得的初始对抗性语义特征保留,获得初始对抗性语义特征集合N表示总迭代优化次数；
(5‑6)将第1～T个视频帧Xt对应的原始语义特征Zt和对应的初始对抗性语义特征集合依次输入约束函数
获得优化的对抗
性语义特征集合为每个视频帧Xt对应的优化的对抗
性语义特征，其中||·||p为Lp范数，p∈{2,∞}，ε∈{128/255,8/255}为约束Lp范数的一个阈值。

5.如权利要求4的基于离散余弦变换的视频目标分割对抗攻击方法，其特征在于，步骤(6)具体是：将优化的对抗性语义特征集合输入预训练视频目标分割模型中间层后的网络结构Φl+ (·)进行对抗攻击，输出攻击后的最终视频目标分割结果
Yt′为第t个视频帧对应的分割结果。

说明书

技术领域

[0001] 本发明属于计算机视觉领域，尤其是对抗学习与视频目标分割领域，涉及一种基于离散余弦变换的视频目标分割对抗攻击方法。

背景技术

[0002] 视频目标分割是一种常用的视频处理技术，能够将视频中的目标从背景中精确地分割出来，并获取目标对象的像素级掩膜(与视频帧分辨率相同的矩阵，其对应视频目标区域的元素值为1，背景区域元素值为0)。视频目标分割技术不仅能在视频处理任务中发挥作用，还能应用于自动驾驶、视频监控、人机交互、虚拟现实等前沿领域。近年来，各种基于深度学习的神经网络模型被提出并用于处理视频目标分割任务。然而，多数研究已表明深度神经网络模型并不具有鲁棒性，容易受到对抗攻击，即通过在图像或视频中加入无法被察觉的扰动(数值较小的像素值)从而产生对抗样本，再将对抗样本输入至深度神经网络模型中欺骗模型，使模型产生错误的输出。由于现有视频目标分割模型往往是基于深度神经网络设计的，所以其对对抗样本并不具有鲁棒性，即视频目标分割模型针对添加扰动后的视频会输出分割性能较低的掩膜，这对于视频目标分割的实际应用(如自动驾驶)是十分致命的，因此视频目标分割的安全性问题具有深远的研究意义和巨大的研究价值。

[0003] 目前，对抗攻击的研究主要集中在图像分类领域，针对视频攻击的研究还处在起步阶段，仅有少量工作关注视频分类和语义分割任务。在图像分类领域，大多数对抗攻击方法利用输入图像梯度(一个与输入图像维度相同的张量)进行对抗攻击，如快速符号梯度法(Fast Gradient Sign Method)通过取梯度张量中元素的正负并乘以较小的扰动系数来产生一个不可被感知的扰动，将其添加到图像中使得分类器对该图像分类错误；后续部分工作通过对图像梯度的各种处理(如：投影、卷积)来产生扰动以增强攻击性能。在视频分类的对抗攻击中，部分方法沿用图像分类攻击的思想，通过处理视频的梯度产生扰动并添加到视频中，使得视频被分类器错误归为其他类别；此外还有方法利用视频分类数据的特点对不同类别的视频数据进行采样，利用采样后部分视频的梯度来替代整个视频的梯度，再利用该梯度生成通用的扰动进而生成视频的对抗样本进行攻击。在针对语义分割的攻击方法中，攻击算法在一组像素/提议目标上优化损失函数来生成一个对抗性扰动，旨在尽可能多地混淆提议目标，使得语义分割模型对输入图像中多个提议目标的类别预测出现错误。

[0004] 上述方法存在的不足主要表现在两个方面：(1)由于图像与视频的差异，针对图像的攻击方法并不一定适用于视频，已有的针对视频的攻击方法没有考虑连续视频帧之间的关联及视频的时序关系；(2)现有对抗攻击方法均为向图像/视频添加扰动的方式，使模型对添加扰动后的数据做出错误的输出，这些攻击方法容易被对抗防御技术手段如去噪所防御，难以造成有效攻击。根据上述考虑，迫切需要设计一种融入视频时序关系且泛化攻击能力较强的视频目标分割对抗攻击方法。

发明内容

[0005] 本发明的目的就是针对现有技术的不足，提供一种基于离散余弦变换的视频目标分割对抗攻击方法。本发明方法通过构建视频目标运动感知模块，从视频中提取光流并得到运动向量，为对抗攻击算法提供时序特征，进而使得攻击算法侧重于视频中的运动目标；同时构建语义权重量化模块和语义离散余弦筛选模块，分别用于捕捉语义权重、筛选去除视频帧语义特征，能够突破基于噪声去除的对抗防御技术，从而实现对视频目标分割模型的攻击，降低原有模型的分割精度。

[0006] 本发明方法首先获取视频数据集合、像素级目标类别矩阵(掩膜)与预训练的视频目标分割模型，然后进行如下操作：

[0007] 步骤(1)对视频进行均匀采样，获得视频帧序列将其输入到预训练视频目标分割模型，获得原始视频帧语义特征Zt；

[0008] 步骤(2)构建视频目标运动感知模块，将视频帧序列作为输入，获得运动向量O′t；

[0009] 步骤(3)构建语义权重量化模块，引入初始化的语义权重梯度张量与运动向量一并作为输入，获得语义权重Qt；

[0010] 步骤(4)构建语义离散余弦筛选模块，将语义权重Qt与视频帧语义特征Zt作为输入，获得对抗性语义特征

[0011] 步骤(5)固定由视频目标运动感知模块、语义权重量化模块、语义离散余弦筛选模块构成的语义攻击网络参数，使用交叉熵损失函数迭代优化对抗性语义特征，获得优化的对抗性语义特征集合

[0012] 步骤(6)将优化的对抗性语义特征集合输入视频目标分割模型中间层的后一层，并经过后续网络层，获得被攻击后的视频目标分割结果。

[0013] 进一步，步骤(1)具体是：

[0014] (1‑1)对视频进行每秒5～10帧的均匀采样获取T个视频帧，得到视频帧序列和真实掩膜序列 Xt表示第t个视频帧，Yt为第t个视频帧对应的真实掩膜，T为视频帧数目，表示实数域，H、W分别表示视频帧的高度、宽度，3表示RGB通道数；

[0015] (1‑2)将视频帧序列中的每个视频帧Xt依次输入到由残差卷积神经网络(如ResNet)组成的预训练视频目标分割模型中，在模型的中间层获得对应的原始视频帧语义特征中间层即模型总层数的一半向上取整的第l层卷积；其中H′、W′、C′分别为视频帧语义特征的高度、宽度和通道数，Φl(·)为预训练视频目标分割模型第l层卷积前的所有网络结构，整个预训练视频目标分割模型记为Φ(·)。

[0016] 又进一步，步骤(2)具体是：

[0017] (2‑1)视频目标运动感知模块由FlowNet模块、一个二维卷积层以及运动函数组成，所述的FlowNet模块为由多个卷积层组成的的光流提取网络，将视频帧序列输入至FlowNet，获得所有相邻两帧视频之间的光流集合 Mt表示第t个帧视频与第t+1个帧视频的光流，当t＝T，MT由全0初始化补全；

[0018] (2‑2)将光流集合输入下采样函数，对每个光流Mt进行下采样M′t＝Interpolate(Mt)，获得下采样光流集合 M′t表示第t个帧视频与第t+1个帧视频的下采样光流，Interpolate(·)为下采样函数将光流Mt维度从H×W×2变为H′×W′×2；

[0019] (2‑3)将下采样光流集合输入二维卷积，对每个下采样光流M′t进行卷积M″t＝Conv2D(M′t)，得到多通道光流集合 M″t表示第t个帧视频与第t+1个帧视频的多通道光流，Conv2D(·)为二维卷积，其输入通道数为2，输出通道数为C′，卷积核尺寸为1×1；

[0020] (2‑4)随机初始化运动向量集合 Ot为第t个帧视频Xt对应的随机初始化运动向量，将随机初始化运动向量Ot与多通道光流M″t依次输入运动函数Motion(Ot,M″t)＝Sigmoid(Ot⊙M″t)，获得运动向量 ⊙为逐元素乘积，Sigmoid(·)为Sigmoid激活函数，将变量映射到0,1之间。

[0021] 再进一步，步骤(3)具体是：构建语义权重量化模块由语义权重量化函数组成，初始化全1的语义权重梯度矩阵语义权重矩阵并与运动向量O′t输入语义权重量化函数
获得语义权重其中α为扰动系数其大小设置为2.0/255，Φ(Xt)为预训练视频目标分割模型对第t个帧视频的预测掩膜，为更新后的语义权重
梯度矩阵表示交叉熵损失函数，Softmax(·)指Softmax函数其作用为
对变量进行归一化。

[0022] 更进一步，步骤(4)具体是：

[0023] (4‑1)构建语义离散余弦筛选模块由离散余弦变换函数、反离散余弦变换函数和阈值函数组成，将获得的第1～T个原始视频帧语义特征Zt依次输入离散余弦变换函数，获得频域语义特征 Cosine(·)表示离散余弦变换函数；

[0024] (4‑2)将语义权重Qt中每个元素qk依次输入阈值函数获得语义筛选矩阵 k表示语义权重Qt中的第k个元素，β为一个大于0的阈值系数；(4‑3)将语义筛选矩阵与频域语义特征Z′t进行逐元素乘积获得筛选频域语义特征

[0025] (4‑4)将筛选频域语义特征输入反离散余弦变换函数，获得对抗性语义特征InverseCosine(·)表示反离散余弦变换函数。

[0026] 还进一步，步骤(5)的具体是：

[0027] (5‑1)将对抗性语义特征输入到预训练的视频目标分割模型中间层之后所有网络结构Φl+(·)，获得预测掩膜中间层即为第l层卷积；

[0028] (5‑2)计算预测掩膜与视频帧Xt的真实掩膜Yt的交叉熵损失通过反向传播获得语义权重的梯度

[0029] (5‑3)固定由视频目标运动感知模块、语义权重量化模块、语义离散余弦筛选模块构成的语义攻击网络参数，通过随机梯度下降法对语义权重梯度矩阵H′t进行更新，获得优化的语义权重梯度H″t；

[0030] (5‑4)将优化的语义权重梯度H′t′按照步骤(4)获得初始对抗性语义特征上标n表示第n次迭代优化；

[0031] (5‑5)将每次迭代获得的初始对抗性语义特征保留,获得初始对抗性语义特征集合 N表示总迭代优化次数；

[0032] (5‑6)将第1～T个视频帧Xt对应的原始语义特征Zt和对应的初始对抗性语义特征集合依次输入约束函数获得优化的对抗
性语义特征集合为每个视频帧Xt对应的优化的对抗
性语义特征，其中||·||p为Lp范数，p∈{2,∞}，ε∈{128/255,8/255}为约束Lp范数的一个阈值。

[0033] 继续进一步，步骤(6)具体是：将优化的对抗性语义特征集合输入预训练视频目标分割模型中间层后的网络结构Φl+(·)进行对抗攻击，输出攻击后的最终视频目标分割结果 Y′t为第t个视频帧对应的分割结果。

[0034] 本发明提出了基于离散余弦变换的视频目标分割对抗攻击方法，该方法具有以下几个特点：1)针对视频数据和视频目标分割任务设计语义攻击网络，提出视频目标运动感知模块，使得语义攻击网络关注于视频中运动目标；2)提出语义权重量化模块，给予视频帧语义特征语义权重，来区分不同语义特征的重要程度；3)提出语义离散余弦筛选模块，根据语义权重对部分视频语义特征进行筛选去除，获得对抗性语义特征，并根据视频目标分割模型的输出迭代优化，进而获取到优化的对抗性语义特征，保证对抗攻击的有效性。

[0035] 本发明适用于针对视频目标分割模型进行对抗攻击，有益效果包括：1)通过视频目标运动感知模块，使得语义攻击网络能够关注视频中运动目标，破坏视频帧之间时序连贯性，增强对视频目标分割模型的攻击效果；2)通过语义权重量化模块得到的语义权重对视频帧语义特征做出区分，从而筛选去除语义特征来实现对抗攻击，提高对抗攻击的有效性；3)从视频数据自身出发，通过迭代优化并筛选去除部分语义特征来产生对抗样本，能够突破基于去噪的对抗防御方法，提升攻击的泛化能力。

实施方案

[0037] 以下结合附图对本发明作进一步说明。

[0038] 如图1所示，一种基于离散余弦变换的视频目标分割对抗攻击方法，首先对视频数据进行均匀采样得到视频帧，在预训练视频目标分割模型的中间卷积层得到视频帧的语义特征，并通过离散余弦变换将视频语义特征转变为频域特征；再构建视频目标运动感知模块，输出运动向量；其次构建语义权重量化模块，输出语义权重；然后构建语义离散余弦筛选模块，输入语义权重，对部分频域语义特征进行筛选去除，并通过反离散余弦变换将频域语义特征还原，获得对抗性语义特征；通过交叉熵损失函数优化对抗性语义特征，获得优化的对抗性语义特征；最后将优化的对抗性语义特征输入预训练视频目标分割模型的后续卷积层获得攻击后的视频目标分割结果。该方法利用视频目标运动感知模块获取到视频的时序信息并将其融入到攻击中，使得攻击算法关注于视频中的运动目标，进而破坏时序关系，同时通过语义权重量化模块和语义离散余弦筛选模块捕捉并筛选语义特征，能够突破基于去噪的对抗防御技术，使得输出的分割结果仅有较低的准确率，从而实现针对视频目标分割的对抗攻击。

[0039] 该方法首先获取视频数据集合、像素级目标类别矩阵(掩膜)与预训练的视频目标分割模型，然后进行如下操作：

[0040] 步骤(1)对视频进行均匀采样，获得视频帧序列将其输入到预训练视频目标分割模型，获得原始视频帧语义特征Zt；具体是：

[0041] (1‑1)对视频进行每秒5～10帧的均匀采样获取T个视频帧，得到视频帧序列和真实掩膜序列 Xt表示第t个视频帧，Yt为第t个视频帧对应的真实掩膜，T为视频帧数目，表示实数域，H、W分别表示视频帧的高度、宽度，3表示RGB通道数；

[0042] (1‑2)将视频帧序列中的每个视频帧Xt依次输入到由残差卷积神经网络(如ResNet)组成的预训练视频目标分割模型中，在模型的中间层获得对应的原始视频帧语义特征中间层即模型总层数的一半向上取整的第l层卷积；其中H′、W′、C′分别为视频帧语义特征的高度、宽度和通道数，Φl(·)为预训练视频目标分割模型第l层卷积前的所有网络结构，整个预训练视频目标分割模型记为Φ(·)。

[0043] 步骤(2)构建视频目标运动感知模块，将视频帧序列作为输入，获得运动向量O′t；具体是：

[0044] (2‑1)视频目标运动感知模块由FlowNet模块、一个二维卷积层以及运动函数组成，所述的FlowNet模块为由多个卷积层组成的的光流提取网络，将视频帧序列输入至FlowNet，获得所有相邻两帧视频之间的光流集合 Mt表示第t个帧视频与第t+1个帧视频的光流，当t＝T，MT由全0初始化补全；

[0045] (2‑2)将光流集合输入下采样函数，对每个光流Mt进行下采样M′t＝Interpolate(Mt)，获得下采样光流集合 M′t表示第t个帧视频与第t+1个帧视频的下采样光流，Interpolate(·)为下采样函数将光流Mt维度从H×W×2变为H′×W′×2；

[0046] (2‑3)将下采样光流集合输入二维卷积，对每个下采样光流M′t进行卷积M″t＝Conv2D(M′t)，得到多通道光流集合 M″t表示第t个帧视频与第t+1个帧视频的多通道光流，Conv2D(·)为二维卷积，其输入通道数为2，输出通道数为C′，卷积核尺寸为1×1；

[0047] (2‑4)随机初始化运动向量集合 Ot为第t个帧视频Xt对应的随机初始化运动向量，将随机初始化运动向量Ot与多通道光流M″t依次输入运动函数Motion(Ot,M″t)＝Sigmoid(Ot⊙M″t)，获得运动向量 ⊙为逐元素乘积，Sigmoid(·)为Sigmoid激活函数，将变量映射到0,1之间。

[0048] 步骤(3)构建语义权重量化模块，引入初始化的语义权重梯度张量与运动向量一并作为输入，获得语义权重Qt；具体是：构建语义权重量化模块由语义权重量化函数组成，初始化全1的语义权重梯度矩阵语义权重矩阵并与运动向量O′t输入语义权重量化函数
获得语义权重
其中α为扰动系数其大小设置为2.0/255，Φ(Xt)为预训练视频目标分割模型对第t个帧视频的预测掩膜，为更新后的语义权重梯度矩阵
表示交叉熵损失函数，Softmax(·)指Softmax函数其作用为对变量进行归一化。

[0049] 步骤(4)构建语义离散余弦筛选模块，将语义权重Qt与视频帧语义特征Zt作为输入，获得对抗性语义特征具体是：

[0050] (4‑1)构建语义离散余弦筛选模块由离散余弦变换函数、反离散余弦变换函数和阈值函数组成，将获得的第1～T个原始视频帧语义特征Zt依次输入离散余弦变换函数，获得频域语义特征 Cosine(·)表示离散余弦变换函数；

[0051] (4‑2)将语义权重Qt中每个元素qk依次输入阈值函数获得语义筛选矩阵 k表示语义权重Qt中的第k个元素，β为一个大于0的阈值系数；(4‑3)将语义筛选矩阵与频域语义特征Z′t进行逐元素乘积获得筛选频域语义特征

[0052] (4‑4)将筛选频域语义特征输入反离散余弦变换函数，获得对抗性语义特征InverseCosine(·)表示反离散余弦变换函数。

[0053] 步骤(5)固定由视频目标运动感知模块、语义权重量化模块、语义离散余弦筛选模块构成的语义攻击网络参数，使用交叉熵损失函数迭代优化对抗性语义特征，获得优化的对抗性语义特征集合具体是：

[0054] (5‑1)将对抗性语义特征输入到预训练的视频目标分割模型中间层之后所有网络结构Φl+(·)，获得预测掩膜中间层即为第l层卷积；

[0055] (5‑2)计算预测掩膜与视频帧Xt的真实掩膜Yt的交叉熵损失通过反向传播获得语义权重的梯度

[0056] (5‑3)固定由视频目标运动感知模块、语义权重量化模块、语义离散余弦筛选模块构成的语义攻击网络参数，通过随机梯度下降法对语义权重梯度矩阵H′t进行更新，获得优化的语义权重梯度H″t；

[0057] (5‑4)将优化的语义权重梯度H″t按照步骤(4)获得初始对抗性语义特征上标n表示第n次迭代优化；

[0058] (5‑5)将每次迭代获得的初始对抗性语义特征保留,获得初始对抗性语义特征集合 N表示总迭代优化次数；

[0059] (5‑6)将第1～T个视频帧Xt对应的原始语义特征Zt和对应的初始对抗性语义特征集合依次输入约束函数获得优化的对抗
性语义特征集合为每个视频帧Xt对应的优化的对抗
性语义特征，其中||·||p为Lp范数，p∈{2,∞}，ε∈{128/255,8/255}为约束Lp范数的一个阈值。

[0060] 步骤(6)将优化的对抗性语义特征集合输入视频目标分割模型中间层的后一层，并经过后续网络层，获得被攻击后的视频目标分割结果；具体是：将优化的对抗性语义特征集合输入预训练视频目标分割模型中间层后的网络结构Φl+(·)进行对抗攻击，输出攻击后的最终视频目标分割结果 Y′t为第t个视频帧对应的分割结果。

[0061] 本实施例所述的内容仅仅是对发明构思的实现形式的列举，本发明的保护范围的不应当被视为仅限于实施例所陈述的具体形式，本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

附图说明

[0036] 图1是本发明方法的流程图。

1基于离散余弦变换的视频目标分割对抗攻击方法