[0005] 本发明的目的就是针对现有技术的不足,提供一种基于尺度注意力空洞卷积网络的视频动作检测方法,可以结合空洞卷积网络捕捉视频数据的时空运动信息,并通过尺度注意力准确刻画视频帧的时序上下文关系,从而有效检测视频中动作片段并准确判定其类别。
[0006] 本发明方法首先获取视频数据集合,然后进行以下操作:
[0007] 步骤(1).对视频采样处理,获得帧图像序列,并根据片段位置标记获得视频片段;
[0008] 步骤(2).构建层尺度注意力动作片段模型,输入为完整视频的帧图像序列,输出为完整的视频帧图像的加权特征表示及各帧是否为动作帧的概率;
[0009] 步骤(3).构建帧位置注意力动作识别模型,输入为视频片段帧图像的加权特征表示,输出为视频片段所属动作类别的概率;
[0010] 步骤(4).对新视频根据层尺度注意力动作片段模型和分水岭算法生成视频片段,并由帧位置注意力动作识别模型判定片段动作类别,获得动作检测结果。
[0011] 进一步,步骤(1)具体是:
[0012] (1 ‑ 1) .对 单 个视 频以 每 秒i帧 的 采样 率处 理 为帧 图像 序 列其中N表示帧图像总数,fn表示序列中第n幅宽为w高为h的RGB三通道帧图像,n=1,2,…,N,i=20~40;
[0013] (1‑2).根据视频片段位置标记 获取视频片段,包括动作片段和背景片段;其中视频片段的类别 J为动作类别数目,j=0,1,2,…,J,j≠0时为动作类别序号,j=0时为背景类别序号;M为动作片段和背景片段的总数目,对于第m个视频片段,sm是该片段开始帧序号,em是该片段结束帧序号,cm是该片段对应的类别,m=1,2,…,M。
[0014] 再进一步,步骤(2)具体是:
[0015] (2‑1).以视频帧为单位逐帧处理完整视频的帧图像序列,由视频片段位置标记分别获得动作片段和背景片段的开始帧序号和结束帧序号,对动作片段内的视频帧记为动作帧,对背景片段内的视频帧记为背景帧;
[0016] (2‑2).层尺度注意力动作片段模型 以考虑时序关系的多层空洞卷积神经网络为主干,首先通过从低层到高层逐帧处理的方式依次获取帧图像序列 各帧不同尺度的上下文特征表示,即第t帧图像在第k层的特征表示为 其中ck是第k层的通道数,wk和hk分别是第k层特征表示的宽和高;然后通过层尺度注意力机制获得完整视频的加权特征表示 其中第t帧图像的加权特征表示为 是第k层的尺度注意力权重, K是多层空洞卷积网络的总层数,K≥2;
[0017] (2‑3).将第t帧图像的加权特征表示St经过全连接层后的输出向量 作为层尺度注意力动作片段模型 的最后一层的输入,该层采用Softmax(·)函数输出视频帧是否属于动作帧的概率 h=0,1,其中e表示自然底数,y0是背景帧的概率,y1是动作帧的概率,Zq表示向量Z的第q个元素,并将第n个视频帧是否属于动作帧的概率记为之后计算模型的交叉熵损失函数 其中 为真实标记, 表示该帧为动作帧, 表示该帧为背景帧;利用随机梯度下降算法优化训练层尺度注意力动作片段模型,通过反向梯度传播更新模型参数。
[0018] 更进一步,步骤(3)具体是:
[0019] (3‑1).依次从完整视频的加权特征表示 中利用视频片段位置标记L的开始帧序号和结束帧序号获取各视频片段的加权特征表示 m=1,…,M;
[0020] (3‑2).帧位置注意力动作识别模型 以考虑帧位置注意力机制的多层神经网络为主干,其输入为视频片段各帧的加权特征表示 该模型通过计算帧位置注意力获得视频片段的加权特征表示 其中 是第t帧的位置注意力权重,
[0021] (3‑3).将视频片段的加权特征表示Xm经过全连接层后的输出向量 作为帧位置注意力动作识别模型 的最后一层的输入,该层采用Softmax(·)函数输出为视频片段所属动作类别j的概率 j=1,2,…,J,以及属于背景类别的概率然后计算模型的交叉熵损失 其中 是真实标记,若视频
片段属于类别j则为1,否则为0;利用随机梯度下降算法优化训练帧位置注意力动作识别模型,通过反向梯度传播更新模型参数。
[0022] 又进一步,步骤(4)具体是:
[0023] (4‑1).对于新视频利用(1‑1)获得其帧图像序列 将该序列输入步骤(2)的层尺度注意力动作片段模型 并通过(2‑3)计算得到视频帧图像序列是否属于动作帧的概率序列 然后对此概率序列使用基于多层次浸没的分水岭算法,即概率值高于设定阈值τ,τ=0~1,且时序连续的视频帧聚合成为视频片段;同时用多个不同0~1范围的阈值生成不同长短的M′个视频片段,及其开始帧序号s′和结束帧序号e′;
[0024] (4‑2).将(4‑1)的视频片段帧图像序列输入步骤(3)的帧位置注意力动作识别模型 得到视频片段中的帧图像属于各类别的概率 并将最大概率值对应的类别作为视频片段所属的类别c';对判定为某个具体动作的视频片段输出其开始帧序号和结束帧序号;
[0025] (4‑3).对新视频先经过(4‑1)获得视频片段,然后经过(4‑2)获得视频动作检测结果 其中m'是视频片段的序号,M′是检测到的动作片段总数,s'm'表示该片段开始帧序号,e'm'表示该片段的结束帧序号,c'm'表示该片段的动作类别。
[0026] 本发明方法利用尺度注意力空洞卷积网络进行视频动作检测,不同于现有方法的主要表现有几方面:1)相比时序动作定位网络使用多尺度并行结构,该方法使用多层串行结构的空洞卷积层,在实现多尺度上下文特征提取的同时降低了网络结构冗余;2)三维卷积神经网络为骨干的方法往往进行时序下采样信息的提取,该方法提出用空洞卷积神经网络在原始视频帧的细粒度水平进行上下文特征的提取;3)该方法提出从尺度与位置两种角度出发,结合注意力机制更好地提取视频帧和视频片段对应的时序特征信息;4)在动作片段生成阶段使用基于多层次浸没的分水岭算法,能够并行地生成动作片段,执行效率比很多现有方法更高。
[0027] 本发明适用于基于深度学习方法的视频动作检测任务,其主要优点在于:1)结合空洞卷积网络,不仅提取了能够更好反映视频数据时间维度和空间维度本征结构的时空运动信息,还为特征保留了帧级别的细粒度;2)使用层尺度注意力机制,通过改变刻画当前帧的时序上下文关系的尺度大小为每一帧选择恰当特征表示;3)使用帧位置注意力机制,通过为每个动作片段内的视频帧添加权重以准确反映其特征表示。该方法从多个角度出发为视频动作检测任务性能的提升提供了科学合理的方案,可广泛应用于安防监控、行为分析、视频摘要、事件检测等实际应用场景。