[0037] 以下结合附图对本发明作进一步说明。
[0038] 基于层次注意力机制的双向重构网络视频描述方法方法,重点考虑提取多尺度视频特征以充分表征视频时空结构,同时利用层次注意力机制使得构建的双向重构网络模型更加关注与已生成描述语句最相关的视频特征。主要思想是利用卷积神经网络作为编码器提取视频帧的多尺度区域特征,并利用层次注意力机制处理视频特征得到视频特征动态表示;利用长短时记忆神经网络作为解码器,通过最小化交叉熵损失函数得到词汇表单词的概率分布并据此获得生成语句;通过构建以解码器的隐藏向量为输入的双向重构网络最小化重构损失,可输出重构的视频特征。通过这种方式,可以有效地进行视频描述。
[0039] 如图1,该方法首先获取视频数据集合,然后进行如下操作:
[0040] 步骤(1).利用卷积神经网络作为编码器提取视频帧的多尺度区域特征,利用层次注意力机制处理视频特征得到视频特征动态表示。具体方法是:
[0041] (1‑1).假设给定的视频 含有n帧,其中Xi为第i帧图像,w,h,c分别表示视频帧的宽度、高度、通道数, 为视频 对应的
描述语句,L为描述语句的长度,单词Yl采取独热编码(One‑hot),V为词汇表单词的个数;
[0042] 所述的词汇表是根据所有视频对应的描述语句生成的,本实施例将出现次数大于5的单词放入词汇表;
[0043] (1‑2).利用深度卷积神经网络GoogLeNet的卷积模块inception_4e和inception_5b分别提取视频第i帧的多尺度区域特征集合,多尺度指的是把视频帧划分为14×14个浅层区域集合和7×7个深层区域集合,区域特征即为每个区域通过上述卷积模块提取的特征,浅层指的是卷积模块inception_4e位于GoogLeNet的低层,深层指的是卷积模块inception_5b位于GoogLeNet的高层;
[0044] 浅层区域特征集合表示为:
[0045] 深层区域特征集合表示为:
[0046] (1‑3).层次注意力机制包括浅层区域注意力机制、深层区域注意力机制以及帧级注意力机制。区域注意力机制是指视频描述模型能够自适应地赋予不同视频帧区域特征不同权重的机制。帧级注意力机制是指视频描述模型自适应地赋予不同视频帧特征不同权重的机制,具体是:
[0047] ①通过视频第i帧多尺度区域特征集合加权求和分别得到视频帧浅层特征和深层特征 其中,αij∈(0,1)为第i帧第j个浅层区域特征的注意力大小,βij∈(0,1)为第i帧第j个深层区域特征的注意力大小;第i帧特征 为视频帧浅层特征和深层特征的
拼接向量,浅层特征能够捕获视频帧的空间特征,深层特征能够捕获视频帧抽象语义特征,两层特征互补形成视频帧特征,更能充分表示视频帧内容;
[0048] ②对视频帧特征加权求和,得到解码器第t个LSTM单元的输入视频特征其中 f_d=1856为视频特征维度, 为解码器第t个LSTM单元第i个视频帧特征的注意力大小,反映了视频第i帧与解码器第t‑1个LSTM单元隐藏向量 的相关性,其中k为隐藏向量维度,d表示解码器。
[0049] 步骤(2).利用长短时记忆神经网络作为解码器,输入为视频特征动态表示及其文本描述,通过最小化交叉熵损失函数得到词汇表单词的概率分布并据此获得生成语句。具体方法是:
[0050] (2‑1).利用一层LSTM构建解码器,解码器第t个LSTM单元的输入分别为(1‑3)中的输入视频特征videot、第t‑1个单词Yt‑1以及解码器第t‑1个LSTM单元的隐藏向量 解码器输出为隐藏向量 其中 为单词嵌入矩阵,e表示单词嵌入维度大小,lstm(·)表示长短时记忆神经网络LSTM;
[0051] (2‑2).利用全连接层及softmax函数得到词汇表所有单词的概率分布,概率最高的单词为当前时间步预测单词,概率分布为其中 为全连接层参数,
是维度转换矩阵, softmax(·)为逻辑回归函数;
[0052] (2‑3).根据步骤(1‑3)(2‑1)(2‑2)得到下一时间步预测单词,不断循环执行,直至产生语句结束符(EOS:End of Sentence)或达到最大语句长度为止;
[0053] (2‑4).生成整个描述语句的交叉熵损失 表示为:
[0054] 其中,Y0是句子 的开始标志符(SOS:Start of Sentence),YL+1是句子 的结束标志符EOS。
[0055] 步骤(3).建立双向重构网络,输入为解码器的隐藏向量,输出为重构的视频特征。具体方法是:
[0056] (3‑1).所述的双向重构网络为一层双向长短时记忆神经网络(Bi‑LSTM),双向长短时记忆神经网络能够利用视频序列的前向和反向信息重构视频帧特征;
[0057] 所述的解码器隐藏层的注意力机制是指视频描述模型能够自适应地赋予解码器隐藏向量不同权重的机制:
[0058] (3‑2).根据解码器隐藏层的注意力机制得到双向重构网络第t个Bi‑LSTM单元的输入,即 其中, 为解码器第i个LSTM单元的隐藏向量,μti∈(0,1)为 的权重大小,反映了 与重构网络第t‑1个Bi‑LSTM单元隐藏向量的相关性;
[0059] (3‑3) .通过双向重构网络得到视频第t帧的特征重构表示 ,即其中, 为重构网络第t个Bi‑LSTM单元的隐藏向量,r表示重
构,bi_lstm(·)表示双向长短时记忆神经网络,双向重构网络的重构损失函数为其中,||·||2表示向量的L2范数,n表示视频帧数。
[0060] 步骤(4).利用随机梯度下降法优化上述网络模型,对新视频依次通过步骤(1)~(2)得到视频描述语句。具体方法是:
[0061] (4‑1).通过最小化由步骤(2‑4)描述语句的交叉熵损失 和步骤(3‑3)双向重构网络的重构损失 组成的总体损失 λ为权衡系数,取值为0.1;利用随机梯度下降法优化编码器、解码器、双向重构网络,得到视频描述模型;
[0062] (4‑2).输入新视频 依次经过步骤(1)~(2)得到视频的描述语句
[0063] 本实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围的不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。