[0039] 以下结合附图对本发明作进一步说明。
[0040] 如图1,基于时序高斯混合空洞卷积的语义重构视频描述方法,该方法首先对原始视频进行均匀采样,利用卷积神经网络提取外观特征和动作特征,并按照特征维度进行拼接得到视频特征;构建时序高斯混合空洞卷积编码器得到时序高斯视频特征;再将时序高斯特征和文本描述输入解码器,输出为生成语句概率分布和隐藏向量;然后建立语义重构网络,并计算语义重构损失;利用随机梯度下降法优化由编码器、解码器和语义重构网络组成的视频描述模型;对新视频利用优化后的模型生成其描述语句。该方法利用时序高斯混合空洞卷积捕捉视频长期时序信息,又通过语义重构网络缩小视频内容和生成语句的语义差异,从而生成语义准确的描述语句。
[0041] 本发明方法对给定含文本描述的视频数据集合后,依次进行如下操作:
[0042] 步骤(1)对原始视频均匀采样,利用卷积神经网络提取采样后视频的外观特征和动作特征,并将两种特征进行拼接,得到视频特征表示;具体如下:
[0043] (1‑1)对原始视频均匀采样n个视频帧,采样后的视频其中,三维张量Xi为第i帧图像, 为实数域,w、h、c分别为视频帧的宽度、高度、通道数;
[0044] 视频 对应的描述语句 其中,T为描述语句长度,yt为采取独热编码(one‑hot)方式描述语句的第t时间步的单词,V为词汇表的单词个数,词汇表是根据所有视频对应的描述语句生成的,一般将出现次数大于5的单词放入词汇表;
[0045] (1‑2)利用深度2D卷积神经网络GoogLeNet提取视频的外观特征 利用深度3D卷积神经网络C3D提取视频的动作特征 其中,dr、da分别为视频帧外观特征和动作特征维度大小;将外观特征和动作特征按照特征维度进行拼接,得到视频特征表示其中,视频特征维度大小d=dr+da。
[0046] 步骤(2)构建时序高斯混合空洞卷积编码器,输入为视频特征表示,输出为时序高斯特征;具体如下:
[0047] (2‑1)构建时序高斯混合空洞卷积编码器,捕捉视频的长期时序上下文信息,该编码器由多层时序高斯混合空洞卷积层构成;所述的时序高斯混合空洞卷积层是指空洞卷积层沿着视频时序维度上计算且卷积核参数符合混合高斯分布;所述的空洞卷积属于一种卷积操作,即在卷积核参数之间加入一些零元素来扩大卷积核;编码器的卷积核用参数矩阵表示,其由M个高斯分布生成,L表示卷积核时序长度,该参数矩阵的第m行l列的元素表示为:
[0048]
[0049] 其中, 和 分别表示第m个高斯分布的均值和标准方差; 作为归一化常数,使得 通过学习一组注意
力权重 让多个高斯分布在时序动态之间共享,Cout表示输出通道数量;同时,将softmax函数应用于注意力权重得到注意力权重矩阵 使得每个输出通道对应的权重之和为1,即 Aj,m表示第m个高斯分布作用于第j个通道的注意力
权重,下标j表示注意力权重矩阵W的行索引,对应通道,s表示注意力权重矩阵W的列索引;
[0050] 利用卷积核 和注意力权重矩阵 获得第k个时序高斯混合卷积核
[0051] (2‑2)第一层时序高斯混合空洞卷积层的卷积核为 利用第k个时序高斯混合卷积核 对视频特征表示F进行空洞卷积操作,卷积结果 作为第一层输出结果的第k个通道,通道索引与卷积核一一对应,最终第一层时序高斯混合空洞卷积层的输1
出为O,如下:
[0052] 符号*表示空洞卷积操作;
[0053] (2‑3)编码器包含Q层时序高斯混合空洞卷积层,第q个时序高斯混合空洞卷积层的卷积核为 其输入为第q‑1层的输出 为了能够利用更多输入通q‑1
道信息,首先对输入特征O 进行平均池化处理,获得聚合特征 再通过一维卷积q‑1
利用聚合特征计算通道权重Wc=σ(conv1d(X )), σ(·)表示sigmoid函数,q‑1
conv1d(·)表示一维卷积操作;得到每个输入通道的权重后,对O 的通道进行加权处理,获得输入特征 将第k个通道分别与第k个时序高斯空洞卷积核进行空洞卷积q
得到第k个输出通道的结果 继而得到第q层的输出O ,即
最终Q个时序高斯混合空洞卷积层的输出为
[0054] (2‑4)为了融合多个输出通道特征,利用1×1大小的卷积层和ReLU激活函数对输Q出特征O 的Cout个通道映射为单个通道,获得编码器输出时序高斯特征矩阵O=ReLUQ
(conv1d(O)), 作为包含时序信息的视频特征将被输入解码器。
[0055] 步骤(3)利用两层长短时记忆神经网络构建解码器,输入为时序高斯特征和文本描述,输出为生成语句概率分布和隐藏向量,计算交叉熵损失;具体如下:
[0056] (3‑1)为了生成描述语句,利用两层LSTM构建解码器,第一层LSTM第t时间步LSTM单元的输入为第t‑1时间步单词 以及第一层LSTM第t‑1时间步LSTM单元的隐藏向量 其输出 dh表示隐藏向量维度, 表示单词嵌入矩阵,lstm1(·)表示第一层长短时记忆神经网络;
[0057] 第二层LSTM第t时间步LSTM单元的输入为第一层LSTM第t时间步的隐藏向量 和第二层LSTM第t‑1时间步的隐藏向量 以及编码器输出的包含时序信息的视频特征O,其输出为隐藏向量 为注意力模1
块,βt,δ∈(0,1)表示隐藏向量ht和第δ帧视频特征Oδ的相关性大小,lstm2(·)表示第二层长短时记忆神经网络;
[0058] (3‑2)利用全连接层及softmax函数计算第t时间步的单词yt的概率分布,其概率分布向量 其中,θdecoder表示解码器参数,表示全连接层权重矩阵和偏置向量;计算模型的交叉熵损失
其中,y0是句子 的开始标志符(Start of
Sentence,SOS),yT+1是句子y的结束标志符(End of Sentence,EOS)。
[0059] 步骤(4)建立语义重构网络,输入为解码器的隐藏向量,计算语义重构损失;具体如下:
[0060] (4‑1)为了缩小生成语句和视频内容的语义差异,利用两个全连接层fc1和fc2构建语义重构网络,利用解码器隐藏向量重构真实语句的概率分布,由于第一层LSTM的输入为真实语句,其隐藏向量包含了真实语句的语义信息,而第二层LSTM的隐藏向量用来预测单词概率分布,可视为包含生成语句的语义信息,因此,分别将解码器中的隐藏向量 和映射为维度为V的单词概率分布向量,即 和其中, 表示权重矩阵, 表示偏置向量;
[0061] (4‑2)利用Kullback‑Leibler散度衡量生成语句和真实语句的概率分布差异,作为语义重构损失 即 其中,DKL(·||·)表示两种概率分布之间的Kullback‑Leibler散度, 为真实语句概率分布, 为生成语句的概率分布,τ为词汇表的单词索引。
[0062] 步骤(5)利用随机梯度下降法优化由编码器、解码器和语义重构网络组成的视频描述模型,对新视频依次通过步骤(1)~(3)得到生成语句概率分布,再利用贪心搜索算法获得视频描述语句;具体如下:
[0063] (5‑1)视频描述模型总体损失函数为 其中,λ>0为交叉熵损失和语义重构损失的权衡系数,取值为0.5,利用随机梯度下降法优化由编码器、解码器和语义重构网络构成的视频描述模型;
[0064] (5‑2)输入新视频 首先依次经过步骤(1)~(3)得到第一个单词的概率分布向量 为编码器输出的时序高斯特征,再通过贪心搜索算法将最大概率对应索引的单词看作当前时刻生成的单词;
[0065] (5‑3)重复步骤(3),依次得到单词{y′2,y′3,...,y′T'},最终获得视频描述语句其中,T′为生成语句长度。
[0066] 本实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围的不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。