首页 > 专利 > 杭州电子科技大学 > 基于时序高斯混合空洞卷积的语义重构视频描述方法专利详情

基于时序高斯混合空洞卷积的语义重构视频描述方法   0    0

有效专利 查看PDF
专利申请流程有哪些步骤?
专利申请流程图
申请
申请号:指国家知识产权局受理一件专利申请时给予该专利申请的一个标示号码。唯一性原则。
申请日:提出专利申请之日。
2021-06-24
申请公布
申请公布指发明专利申请经初步审查合格后,自申请日(或优先权日)起18个月期满时的公布或根据申请人的请求提前进行的公布。
申请公布号:专利申请过程中,在尚未取得专利授权之前,国家专利局《专利公报》公开专利时的编号。
申请公布日:申请公开的日期,即在专利公报上予以公开的日期。
2021-10-12
授权
授权指对发明专利申请经实质审查没有发现驳回理由,授予发明专利权;或对实用新型或外观设计专利申请经初步审查没有发现驳回理由,授予实用新型专利权或外观设计专利权。
2022-03-22
预估到期
发明专利权的期限为二十年,实用新型专利权期限为十年,外观设计专利权期限为十五年,均自申请日起计算。专利届满后法律终止保护。
2041-06-24
基本信息
有效性 有效专利 专利类型 发明专利
申请号 CN202110704646.8 申请日 2021-06-24
公开/公告号 CN113420179B 公开/公告日 2022-03-22
授权日 2022-03-22 预估到期日 2041-06-24
申请年 2021年 公开/公告年 2022年
缴费截止日
分类号 G06F16/71G06K9/00G06K9/62G06N3/04G06N3/08 主分类号 G06F16/71
是否联合申请 独立申请 文献类型号 B
独权数量 1 从权数量 4
权利要求数量 5 非专利引证数量 1
引用专利数量 1 被引证专利数量 0
非专利引证 1、2011.11.03莫凌飞等.基于深度学习的视频预测研究综述《.智能系统学报》.2018,Ping LI等.Video summarization with agraph convolutional attention network. 《Frontiers of Information Technology &Electronic Engineering》.2021,;
引用专利 US2011267544A 被引证专利
专利权维持 1 专利申请国编码 CN
专利事件 事务标签 公开、实质审查、授权
申请人信息
申请人 第一申请人
专利权人 杭州电子科技大学 当前专利权人 杭州电子科技大学
发明人 李平、张盼、蒋昕怡、徐向华 第一发明人 李平
地址 浙江省杭州市下沙高教园区2号大街 邮编 310018
申请人数量 1 发明人数量 4
申请人所在省 浙江省 申请人所在市 浙江省杭州市
代理人信息
代理机构
专利代理机构是经省专利管理局审核,国家知识产权局批准设立,可以接受委托人的委托,在委托权限范围内以委托人的名义办理专利申请或其他专利事务的服务机构。
杭州君度专利代理事务所 代理人
专利代理师是代理他人进行专利申请和办理其他专利事务,取得一定资格的人。
陈炜
摘要
本发明公开了基于时序高斯混合空洞卷积的语义重构视频描述方法。本发明方法首先对含文本描述的采样视频帧提取外观特征和动作特征,将其拼接后输入到时序高斯混合空洞卷积编码器获得时序高斯特征;然后利用两层长短时记忆神经网络构建解码器,得到生成语句概率分布和隐藏向量;再建立语义重构网络并计算语义重构损失;利用随机梯度下降算法优化模型,对新视频依次通过上述步骤获得生成语句概率分布,用贪心搜索算法获得视频描述语句。本发明方法利用时序高斯混合空洞卷积对视频长期时序关系进行建模,并通过语义重构网络获得语句级的概率分布差异,能够缩小生成语句和视频内容的语义鸿沟,从而生成更准确描述视频内容的自然语句。
  • 摘要附图
    基于时序高斯混合空洞卷积的语义重构视频描述方法
  • 说明书附图:图1
    基于时序高斯混合空洞卷积的语义重构视频描述方法
法律状态
序号 法律状态公告日 法律状态 法律状态信息
1 2022-03-22 授权
2 2021-10-12 实质审查的生效 IPC(主分类): G06F 16/71 专利申请号: 202110704646.8 申请日: 2021.06.24
3 2021-09-21 公开
权利要求
权利要求书是申请文件最核心的部分,是申请人向国家申请保护他的发明创造及划定保护范围的文件。
1.基于时序高斯混合空洞卷积的语义重构视频描述方法,其特征在于,该方法首先获取包含文本描述的视频数据集合,然后进行如下操作:
步骤(1)对原始视频均匀采样,利用卷积神经网络提取采样后视频的外观特征和动作特征,并将两种特征进行拼接,得到视频特征表示;
步骤(2)构建时序高斯混合空洞卷积编码器,输入为视频特征表示,输出为时序高斯特征;具体是:
(2‑1)构建时序高斯混合空洞卷积编码器,捕捉视频的长期时序上下文信息,该编码器由多层时序高斯混合空洞卷积层构成,编码器的卷积核用参数矩阵 表示,由M个高斯分布生成,L表示卷积核时序长度, 为实数域,该参数矩阵的第m行l列的元素表示为:
其中,
和 分别表示第m个高斯分布的均值和标准方差; 作为归一化常数,使得通过学习一组注意力权重 让多个高斯分布在时序动态之间共享,
Cout表示输出通道数量;将softmax函数应用于注意力权重得到注意力权重矩阵使得每个输出通道对应的权重之和为1,即 Aj,m表示第m个高斯分布作
用于第j个通道的注意力权重,下标j表示注意力权重矩阵W的行索引,对应通道,s表示注意力权重矩阵W的列索引;
利用卷积核 和注意力权重矩阵 获得第k个时序高斯混合卷积核
(2‑2)第一层时序高斯混合空洞卷积层的卷积核为 利用第k个时序高斯混合卷积核 对视频特征表示F进行空洞卷积操作,卷积结果 作为第一层输出结果
1
的第k个通道,最终第一层时序高斯混合空洞卷积层的输出为O,如下:
符号*表示空洞卷积操作;
(2‑3)编码器包含Q层时序高斯混合空洞卷积层,第q个时序高斯混合空洞卷积层的卷q‑1
积核为 其输入为第q‑1层的输出 对输入特征O 进行平均池化
处理,获得聚合特征 再通过一维卷积利用聚合特征计算通道权重Wc=σq‑1
(conv1d(X )), σ(·)表示sigmoid函数,conv1d(·)表示一维卷积操作;得到每q‑1
个输入通道的权重后,对O 的通道进行加权处理,获得输入特征 将第k个通道分别与第k个时序高斯空洞卷积核进行空洞卷积得到第k个输出通道的结果 继q
而得到第q层的输出O ,即 最终Q个时
序高斯混合空洞卷积层的输出为
Q
(2‑4)利用1×1大小的卷积层和ReLU激活函数对输出特征O的Cout个通道映射为单个通Q
道,获得编码器输出时序高斯特征矩阵O=ReLU(conv1d(O)), 作为包含时序信息的视频特征将被输入解码器;
步骤(3)利用两层长短时记忆神经网络构建解码器,输入为时序高斯特征和文本描述,输出为生成语句概率分布和隐藏向量,计算交叉熵损失;
步骤(4)建立语义重构网络,输入为解码器的隐藏向量,计算语义重构损失;
步骤(5)利用随机梯度下降法优化由编码器、解码器和语义重构网络组成的视频描述模型,对新视频依次通过步骤(1)~(3)得到生成语句概率分布,再利用贪心搜索算法获得视频描述语句。

2.如权利要求1所述的基于时序高斯混合空洞卷积的语义重构视频描述方法,其特征在于,步骤(1)具体是:
(1‑1)对原始视频均匀采样n个视频帧,采样后的视频 其
中,三维张量Xi为第i帧图像, 为实数域,w、h、c分别为视频帧的宽度、高度、通道数;
视频 对应的描述语句 其中,T为描述语句长度,yt为描述语
句的第t时间步的单词,V为词汇表的单词个数;
(1‑2)利用深度2D卷积神经网络GoogLeNet提取视频的外观特征 利用深度3D卷积神经网络C3D提取视频的动作特征 其中,dr、da分别为视频帧外观特征和动作特征维度大小;将外观特征和动作特征按照特征维度进行拼接,得到视频特征表示其中,视频特征维度大小d=dr+da。

3.如权利要求2所述的基于时序高斯混合空洞卷积的语义重构视频描述方法,其特征在于,步骤(3)具体是:
(3‑1)利用两层LSTM构建解码器,第一层LSTM第t时间步LSTM单元的输入为第t‑1时间步单词 以及第一层LSTM第t‑1时间步LSTM单元的隐藏向量 其输出
dh表示隐藏向量维度, 表示单词嵌入矩阵,lstm1
(×)表示第一层长短时记忆神经网络;
第二层LSTM第t时间步LSTM单元的输入为第一层LSTM第t时间步的隐藏向量 和第二层LSTM第t‑1时间步的隐藏向量 以及编码器输出的包含时序信息的视频特征O,其输出为隐藏向量 为注意力模块,βt,δ∈
(0,1)表示隐藏向量 和第δ帧视频特征Oδ的相关性大小,lstm2(·)表示第二层长短时记忆神经网络;
(3‑2)利用全连接层及softmax函数计算第t时间步的单词yt的概率分布,其概率分布向量 其中,θdecoder表示解码器参数,
表示全连接层权重矩阵和偏置向量;计算模型的交叉熵损失
其中,y0是句子 的开始标志符,yT+1是句
子 的结束标志符。

4.如权利要求3所述的基于时序高斯混合空洞卷积的语义重构视频描述方法,其特征在于,步骤(4)具体是:
(4‑1)利用两个全连接层fc1和fc2构建语义重构网络,利用解码器隐藏向量重构真实语句的概率分布;分别将解码器中的隐藏向量 和 映射为维度为V的单词概率分布向量,即 和 其中, 表
示权重矩阵, 表示偏置向量;
(4‑2)利用Kullback‑Leibler散度衡量生成语句和真实语句的概率分布差异,作为语义重构损失 即 其中,DKL(·||·)表示两
种概率分布之间的Kullback‑Leibler散度, 为真实语句概率分布, 为生成语句的概率分布,τ为词汇表的单词索引。

5.如权利要求4所述的基于时序高斯混合空洞卷积的语义重构视频描述方法,其特征在于,步骤(5)具体是:
(5‑1)视频描述模型总体损失函数为 其中,λ>0为交叉熵损失和语义
重构损失的权衡系数,利用随机梯度下降法优化由编码器、解码器和语义重构网络构成的视频描述模型;
(5‑2)输入新视频 首先依次经过步骤(1)~(3)得到第一个单词的概率分布向量为编码器输出的时序高斯特征,再通过贪心搜索算法将
最大概率对应索引的单词看作当前时刻生成的单词;
(5‑3)重复步骤(3),依次得到单词{y′2,y′3,...,y′T'},最终获得视频描述语句其中,T′为生成语句长度。
说明书

技术领域

[0001] 本发明属于计算机技术领域,尤其是计算机视觉中的视频描述领域,涉及一种基于时序高斯混合空洞卷积的语义重构视频描述方法。

背景技术

[0002] 快速发展的互联网产生了种类丰富的多媒体数据资源,比如视频、图像、音频以及文字。近年来,随着手机、摄像头等智能终端的普及和互联网带宽的大幅增长,抖音、快手等视频平台受到广大用户的喜爱,网络直播和自媒体行业快速崛起,每天都有数以万计的视频产生和传播,视频数量呈现爆炸式增长,对人们的日常生活方式产生了较大影响。在大数据时代,如何有效利用海量视频至关重要,相对于文本、图像和音频等数据而言,视频包含非常丰富的视觉内容信息。对于人类来说,准确理解视频内容比较容易,但是对于机器来讲非常具有挑战性。机器不仅需要捕捉视频中的物体、场景以及物体之间的关系,还要捕捉视频的时序依赖关系。而视频描述技术可将视频转换为文字表示,有利于机器理解视频内容。
[0003] 视频描述技术旨在自动生成自然语句对视频内容进行描述,其目标是不但能够捕捉视频中的人或物、动作、场景以及人或物之间的复杂高维关系,还能够生成符合语法规则且正确描述视频内容的语句。
[0004] 随着深度学习技术的发展,基于序列学习的编码器‑解码器视频描述方法被不断提出。编码器利用卷积神经网络(Convolutional Neural Network,CNN)提取视频特征用于表征视频内容信息,解码器采用长短时记忆神经网络(Long‑Short Time Memory,LSTM)、门控循环单元(Gated Recurrent Units,GRU)解码视频特征生成描述视频内容的自然语句。为了捕捉视频中的时序信息,相关工作利用注意力机制、LSTM或分层LSTM处理视频帧特征,其中,相关工作人员提出一种层次循环神经编码器(Hierarchical Recurrent Neural Encoder,HRNE),其将视频划分为多个短视频,将短视频输入低层LSTM得到每个短视频的特征表示,再将短视频特征表示输入高层LSTM用以捕获更长视频时序信息,高层LSTM最后一时间步的隐藏向量作为整个视频的特征表示;另外,提出分层时序模型(Hierarchical Temporal Model,HTM),通过探索全局和局部的时序结构更好的识别细粒度的目标和动作;
为了更好地捕捉长期依赖,研究人员提出基于注意力机制的密集连接长短时记忆网络(Attention‑based Densely Connected Long Short‑Term Memory,DenseLSTM),将所有先前时刻的隐藏单元连接到当前单元,这使得当前状态的更新直接与先前所有状态相关。
[0005] 上述方法的不足点主要表现在以下几个方面:(1)由于LSTM仍然存在梯度消失或者梯度爆炸问题,难以有效捕捉视频长期时序信息,不利于学习视频上下文的特征表示;(2)自然语句和视频属于两种不同结构的数据模态,难以将视频内容语义准确无误转换为自然语句,生成语句和视频内容存在语义鸿沟,现有方法常用交叉熵损失函数从单词级别角度缩小生成语句和视频的语义差异,而忽略了语句级别的语义差异。基于这些考虑,针对视频标题生成、视频检索、视障人群观看视频等实际应用场景,迫切需要设计一种既能充分捕获视频语义信息又能准确描述视频内容的视频描述方法。

发明内容

[0006] 本发明的目的就是针对现有技术的不足,提供一种基于时序高斯混合空洞卷积的语义重构视频描述方法,既能捕捉视频长期时序信息、减少模型训练参数量,又能缩小视频内容和生成语句的语义差异,生成自然流畅的视频描述语句。
[0007] 本发明方法对给定含文本描述的视频数据集合后,依次进行如下操作:
[0008] 步骤(1)对原始视频均匀采样,利用卷积神经网络提取采样后视频的外观特征和动作特征,并将两种特征进行拼接,得到视频特征表示;
[0009] 步骤(2)构建时序高斯混合空洞卷积编码器,输入为视频特征表示,输出为时序高斯特征;
[0010] 步骤(3)利用两层长短时记忆神经网络构建解码器,输入为时序高斯特征和文本描述,输出为生成语句概率分布和隐藏向量,计算交叉熵损失;
[0011] 步骤(4)建立语义重构网络,输入为解码器的隐藏向量,计算语义重构损失;
[0012] 步骤(5)利用随机梯度下降法优化由编码器、解码器和语义重构网络组成的视频描述模型,对新视频依次通过步骤(1)~(3)得到生成语句概率分布,再利用贪心搜索算法获得视频描述语句。
[0013] 进一步,步骤(1)具体是:
[0014] (1‑1)对原始视频均匀采样n个视频帧,采样后的视频其中,三维张量Xi为第i帧图像, 为实数域,w、h、c分别为视频帧的宽度、高度、通道数;
[0015] 视频 对应的描述语句 其中,T为描述语句长度,yt为描述语句的第t时间步的单词,V为词汇表的单词个数;
[0016] (1‑2)利用深度2D卷积神经网络GoogLeNet提取视频的外观特征 利用深度3D卷积神经网络C3D提取视频的动作特征 其中,dr、da分别为视频帧外观特征和动作特征维度大小;将外观特征和动作特征按照特征维度进行拼接,得到视频特征表示其中,视频特征维度大小d=dr+da。
[0017] 再进一步,步骤(2)具体是:
[0018] (2‑1)构建时序高斯混合空洞卷积编码器,捕捉视频的长期时序上下文信息,该编码器由多层时序高斯混合空洞卷积层构成,编码器的卷积核用参数矩阵 表示,由M个高斯分布生成,L表示卷积核时序长度,该参数矩阵的第m行l列的元素表示为:
[0019] 其中,和 分别表示第m个高斯分布的均值和标准方差; 作为归一化常数,使得通过学习一组注意力权重 让多个高斯分布在时序动态之间共享,
Cout表示输出通道数量;将softmax函数应用于注意力权重得到注意力权重矩阵使得每个输出通道对应的权重之和为1,即 Aj,m表示第m个高斯分布作
用于第j个通道的注意力权重,下标j表示注意力权重矩阵W的行索引,对应通道,s表示注意力权重矩阵W的列索引;
[0020] 利用卷积核 和注意力权重矩阵 获得第k个时序高斯混合卷积核
[0021] (2‑2)第一层时序高斯混合空洞卷积层的卷积核为 利用第k个时序高斯混合卷积核 对视频特征表示F进行空洞卷积操作,卷积结果 作为第一层输出1
结果的第k个通道,最终第一层时序高斯混合空洞卷积层的输出为O,如下:
[0022] 符号*表示空洞卷积操作;
[0023] (2‑3)编码器包含Q层时序高斯混合空洞卷积层,第q个时序高斯混合空洞卷积层q‑1的卷积核为 其输入为第q‑1层的输出 对输入特征O 进行平均
池化处理,获得聚合特征 再通过一维卷积利用聚合特征计算通道权重Wc=σq‑1
(conv1d(X )), σ(·)表示sigmoid函数,conv1d(·)表示一维卷积操作;得到q‑1
每个输入通道的权重后,对O 的通道进行加权处理,获得输入特征 将第k个通道分别与第k个时序高斯空洞卷积核进行空洞卷积得到第k个输出通道的结果q
继而得到第q层的输出O ,即 最终Q个
时序高斯混合空洞卷积层的输出为
[0024] (2‑4)利用1×1大小的卷积层和ReLU激活函数对输出特征OQ的Cout个通道映射为Q单个通道,获得编码器输出时序高斯特征矩阵O=ReLU(conv1d(O)), 作为包含时序信息的视频特征将被输入解码器。
[0025] 更进一步,步骤(3)具体是:
[0026] (3‑1)利用两层LSTM构建解码器,第一层LSTM第t时间步LSTM单元的输入为第t‑1时间步单词 以及第一层LSTM第t‑1时间步LSTM单元的隐藏向量 其输出dh表示隐藏向量维度, 表示单词嵌入矩阵,lstm1
(·)表示第一层长短时记忆神经网络;
[0027] 第二层LSTM第t时间步LSTM单元的输入为第一层LSTM第t时间步的隐藏向量 和第二层LSTM第t‑1时间步的隐藏向量 以及编码器输出的包含时序信息的视频特征O,其输出为隐藏向量 为注意力模块,βt,δ∈(0,1)表示隐藏向量 和第δ帧视频特征Oδ的相关性大小,lstm2(·)表示第二层长短时记忆神经网络;
[0028] (3‑2)利用全连接层及softmax函数计算第t时间步的单词yt的概率分布,其概率分布向量 其中,θdecoder表示解码器参数,表示全连接层权重矩阵和偏置向量;计算模型的交叉熵损失
其中,y0是句子 的开始标志符,yT+1是句子
的结束标志符。
[0029] 又进一步,步骤(4)具体是:
[0030] (4‑1)利用两个全连接层fc1和fc2构建语义重构网络,利用解码器隐藏向量重构真实语句的概率分布;分别将解码器中的隐藏向量 和 映射为维度为V的单词概率分布向量,即 和 其中,表示权重矩阵, 表示偏置向量;
[0031] (4‑2)利用Kullback‑Leibler散度衡量生成语句和真实语句的概率分布差异,作为语义重构损失 即 其中,DKL(·||·)表示两种概率分布之间的Kullback‑Leibler散度, 为真实语句概率分布, 为生成语句的概率分布,τ为词汇表的单词索引。
[0032] 还进一步,步骤(5)具体是:
[0033] (5‑1)视频描述模型总体损失函数为 其中,λ>0为交叉熵损失和语义重构损失的权衡系数,利用随机梯度下降法优化由编码器、解码器和语义重构网络构成的视频描述模型;
[0034] (5‑2)输入新视频 首先依次经过步骤(1)~(3)得到第一个单词的概率分布向量 为编码器输出的时序高斯特征,再通过贪心搜索算法将最大概率对应索引的单词看作当前时刻生成的单词;
[0035] (5‑3)重复步骤(3),依次得到单词{y′2,y′3,...,y′T'},最终获得视频描述语句其中,T′为生成语句长度。
[0036] 本发明提出了一种基于时序高斯混合空洞卷积的语义重构视频描述方法,该方法具有以下几个特点:1)利用时序高斯混合空洞卷积层在视频特征时序维度上进行空洞卷积操作,能够有效捕捉视频时序信息;2)通过重构真实语句的概率分布,缩小生成语句和视频的语义差异,促使模型生成语义更准确的语句。
[0037] 本发明针对生成语句与视频内容存在语义差异问题,具有以下几个优点:1)利用时序高斯混合空洞卷积对视频长期时序关系进行建模,并利用高斯分布初始化卷积核参数使得其训练参数量为常数,与卷积核尺寸无关,从而减少模型训练参数量;2)利用全连接层构建语义重构网络,将生成语句和真实语句映射至语义空间,通过Kullback‑Leibler散度衡量真实语句和生成语句间的语句级别概率分布差异,从而缩小生成语句和视频内容的语义差异。这为视频标题生成、视频检索、视障人群观看视频等实际应用场景奠定了基础。

实施方案

[0039] 以下结合附图对本发明作进一步说明。
[0040] 如图1,基于时序高斯混合空洞卷积的语义重构视频描述方法,该方法首先对原始视频进行均匀采样,利用卷积神经网络提取外观特征和动作特征,并按照特征维度进行拼接得到视频特征;构建时序高斯混合空洞卷积编码器得到时序高斯视频特征;再将时序高斯特征和文本描述输入解码器,输出为生成语句概率分布和隐藏向量;然后建立语义重构网络,并计算语义重构损失;利用随机梯度下降法优化由编码器、解码器和语义重构网络组成的视频描述模型;对新视频利用优化后的模型生成其描述语句。该方法利用时序高斯混合空洞卷积捕捉视频长期时序信息,又通过语义重构网络缩小视频内容和生成语句的语义差异,从而生成语义准确的描述语句。
[0041] 本发明方法对给定含文本描述的视频数据集合后,依次进行如下操作:
[0042] 步骤(1)对原始视频均匀采样,利用卷积神经网络提取采样后视频的外观特征和动作特征,并将两种特征进行拼接,得到视频特征表示;具体如下:
[0043] (1‑1)对原始视频均匀采样n个视频帧,采样后的视频其中,三维张量Xi为第i帧图像, 为实数域,w、h、c分别为视频帧的宽度、高度、通道数;
[0044] 视频 对应的描述语句 其中,T为描述语句长度,yt为采取独热编码(one‑hot)方式描述语句的第t时间步的单词,V为词汇表的单词个数,词汇表是根据所有视频对应的描述语句生成的,一般将出现次数大于5的单词放入词汇表;
[0045] (1‑2)利用深度2D卷积神经网络GoogLeNet提取视频的外观特征 利用深度3D卷积神经网络C3D提取视频的动作特征 其中,dr、da分别为视频帧外观特征和动作特征维度大小;将外观特征和动作特征按照特征维度进行拼接,得到视频特征表示其中,视频特征维度大小d=dr+da。
[0046] 步骤(2)构建时序高斯混合空洞卷积编码器,输入为视频特征表示,输出为时序高斯特征;具体如下:
[0047] (2‑1)构建时序高斯混合空洞卷积编码器,捕捉视频的长期时序上下文信息,该编码器由多层时序高斯混合空洞卷积层构成;所述的时序高斯混合空洞卷积层是指空洞卷积层沿着视频时序维度上计算且卷积核参数符合混合高斯分布;所述的空洞卷积属于一种卷积操作,即在卷积核参数之间加入一些零元素来扩大卷积核;编码器的卷积核用参数矩阵表示,其由M个高斯分布生成,L表示卷积核时序长度,该参数矩阵的第m行l列的元素表示为:
[0048]
[0049] 其中, 和 分别表示第m个高斯分布的均值和标准方差; 作为归一化常数,使得 通过学习一组注意
力权重 让多个高斯分布在时序动态之间共享,Cout表示输出通道数量;同时,将softmax函数应用于注意力权重得到注意力权重矩阵 使得每个输出通道对应的权重之和为1,即 Aj,m表示第m个高斯分布作用于第j个通道的注意力
权重,下标j表示注意力权重矩阵W的行索引,对应通道,s表示注意力权重矩阵W的列索引;
[0050] 利用卷积核 和注意力权重矩阵 获得第k个时序高斯混合卷积核
[0051] (2‑2)第一层时序高斯混合空洞卷积层的卷积核为 利用第k个时序高斯混合卷积核 对视频特征表示F进行空洞卷积操作,卷积结果 作为第一层输出结果的第k个通道,通道索引与卷积核一一对应,最终第一层时序高斯混合空洞卷积层的输1
出为O,如下:
[0052] 符号*表示空洞卷积操作;
[0053] (2‑3)编码器包含Q层时序高斯混合空洞卷积层,第q个时序高斯混合空洞卷积层的卷积核为 其输入为第q‑1层的输出 为了能够利用更多输入通q‑1
道信息,首先对输入特征O 进行平均池化处理,获得聚合特征 再通过一维卷积q‑1
利用聚合特征计算通道权重Wc=σ(conv1d(X )), σ(·)表示sigmoid函数,q‑1
conv1d(·)表示一维卷积操作;得到每个输入通道的权重后,对O 的通道进行加权处理,获得输入特征 将第k个通道分别与第k个时序高斯空洞卷积核进行空洞卷积q
得到第k个输出通道的结果 继而得到第q层的输出O ,即
最终Q个时序高斯混合空洞卷积层的输出为
[0054] (2‑4)为了融合多个输出通道特征,利用1×1大小的卷积层和ReLU激活函数对输Q出特征O 的Cout个通道映射为单个通道,获得编码器输出时序高斯特征矩阵O=ReLUQ
(conv1d(O)), 作为包含时序信息的视频特征将被输入解码器。
[0055] 步骤(3)利用两层长短时记忆神经网络构建解码器,输入为时序高斯特征和文本描述,输出为生成语句概率分布和隐藏向量,计算交叉熵损失;具体如下:
[0056] (3‑1)为了生成描述语句,利用两层LSTM构建解码器,第一层LSTM第t时间步LSTM单元的输入为第t‑1时间步单词 以及第一层LSTM第t‑1时间步LSTM单元的隐藏向量 其输出 dh表示隐藏向量维度, 表示单词嵌入矩阵,lstm1(·)表示第一层长短时记忆神经网络;
[0057] 第二层LSTM第t时间步LSTM单元的输入为第一层LSTM第t时间步的隐藏向量 和第二层LSTM第t‑1时间步的隐藏向量 以及编码器输出的包含时序信息的视频特征O,其输出为隐藏向量 为注意力模1
块,βt,δ∈(0,1)表示隐藏向量ht和第δ帧视频特征Oδ的相关性大小,lstm2(·)表示第二层长短时记忆神经网络;
[0058] (3‑2)利用全连接层及softmax函数计算第t时间步的单词yt的概率分布,其概率分布向量 其中,θdecoder表示解码器参数,表示全连接层权重矩阵和偏置向量;计算模型的交叉熵损失
其中,y0是句子 的开始标志符(Start of 
Sentence,SOS),yT+1是句子y的结束标志符(End of Sentence,EOS)。
[0059] 步骤(4)建立语义重构网络,输入为解码器的隐藏向量,计算语义重构损失;具体如下:
[0060] (4‑1)为了缩小生成语句和视频内容的语义差异,利用两个全连接层fc1和fc2构建语义重构网络,利用解码器隐藏向量重构真实语句的概率分布,由于第一层LSTM的输入为真实语句,其隐藏向量包含了真实语句的语义信息,而第二层LSTM的隐藏向量用来预测单词概率分布,可视为包含生成语句的语义信息,因此,分别将解码器中的隐藏向量 和映射为维度为V的单词概率分布向量,即 和其中, 表示权重矩阵, 表示偏置向量;
[0061] (4‑2)利用Kullback‑Leibler散度衡量生成语句和真实语句的概率分布差异,作为语义重构损失 即 其中,DKL(·||·)表示两种概率分布之间的Kullback‑Leibler散度, 为真实语句概率分布, 为生成语句的概率分布,τ为词汇表的单词索引。
[0062] 步骤(5)利用随机梯度下降法优化由编码器、解码器和语义重构网络组成的视频描述模型,对新视频依次通过步骤(1)~(3)得到生成语句概率分布,再利用贪心搜索算法获得视频描述语句;具体如下:
[0063] (5‑1)视频描述模型总体损失函数为 其中,λ>0为交叉熵损失和语义重构损失的权衡系数,取值为0.5,利用随机梯度下降法优化由编码器、解码器和语义重构网络构成的视频描述模型;
[0064] (5‑2)输入新视频 首先依次经过步骤(1)~(3)得到第一个单词的概率分布向量 为编码器输出的时序高斯特征,再通过贪心搜索算法将最大概率对应索引的单词看作当前时刻生成的单词;
[0065] (5‑3)重复步骤(3),依次得到单词{y′2,y′3,...,y′T'},最终获得视频描述语句其中,T′为生成语句长度。
[0066] 本实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围的不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

附图说明

[0038] 图1是本发明方法的流程图。
版权所有:盲专网 ©2023 zlpt.xyz  蜀ICP备2023003576号