首页 > 专利 > 杭州电子科技大学 > 一种基于层次注意力机制的双向重构网络视频描述方法专利详情

一种基于层次注意力机制的双向重构网络视频描述方法 0 0

有效专利查看PDF

申请进展

基本信息

申请人信息

代理人信息

摘要

法律状态

权利要求

说明书

专利申请流程有哪些步骤？

申请

申请号：指国家知识产权局受理一件专利申请时给予该专利申请的一个标示号码。唯一性原则。

申请日：提出专利申请之日。

2019-10-30

申请公布

申请公布指发明专利申请经初步审查合格后，自申请日（或优先权日）起18个月期满时的公布或根据申请人的请求提前进行的公布。

申请公布号：专利申请过程中，在尚未取得专利授权之前，国家专利局《专利公报》公开专利时的编号。

申请公布日：申请公开的日期，即在专利公报上予以公开的日期。

2020-04-21

授权

授权指对发明专利申请经实质审查没有发现驳回理由，授予发明专利权；或对实用新型或外观设计专利申请经初步审查没有发现驳回理由，授予实用新型专利权或外观设计专利权。

2021-04-20

预估到期

发明专利权的期限为二十年，实用新型专利权期限为十年，外观设计专利权期限为十五年，均自申请日起计算。专利届满后法律终止保护。

2039-10-30

基本信息

有效性	有效专利	专利类型	发明专利
申请号	CN201911045154.1	申请日	2019-10-30
公开/公告号	CN110929587B	公开/公告日	2021-04-20
授权日	2021-04-20	预估到期日	2039-10-30
申请年	2019年	公开/公告年	2021年
缴费截止日
分类号	G06K9/00 、G06N3/04	主分类号	G06K9/00
是否联合申请	独立申请	文献类型号	B
独权数量	1	从权数量	4
权利要求数量	5	非专利引证数量	1
引用专利数量	2	被引证专利数量	0
非专利引证	1、2019.04.25王柏瑞.基于重构特征的视频语义描述生成方法研究《.中国优秀硕士学位论文全文数据库信息科技辑》.2019,Haifeng Sang 等.Two-Level AttentionModel Based Video Action RecognitionNetwork《.IEEE Access》.2019,第7卷;
引用专利	US2019130204A、US2019122373A	被引证专利
专利权维持	3	专利申请国编码	CN
专利事件		事务标签	公开、实质审查、授权

申请人信息

申请人	杭州电子科技大学	第一申请人	杭州电子科技大学
专利权人	杭州电子科技大学	当前专利权人	杭州电子科技大学
发明人	李平、张盼、胡海洋、徐向华	第一发明人	李平
地址	浙江省杭州市下沙高教园区2号大街	邮编	310018
申请人数量	1	发明人数量	4
申请人所在省	浙江省	申请人所在市	浙江省杭州市

代理人信息

代理机构

专利代理机构是经省专利管理局审核，国家知识产权局批准设立，可以接受委托人的委托，在委托权限范围内以委托人的名义办理专利申请或其他专利事务的服务机构。

杭州君度专利代理事务所

代理人

专利代理师是代理他人进行专利申请和办理其他专利事务，取得一定资格的人。

杨舟涛

摘要

本发明公开了一种基于层次注意力机制的双向重构网络视频描述方法。本发明方法首先利用卷积神经网络作为编码器提取视频帧的多尺度区域特征，并利用层次注意力机制处理视频特征得到视频特征动态表示；其次，利用长短时记忆神经网络作为解码器，以视频特征动态表示及其文本描述为输入，通过最小化交叉熵损失函数得到词汇表单词的概率分布并据此获得生成语句；再次，通过构建以解码器的隐藏向量为输入的双向重构网络，最小化重构损失，可输出重构的视频特征，使得生成的文本描述和视频内容具有很高的语义相似性。本发明能有效提取多尺度视频特征反映视频时空结构，减少无关信息干扰，挖掘潜在视频语义信息，生成更准确更自然流畅的视频内容描述。

摘要附图

法律状态

序号	法律状态公告日	法律状态	法律状态信息
1	2021-04-20	授权
2	2020-04-21	实质审查的生效	IPC(主分类): G06K 9/00 专利申请号: 201911045154.1 申请日: 2019.10.30
3	2020-03-27	公开

权利要求

权利要求书是申请文件最核心的部分，是申请人向国家申请保护他的发明创造及划定保护范围的文件。

1.一种基于层次注意力机制的双向重构网络视频描述方法，其特征在于，该方法首先获取视频数据集合，然后进行如下操作：
步骤(1).利用卷积神经网络作为编码器提取视频帧的多尺度区域特征，利用层次注意力机制处理视频特征得到视频特征动态表示；具体方法是：
(1‑1).假设给定的视频含有n帧，其中Xi为第i帧图像，w,
h,c分别表示视频帧的宽度、高度、通道数；为视频对应的描述语
句，L为描述语句的长度，单词Yl采取独热编码，V为词汇表单词的个数；
(1‑2).利用深度卷积神经网络GoogLeNet的卷积模块inception_4e和inception_5b分别提取视频第i帧的多尺度区域特征集合；
所述的多尺度是将视频帧划分为14×14个浅层区域集合和7×7个深层区域集合，区域特征即为每个区域通过所述卷积模块提取的特征；
浅层区域特征集合表示为：
深层区域特征集合表示为：
(1‑3).层次注意力机制包括区域注意力机制和帧级注意力机制；
所述的区域注意力机制包括浅层区域注意力机制和深层区域注意力机制，是指视频描述模型能够自适应地赋予不同视频帧区域特征不同权重的机制；
所述的帧级注意力机制是指视频描述模型自适应地赋予不同视频帧特征不同权重的机制；
步骤(2).利用长短时记忆神经网络作为解码器，输入为视频特征动态表示及其文本描述，通过最小化交叉熵损失函数得到词汇表单词的概率分布并据此获得生成语句；
步骤(3).建立双向重构网络，输入为解码器的隐藏向量，输出为重构的视频特征；
步骤(4).利用随机梯度下降法优化上述网络模型，对新视频依次通过步骤(1)～(2)得到视频描述语句。

2.如权利要求1所述的一种基于层次注意力机制的双向重构网络视频描述方法，其特征在于，步骤(2)具体方法是：
(2‑1).利用一层LSTM构建解码器，解码器第t个LSTM单元的输入分别为输入视频特征videot、第t‑1个单词Yt‑1以及解码器第t‑1个LSTM单元的隐藏向量解码器输出为隐藏向量其中为单词嵌入矩阵,e表示单词嵌入维度大小,
lstm(·)表示长短时记忆神经网络LSTM；
(2‑2).利用全连接层及softmax函数得到词汇表所有单词的概率分布，概率最高的单词为当前时间步预测单词，概率分布为
其中为全连接层参数，是维度转换矩阵 ,
softmax(·)为逻辑回归函数；
(2‑3).根据(1‑3)、(2‑1)、(2‑2)得到下一时间步预测单词，不断循环执行，直至产生语句结束符或达到最大语句长度为止；
(2‑4).生成整个描述语句的交叉熵损失表示为：
其中，Y0是句子的开始标志符，YL+1
是句子的结束标志符。

3.如权利要求2所述的一种基于层次注意力机制的双向重构网络视频描述方法，其特征在于，步骤(3)具体方法是：
(3‑1).双向重构网络为一层Bi‑LSTM，Bi‑LSTM能够利用视频序列的前向和反向信息重构视频帧特征，Bi‑LSTM为双向长短时记忆神经网络；
(3‑2).根据解码器隐藏层的注意力机制得到双向重构网络第t个Bi‑LSTM单元的输入，即其中，为解码器第i个LSTM单元的隐藏向量，μti∈(0,1)为的权重大小，反映了与重构网络第t‑1个Bi‑LSTM单元隐藏向量的相关性；
(3‑3).通过双向重构网络得到视频第t帧的特征重构表示，即其
中，为重构网络第t个Bi‑LSTM单元的隐藏向量，r表示重构，bi_lstm(·)表示双向长短时记忆神经网络，双向重构网络的重构损失函数为其中，|
|·||2表示向量的L2范数，n表示视频帧数。

4.如权利要求3所述的一种基于层次注意力机制的双向重构网络视频描述方法，其特征在于，步骤(4)具体方法是：
(4‑1).通过最小化由(2‑4)描述语句的交叉熵损失和(3‑3)双向重构网络的重构损失组成的总体损失 λ为权衡系数，取值为0.1；利用随机梯度下降法优化编码器、解码器、双向重构网络，得到视频描述模型；
(4‑2).输入新视频依次经过步骤(1)～(2)得到视频的描述语句

5.如权利要求1所述的一种基于层次注意力机制的双向重构网络视频描述方法，其特征在于，所述的帧级注意力机制具体是：
①通过视频第i帧多尺度区域特征集合加权求和分别得到视频帧浅层特征和深层特征其中，
αij∈(0,1)为第i帧第j个浅层区域特征的注意力大小，βij∈(0,1)为第i帧第j个深层区域特征的注意力大小；第i帧特征为视频帧浅层特征和深层特征的拼
接向量；浅层特征用于捕获视频帧的空间特征，深层特征用于捕获视频帧抽象语义特征，两层特征互补形成视频帧特征；
②对视频帧特征加权求和得到解码器第t个LSTM单元的输入视频特征，即其中 f_d＝1856为视频特征维度，为解码器第t个
LSTM单元第i个视频帧特征的注意力大小，反映了视频第i帧与解码器第t‑1个LSTM单元隐藏向量的相关性，其中k为隐藏向量维度，d表示解码器。

说明书

技术领域

[0001] 本发明属于计算机技术领域，具体是视觉计算中的视频描述技术领域，涉及一种基于层次注意力机制的双向重构网络视频描述方法。

背景技术

[0002] 在当今互联网时代，直播网络平台、视频监控以及手机等智能设备每天产生大量的视频数据，这些数据正呈现爆炸式增长。若需人工描述这些视频所含的内容则耗时耗力，视频描述领域由此诞生。视频描述方法主要可用于视频标题生成、视频检索、视障人群观看视频等实际应用场景。

[0003] 视频描述任务即用一段文字对视频内容进行描述,其目标是不但能够捕捉视频中的人或物、动作、场景以及人或物之间的复杂高维关系，还能够生成符合语法规则且描述视频内容正确的语句。

[0004] 在传统视频描述领域，基于模板或检索的方法不能生成同时满足描述正确且自然流畅的语句。近年来，以神经网络为主要研究对象的深度学习被成功应用于计算机视觉和自然语言处理领域，促使了许多研究者探索将深度学习技术用于解决视频描述问题。目前，主流的视频描述方法采用编码器‑解码器框架，编码器用于把视频编码成向量或张量表示，解码器基于生成的张量或向量自动生成一段视频文字描述。比如利用卷积神经网络(CNN：Convolutional Neural Network)作为编码器提取视频帧的图像空间特征，通过对所有帧图像特征进行平均得到视频的向量表示，然后将该向量输入长短时记忆神经网络(LSTM:
Long‑Short Time Memory)即解码器生成视频的文本描述。但对所有帧的图像特征进行平均处理破坏了视频的时序特性，所以有研究工作利用LSTM作为编码器对视频帧的时序关系进行编码，得到与视频内容更匹配的描述。此外，随着时序注意力机制的引入，解码器能够动态调整不同视频帧的权重向量，使得与已生成描述关联度高的视频帧更受关注，从而生成更准确的细粒度文本描述。

[0005] 上述方法的不足点主要表现在以下几个方面：第一，提取视频帧特征的尺度单一，难以充分表示丰富的视频信息；第二，只考虑从视频内容到文本描述的正向信息传播，没有考虑从文本描述到视频内容的反向信息传播，使得生成文本描述和视频内容之间的语义相似性不高；第三，没有考虑视频帧区域特征与生成文本描述的相关性，当被描述物体较小时，容易引入不相关的背景信息，对文本描述生成产生干扰。因此，这些方法难以准确地描述视频内容，不能充分捕获视频语义信息。基于这些考虑，针对视频标题生成、视频检索、视障人群观看视频等实际应用场景，迫切需要设计一种既能充分捕获视频语义信息又能准确描述视频内容的视频描述方法。

发明内容

[0006] 本发明的目的就是针对现有技术的不足，提供一种基于层次注意力机制的双向重构网络视频描述方法，可以提取多尺度视频特征，充分捕获视频语义信息，生成自然流畅的视频内容描述语句。

[0007] 本发明方法首先获取视频数据集合，然后进行如下操作：

[0008] 步骤(1).利用卷积神经网络作为编码器提取视频帧的多尺度区域特征，利用层次注意力机制处理视频特征得到视频特征动态表示；

[0009] 步骤(2).利用长短时记忆神经网络作为解码器，输入为视频特征动态表示及其文本描述，通过最小化交叉熵损失函数得到词汇表单词的概率分布并据此获得生成语句；

[0010] 步骤(3).建立双向重构网络，输入为解码器的隐藏向量，输出为重构的视频特征；

[0011] 步骤(4).利用随机梯度下降法优化上述网络模型，对新视频依次通过步骤(1)～(2)得到视频描述语句。

[0012] 进一步，步骤(1)具体方法是：

[0013] (1‑1).假设给定的视频含有n帧，其中Xi为第i帧图像，w,h,c分别为视频帧的宽度、高度、通道数；为视频对应的描
述语句，L为描述语句的长度，单词Yl采取独热编码，V为词汇表单词的个数；

[0014] (1‑2).利用深度卷积神经网络GoogLeNet的卷积模块inception_4e和inception_5b分别提取视频第i帧的多尺度区域特征集合；

[0015] 所述的多尺度是将视频帧划分为14×14个浅层区域集合和7×7个深层区域集合，区域特征即为每个区域通过所述卷积模块提取的特征；

[0016] 浅层区域特征集合表示为：

[0017] 深层区域特征集合表示为：

[0018] (1‑3).层次注意力机制包括区域注意力机制和帧级注意力机制；

[0019] 所述的区域注意力机制包括浅层区域注意力机制和深层区域注意力机制，是指视频描述模型能够自适应地赋予不同视频帧区域特征不同权重的机制；

[0020] 所述的帧级注意力机制是指视频描述模型自适应地赋予不同视频帧特征不同权重的机制。

[0021] 进一步，步骤(2)具体方法是：

[0022] (2‑1).利用一层长短时记忆神经网络(LSTM)构建解码器，解码器第t个LSTM单元的输入分别为步骤(1‑3)所述的视频特征videot、第t‑1个单词Yt‑1以及解码器第t‑1个LSTM单元的隐藏向量解码器输出为隐藏向量其中为单词嵌入矩阵,e表示单词嵌入维度大小,lstm(·)表示长短时记忆神经网络LSTM；

[0023] (2‑2).利用全连接层及softmax函数得到词汇表所有单词的概率分布，概率最高的单词为当前时间步预测单词，概率分布为其中为全连接层参数，
是维度转换矩阵, softmax(·)为逻辑回归函数；

[0024] (2‑3).根据(1‑3)、(2‑1)、(2‑2)得到下一时间步预测单词，不断循环执行，直至产生语句结束符或达到最大语句长度为止；

[0025] (2‑4).生成整个描述语句的交叉熵损失表示为：

[0026] 其中，Y0是句子的开始标志符，YL+1是句子的结束标志符。

[0027] 进一步，步骤(3)具体方法是：

[0028] (3‑1).所述的双向重构网络为一层双向长短时记忆神经网络(Bi‑LSTM)，Bi‑LSTM能够利用视频序列的前向和反向信息重构视频帧特征；解码器隐藏层的注意力机制是指视频描述模型能够自适应地赋予解码器隐藏向量不同权重的机制：

[0029] (3‑2).根据解码器隐藏层的注意力机制得到双向重构网络第t个Bi‑LSTM单元的输入，即其中，为解码器第i个LSTM单元的隐藏向量，μti∈(0,1)为的权重大小，反映了与重构网络第t‑1个Bi‑LSTM单元隐藏向量的相关性；

[0030] (3‑3) .通过双向重构网络得到视频第t帧的特征重构表示，即其中，为重构网络第t个Bi‑LSTM单元的隐藏向量，r表示重
构，bi_lstm(·)表示双向长短时记忆神经网络，双向重构网络的重构损失函数为其中，||·||2表示向量的L2范数，n表示视频帧数。

[0031] 进一步，步骤(4)具体方法是：

[0032] (4‑1).通过最小化由(2‑4)描述语句的交叉熵损失和(3‑3)双向重构网络的重构损失组成的总体损失 λ为权衡系数，取值为0.1；利用随机梯度下降法优化编码器、解码器、双向重构网络，得到视频描述模型；

[0033] (4‑2).输入新视频依次经过步骤(1)～(2)得到视频的描述语句

[0034] 本发明方法首先利用卷积神经网络作为编码器提取视频帧的多尺度区域特征，并利用层次注意力机制处理视频特征得到视频特征动态表示；其次，利用长短时记忆神经网络作为解码器，以视频特征动态表示及其文本描述为输入，通过最小化交叉熵损失函数得到词汇表单词的概率分布并据此获得生成语句；再次，通过构建以解码器的隐藏向量为输入的双向重构网络，最小化重构损失，可输出重构的视频特征，使得生成的文本描述和视频内容具有很高的语义相似性。

[0035] 本发明方法能够有效提取多尺度视频特征充分表征视频时空结构，利用层次注意力机制使得构建的双向重构网络模型更加关注与已生成描述语句最相关的视频特征，能够减少无关信息的干扰，挖掘潜在视频语义信息，从而生成更准确更自然流畅的视频内容描述。

实施方案

[0037] 以下结合附图对本发明作进一步说明。

[0038] 基于层次注意力机制的双向重构网络视频描述方法方法，重点考虑提取多尺度视频特征以充分表征视频时空结构，同时利用层次注意力机制使得构建的双向重构网络模型更加关注与已生成描述语句最相关的视频特征。主要思想是利用卷积神经网络作为编码器提取视频帧的多尺度区域特征，并利用层次注意力机制处理视频特征得到视频特征动态表示；利用长短时记忆神经网络作为解码器，通过最小化交叉熵损失函数得到词汇表单词的概率分布并据此获得生成语句；通过构建以解码器的隐藏向量为输入的双向重构网络最小化重构损失，可输出重构的视频特征。通过这种方式，可以有效地进行视频描述。

[0039] 如图1，该方法首先获取视频数据集合，然后进行如下操作：

[0040] 步骤(1).利用卷积神经网络作为编码器提取视频帧的多尺度区域特征，利用层次注意力机制处理视频特征得到视频特征动态表示。具体方法是：

[0041] (1‑1).假设给定的视频含有n帧，其中Xi为第i帧图像，w,h,c分别表示视频帧的宽度、高度、通道数，为视频对应的
描述语句，L为描述语句的长度，单词Yl采取独热编码(One‑hot)，V为词汇表单词的个数；

[0042] 所述的词汇表是根据所有视频对应的描述语句生成的，本实施例将出现次数大于5的单词放入词汇表；

[0043] (1‑2).利用深度卷积神经网络GoogLeNet的卷积模块inception_4e和inception_5b分别提取视频第i帧的多尺度区域特征集合，多尺度指的是把视频帧划分为14×14个浅层区域集合和7×7个深层区域集合，区域特征即为每个区域通过上述卷积模块提取的特征，浅层指的是卷积模块inception_4e位于GoogLeNet的低层，深层指的是卷积模块inception_5b位于GoogLeNet的高层；

[0044] 浅层区域特征集合表示为：

[0045] 深层区域特征集合表示为：

[0046] (1‑3).层次注意力机制包括浅层区域注意力机制、深层区域注意力机制以及帧级注意力机制。区域注意力机制是指视频描述模型能够自适应地赋予不同视频帧区域特征不同权重的机制。帧级注意力机制是指视频描述模型自适应地赋予不同视频帧特征不同权重的机制，具体是：

[0047] ①通过视频第i帧多尺度区域特征集合加权求和分别得到视频帧浅层特征和深层特征其中，αij∈(0,1)为第i帧第j个浅层区域特征的注意力大小，βij∈(0,1)为第i帧第j个深层区域特征的注意力大小；第i帧特征为视频帧浅层特征和深层特征的
拼接向量，浅层特征能够捕获视频帧的空间特征，深层特征能够捕获视频帧抽象语义特征，两层特征互补形成视频帧特征，更能充分表示视频帧内容；

[0048] ②对视频帧特征加权求和，得到解码器第t个LSTM单元的输入视频特征其中 f_d＝1856为视频特征维度，为解码器第t个LSTM单元第i个视频帧特征的注意力大小，反映了视频第i帧与解码器第t‑1个LSTM单元隐藏向量的相关性，其中k为隐藏向量维度，d表示解码器。

[0049] 步骤(2).利用长短时记忆神经网络作为解码器，输入为视频特征动态表示及其文本描述，通过最小化交叉熵损失函数得到词汇表单词的概率分布并据此获得生成语句。具体方法是：

[0050] (2‑1).利用一层LSTM构建解码器，解码器第t个LSTM单元的输入分别为(1‑3)中的输入视频特征videot、第t‑1个单词Yt‑1以及解码器第t‑1个LSTM单元的隐藏向量解码器输出为隐藏向量其中为单词嵌入矩阵,e表示单词嵌入维度大小,lstm(·)表示长短时记忆神经网络LSTM；

[0051] (2‑2).利用全连接层及softmax函数得到词汇表所有单词的概率分布，概率最高的单词为当前时间步预测单词,概率分布为其中为全连接层参数，
是维度转换矩阵, softmax(·)为逻辑回归函数；

[0052] (2‑3).根据步骤(1‑3)(2‑1)(2‑2)得到下一时间步预测单词，不断循环执行，直至产生语句结束符(EOS：End of Sentence)或达到最大语句长度为止；

[0053] (2‑4).生成整个描述语句的交叉熵损失表示为：

[0054] 其中，Y0是句子的开始标志符(SOS：Start of Sentence)，YL+1是句子的结束标志符EOS。

[0055] 步骤(3).建立双向重构网络，输入为解码器的隐藏向量，输出为重构的视频特征。具体方法是：

[0056] (3‑1).所述的双向重构网络为一层双向长短时记忆神经网络(Bi‑LSTM)，双向长短时记忆神经网络能够利用视频序列的前向和反向信息重构视频帧特征；

[0057] 所述的解码器隐藏层的注意力机制是指视频描述模型能够自适应地赋予解码器隐藏向量不同权重的机制：

[0058] (3‑2).根据解码器隐藏层的注意力机制得到双向重构网络第t个Bi‑LSTM单元的输入，即其中，为解码器第i个LSTM单元的隐藏向量，μti∈(0,1)为的权重大小，反映了与重构网络第t‑1个Bi‑LSTM单元隐藏向量的相关性；

[0059] (3‑3) .通过双向重构网络得到视频第t帧的特征重构表示，即其中，为重构网络第t个Bi‑LSTM单元的隐藏向量，r表示重
构，bi_lstm(·)表示双向长短时记忆神经网络，双向重构网络的重构损失函数为其中，||·||2表示向量的L2范数，n表示视频帧数。

[0060] 步骤(4).利用随机梯度下降法优化上述网络模型，对新视频依次通过步骤(1)～(2)得到视频描述语句。具体方法是：

[0061] (4‑1).通过最小化由步骤(2‑4)描述语句的交叉熵损失和步骤(3‑3)双向重构网络的重构损失组成的总体损失 λ为权衡系数，取值为0.1；利用随机梯度下降法优化编码器、解码器、双向重构网络，得到视频描述模型；

[0062] (4‑2).输入新视频依次经过步骤(1)～(2)得到视频的描述语句

[0063] 本实施例所述的内容仅仅是对发明构思的实现形式的列举，本发明的保护范围的不应当被视为仅限于实施例所陈述的具体形式，本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

附图说明

[0036] 图1是本发明方法的流程图。

1计算机用机箱 2一种计算机 3一种计算机机壳 4一种计算机机箱 5一种计算机机箱 6一种计算机机箱 7一种计算机机箱 8一种计算机机箱 9结构量计算机的MSD乘法计算的方法 10易拆装计算机机箱