首页 > 专利 > 杭州电子科技大学 > 基于尺度注意力空洞卷积网络的视频动作检测方法专利详情

基于尺度注意力空洞卷积网络的视频动作检测方法 0 0

有效专利查看PDF

申请进展

基本信息

申请人信息

代理人信息

摘要

法律状态

权利要求

说明书

专利申请流程有哪些步骤？

申请

申请号：指国家知识产权局受理一件专利申请时给予该专利申请的一个标示号码。唯一性原则。

申请日：提出专利申请之日。

2020-04-01

申请公布

申请公布指发明专利申请经初步审查合格后，自申请日（或优先权日）起18个月期满时的公布或根据申请人的请求提前进行的公布。

申请公布号：专利申请过程中，在尚未取得专利授权之前，国家专利局《专利公报》公开专利时的编号。

申请公布日：申请公开的日期，即在专利公报上予以公开的日期。

2020-09-25

授权

授权指对发明专利申请经实质审查没有发现驳回理由，授予发明专利权；或对实用新型或外观设计专利申请经初步审查没有发现驳回理由，授予实用新型专利权或外观设计专利权。

2021-04-30

预估到期

发明专利权的期限为二十年，实用新型专利权期限为十年，外观设计专利权期限为十五年，均自申请日起计算。专利届满后法律终止保护。

2040-04-01

基本信息

有效性	有效专利	专利类型	发明专利
申请号	CN202010252104.7	申请日	2020-04-01
公开/公告号	CN111611847B	公开/公告日	2021-04-30
授权日	2021-04-30	预估到期日	2040-04-01
申请年	2020年	公开/公告年	2021年
缴费截止日
分类号	G06K9/00 、G06K9/62 、G06N3/04 、G06N3/08	主分类号	G06K9/00
是否联合申请	独立申请	文献类型号	B
独权数量	1	从权数量	5
权利要求数量	6	非专利引证数量	0
引用专利数量	5	被引证专利数量	0
非专利引证
引用专利	CN108664931A、CN109522966A、CN108830212A、CN110738129A、CN109101896A	被引证专利
专利权维持	2	专利申请国编码	CN
专利事件		事务标签	公开、实质审查、授权

申请人信息

申请人	杭州电子科技大学	第一申请人	杭州电子科技大学
专利权人	杭州电子科技大学	当前专利权人	杭州电子科技大学
发明人	李平、曹佳晨、陈乐聪、徐向华	第一发明人	李平
地址	浙江省杭州市下沙高教园区2号大街	邮编	310018
申请人数量	1	发明人数量	4
申请人所在省	浙江省	申请人所在市	浙江省杭州市

代理人信息

代理机构

专利代理机构是经省专利管理局审核，国家知识产权局批准设立，可以接受委托人的委托，在委托权限范围内以委托人的名义办理专利申请或其他专利事务的服务机构。

杭州君度专利代理事务所

代理人

专利代理师是代理他人进行专利申请和办理其他专利事务，取得一定资格的人。

杨舟涛

摘要

本发明公开了基于尺度注意力空洞卷积网络的视频动作检测方法。本发明方法首先对视频采样获得帧图像序列并根据片段位置标记获得视频片段，然后分别构建层尺度注意力动作片段模型和构建帧位置注意力动作识别模型，根据上述模型并结合分水岭算法依次获得帧图像的加权特征表示和视频片段所属动作类别，完成视频动作检测任务。本发明方法利用空洞卷积网络提取能更好反映视频数据时间维度和空间维度本征结构的时空运动信息，通过层尺度注意力更恰当地刻画视频帧的时序上下文关系随尺度大小变化的内在关联，设计的帧位置注意力机制为动作片段的视频帧赋予更准确表征动作片段关键内容的权重，提高了视频动作检测的精度，提升了动作检测的效率。

摘要附图
说明书附图：图1

法律状态

序号	法律状态公告日	法律状态	法律状态信息
1	2021-04-30	授权
2	2020-09-25	实质审查的生效	IPC(主分类): G06K 9/00 专利申请号: 202010252104.7 申请日: 2020.04.01
3	2020-09-01	公开

权利要求

权利要求书是申请文件最核心的部分，是申请人向国家申请保护他的发明创造及划定保护范围的文件。

1.基于尺度注意力空洞卷积网络的视频动作检测方法，其特征在于，该方法首先获取视频数据集合，然后进行如下操作：
步骤(1).对视频采样处理，获得帧图像序列，并根据片段位置标记获得视频片段；具体是：
(1‑1).对单个视频以每秒i帧的采样率处理为帧图像序列其
中N表示帧图像总数，fn表示序列中第n幅宽为w高为h的RGB三通道帧图像，n＝1,2,…,N；
(1‑2).根据视频片段位置标记获取视频片段，包括动作片段和背景片
段；其中视频片段的类别 J为动作类别数目，j＝0,1,2,…,J，j≠0时为动作类别序号，j＝0时为背景类别序号；M为动作片段和背景片段的总数目，对于第m个视频片段，sm是该片段开始帧序号，em是该片段结束帧序号,cm是该片段对应的类别，m＝1,2,…,M；
步骤(2).构建层尺度注意力动作片段模型，输入为完整视频的帧图像序列，输出为完整的视频帧图像的加权特征表示及各帧是否为动作帧的概率；层尺度注意力动作片段模型以考虑时序关系的多层空洞卷积神经网络为主干，通过层尺度注意力机制获得完整视频的加权特征表示；其中，第t帧图像的加权特征表示为是第k层的尺度注意力权重，为第t帧图像在第k层的特征表示，K是多层空洞卷积网络的总层数,K≥2；
步骤(3).构建帧位置注意力动作识别模型，输入为视频片段帧图像的加权特征表示，输出为视频片段所属动作类别的概率；帧位置注意力动作识别模型以考虑帧位置注意力机制的多层神经网络为主干，通过计算帧位置注意力获得视频片段的加权特征表示其中，是第t帧的位置注意力权重，
步骤(4).对新视频根据层尺度注意力动作片段模型和分水岭算法生成视频片段，并由帧位置注意力动作识别模型判定片段动作类别，获得动作检测结果。

2.如权利要求1所述的基于尺度注意力空洞卷积网络的视频动作检测方法，其特征在于，步骤(2)具体是：
(2‑1).以视频帧为单位逐帧处理完整视频的帧图像序列，由视频片段位置标记分别获得动作片段和背景片段的开始帧序号和结束帧序号，对动作片段内的视频帧记为动作帧，对背景片段内的视频帧记为背景帧；
(2‑2).首先通过从低层到高层逐帧处理的方式依次获取帧图像序列各帧不同尺度的上下文特征表示，第t帧图像在第k层的特征表示其中ck是第k层的通道数，wk和hk分别是第k层特征表示的宽和高；然后通过层尺度注意力机制获得完整视频的加权特征表示
(2‑3).将第t帧图像的加权特征表示St经过全连接层后的输出向量作为层尺度注意力动作片段模型的最后一层的输入，该层采用Softmax(·)函数输出视频帧是否属于动作帧的概率其中e表示自然底数，y0是背景帧的概率，y1是动作帧
的概率，Zq表示向量Z的第q个元素，并将第n个视频帧是否属于动作帧的概率记为之后计算模型的交叉熵损失函数其中为真实标记，表示该帧为动作
帧，表示该帧为背景帧；利用随机梯度下降算法优化训练层尺度注意力动作片段模型，通过反向梯度传播更新模型参数。

3.如权利要求2所述的基于尺度注意力空洞卷积网络的视频动作检测方法，其特征在于，步骤(3)具体是：
(3‑1).依次从完整视频的加权特征表示中利用视频片段位置标记L的开始帧序号和结束帧序号获取各视频片段的加权特征表示
(3‑2).帧位置注意力动作识别模型输入为视频片段各帧的加权特征表示该模型通过计算帧位置注意力获得视频片段的加权特征表示
(3‑3).将视频片段的加权特征表示Xm经过全连接层后的输出向量作为帧位置注意力动作识别模型的最后一层的输入，该层采用Softmax(·)函数输出为视频片段所属动作类别j的概率以及属于背景类别的概率然
后计算模型的交叉熵损失其中是真实标记，若视频片段属于类别j则
为1，否则为0；利用随机梯度下降算法优化训练帧位置注意力动作识别模型，通过反向梯度传播更新模型参数。

4.如权利要求3所述的基于尺度注意力空洞卷积网络的视频动作检测方法，其特征在于，步骤(4)具体是：
(4‑1).对于新视频利用(1‑1)获得其帧图像序列将该序列输入步骤(2)的层尺度注意力动作片段模型并通过(2‑3)计算得到视频帧图像序列是否属于动作帧的概率序列然后对此概率序列使用基于多层次浸没的分水岭算法，即概率值高于设定阈值τ，且时序连续的视频帧聚合成为视频片段；同时用多个不同0～1范围的阈值生成不同长短的M′个视频片段，及其开始帧序号s′和结束帧序号e′；
(4‑2).将(4‑1)的视频片段帧图像序列输入步骤(3)的帧位置注意力动作识别模型得到视频片段中的帧图像属于各类别的概率并将最大概率值对应的类别作为视频片段所属的类别c'；对判定为某个具体动作的视频片段输出其开始帧序号和结束帧序号；
(4‑3).对新视频先经过(4‑1)获得视频片段，然后经过(4‑2)获得视频动作检测结果其中m'是视频片段的序号，M′是检测到的动作片段总数，s'm'表示该片段开始帧序号，e'm'表示该片段的结束帧序号，c'm'表示该片段的动作类别。

5.如权利要求1所述的基于尺度注意力空洞卷积网络的视频动作检测方法，其特征在于：i＝20～40。

6.如权利要求4所述的基于尺度注意力空洞卷积网络的视频动作检测方法，其特征在于：τ＝0～1。

说明书

技术领域

[0001] 本发明属于视频分析技术领域，具体是时序动作检测技术领域，涉及一种基于尺度注意力空洞卷积网络的视频动作检测方法。

背景技术

[0002] 人类动作视频的理解对安防监控、行为分析等诸多领域有重要作用，已成为计算机视觉领域的前沿研究课题。然而未经剪辑的真实视频往往包含与人类动作无关的背景片段，将会影响视频内容的正确理解。针对这一问题，视频动作检测方法不仅对视频内的动作进行分类，还可以定位动作实例在视频中发生的开始与结束时间。视频动作检测任务通常以视频帧序列作为输入，以“动作种类‑开始帧‑结束帧”的形式输出多组片段的检测结果，其处理过程可分为两个阶段：动作片段生成和动作片段识别。前者一般输出片段的开始帧和结束帧，后者则输出片段的动作种类。通常，运用视频动作检测方法可以帮助更好地理解视频内容，包括视频摘要、动作识别、内容标注、事件捕捉等任务。例如，对视频摘要任务，其关键片段可通过视频动作检测获取，这样可以准确定位到最能反映视频内容的关键帧或片段，从而提高视频摘要的质量。

[0003] 视频动作检测针对视频帧图像进行处理且需要刻画各帧之间的时序关系，涉及高维度的张量计算。传统机器学习方法采用人工提取的特征如轨迹特征在提取效率上已经无法满足实时性能要求，并且特征提取过程脱离模型训练，从而造成模型的泛化性能较弱。近年来，端到端学习的卷积神经网络(CNN：Convolutional Neural Network)飞速发展，能够被用于弥补传统方法的缺陷。例如：基于三维卷积神经网络或光流场信息进行时序动作信息的特征提取效率更高；；基于深度强化学习的候选片段生成方案，能够端到端地自适应完成动作片段生成任务；时序动作定位网络为解决动作片段长短不一问题而提出多尺度并行的动作片段生成结构，大幅度地刷新了该领域的最佳性能。

[0004] 已有的视频动作检测方法主要存在以下不足：第一，在特征提取阶段，为了提取动作的时序特征使用的三维卷积操作会在构建的网络模型中逐层固定地降低输入视频的时序维度，约束了所提取特征在时序上的尺度大小，过小的尺度可能造成上下文语义割裂，过大的尺度可能造成不同语义的干扰；第二，在动作片段生成阶段，对于不同时长的动作决定动作发生与否及其种类的关键点即关键帧位置及其持续时长(如连续关键帧)往往也不同，常规平均池化操作忽略了关键点的权重问题；第三，现有方法对不同尺度大小的片段使用不同的网络结构(如空洞卷积网络)提取动作片段的特征表示，将大大增加网络构建和训练的时间和空间成本。因此，需要设计一种既能提高视频动作检测性能又能节省计算和存储开销的方法。

发明内容

[0005] 本发明的目的就是针对现有技术的不足，提供一种基于尺度注意力空洞卷积网络的视频动作检测方法，可以结合空洞卷积网络捕捉视频数据的时空运动信息，并通过尺度注意力准确刻画视频帧的时序上下文关系，从而有效检测视频中动作片段并准确判定其类别。

[0006] 本发明方法首先获取视频数据集合，然后进行以下操作：

[0007] 步骤(1).对视频采样处理，获得帧图像序列，并根据片段位置标记获得视频片段；

[0008] 步骤(2).构建层尺度注意力动作片段模型，输入为完整视频的帧图像序列，输出为完整的视频帧图像的加权特征表示及各帧是否为动作帧的概率；

[0009] 步骤(3).构建帧位置注意力动作识别模型，输入为视频片段帧图像的加权特征表示，输出为视频片段所属动作类别的概率；

[0010] 步骤(4).对新视频根据层尺度注意力动作片段模型和分水岭算法生成视频片段，并由帧位置注意力动作识别模型判定片段动作类别，获得动作检测结果。

[0011] 进一步，步骤(1)具体是：

[0012] (1 ‑ 1) .对单个视频以每秒i帧的采样率处理为帧图像序列其中N表示帧图像总数，fn表示序列中第n幅宽为w高为h的RGB三通道帧图像，n＝1,2,…,N，i＝20～40；

[0013] (1‑2).根据视频片段位置标记获取视频片段，包括动作片段和背景片段；其中视频片段的类别 J为动作类别数目，j＝0,1,2,…,J，j≠0时为动作类别序号，j＝0时为背景类别序号；M为动作片段和背景片段的总数目，对于第m个视频片段，sm是该片段开始帧序号，em是该片段结束帧序号,cm是该片段对应的类别，m＝1,2,…,M。

[0014] 再进一步，步骤(2)具体是：

[0015] (2‑1).以视频帧为单位逐帧处理完整视频的帧图像序列，由视频片段位置标记分别获得动作片段和背景片段的开始帧序号和结束帧序号，对动作片段内的视频帧记为动作帧，对背景片段内的视频帧记为背景帧；

[0016] (2‑2).层尺度注意力动作片段模型以考虑时序关系的多层空洞卷积神经网络为主干，首先通过从低层到高层逐帧处理的方式依次获取帧图像序列各帧不同尺度的上下文特征表示，即第t帧图像在第k层的特征表示为其中ck是第k层的通道数，wk和hk分别是第k层特征表示的宽和高；然后通过层尺度注意力机制获得完整视频的加权特征表示其中第t帧图像的加权特征表示为是第k层的尺度注意力权重， K是多层空洞卷积网络的总层数,K≥2；

[0017] (2‑3).将第t帧图像的加权特征表示St经过全连接层后的输出向量作为层尺度注意力动作片段模型的最后一层的输入，该层采用Softmax(·)函数输出视频帧是否属于动作帧的概率 h＝0,1，其中e表示自然底数，y0是背景帧的概率，y1是动作帧的概率，Zq表示向量Z的第q个元素，并将第n个视频帧是否属于动作帧的概率记为之后计算模型的交叉熵损失函数其中为真实标记，表示该帧为动作帧，表示该帧为背景帧；利用随机梯度下降算法优化训练层尺度注意力动作片段模型，通过反向梯度传播更新模型参数。

[0018] 更进一步，步骤(3)具体是：

[0019] (3‑1).依次从完整视频的加权特征表示中利用视频片段位置标记L的开始帧序号和结束帧序号获取各视频片段的加权特征表示 m＝1，…，M；

[0020] (3‑2).帧位置注意力动作识别模型以考虑帧位置注意力机制的多层神经网络为主干，其输入为视频片段各帧的加权特征表示该模型通过计算帧位置注意力获得视频片段的加权特征表示其中是第t帧的位置注意力权重，

[0021] (3‑3).将视频片段的加权特征表示Xm经过全连接层后的输出向量作为帧位置注意力动作识别模型的最后一层的输入，该层采用Softmax(·)函数输出为视频片段所属动作类别j的概率 j＝1,2,…,J，以及属于背景类别的概率然后计算模型的交叉熵损失其中是真实标记，若视频
片段属于类别j则为1，否则为0；利用随机梯度下降算法优化训练帧位置注意力动作识别模型，通过反向梯度传播更新模型参数。

[0022] 又进一步，步骤(4)具体是：

[0023] (4‑1).对于新视频利用(1‑1)获得其帧图像序列将该序列输入步骤(2)的层尺度注意力动作片段模型并通过(2‑3)计算得到视频帧图像序列是否属于动作帧的概率序列然后对此概率序列使用基于多层次浸没的分水岭算法，即概率值高于设定阈值τ，τ＝0～1，且时序连续的视频帧聚合成为视频片段；同时用多个不同0～1范围的阈值生成不同长短的M′个视频片段，及其开始帧序号s′和结束帧序号e′；

[0024] (4‑2).将(4‑1)的视频片段帧图像序列输入步骤(3)的帧位置注意力动作识别模型得到视频片段中的帧图像属于各类别的概率并将最大概率值对应的类别作为视频片段所属的类别c'；对判定为某个具体动作的视频片段输出其开始帧序号和结束帧序号；

[0025] (4‑3).对新视频先经过(4‑1)获得视频片段，然后经过(4‑2)获得视频动作检测结果其中m'是视频片段的序号，M′是检测到的动作片段总数，s'm'表示该片段开始帧序号，e'm'表示该片段的结束帧序号，c'm'表示该片段的动作类别。

[0026] 本发明方法利用尺度注意力空洞卷积网络进行视频动作检测，不同于现有方法的主要表现有几方面：1)相比时序动作定位网络使用多尺度并行结构，该方法使用多层串行结构的空洞卷积层，在实现多尺度上下文特征提取的同时降低了网络结构冗余；2)三维卷积神经网络为骨干的方法往往进行时序下采样信息的提取，该方法提出用空洞卷积神经网络在原始视频帧的细粒度水平进行上下文特征的提取；3)该方法提出从尺度与位置两种角度出发，结合注意力机制更好地提取视频帧和视频片段对应的时序特征信息；4)在动作片段生成阶段使用基于多层次浸没的分水岭算法，能够并行地生成动作片段，执行效率比很多现有方法更高。

[0027] 本发明适用于基于深度学习方法的视频动作检测任务，其主要优点在于：1)结合空洞卷积网络，不仅提取了能够更好反映视频数据时间维度和空间维度本征结构的时空运动信息，还为特征保留了帧级别的细粒度；2)使用层尺度注意力机制，通过改变刻画当前帧的时序上下文关系的尺度大小为每一帧选择恰当特征表示；3)使用帧位置注意力机制，通过为每个动作片段内的视频帧添加权重以准确反映其特征表示。该方法从多个角度出发为视频动作检测任务性能的提升提供了科学合理的方案，可广泛应用于安防监控、行为分析、视频摘要、事件检测等实际应用场景。

实施方案

[0029] 以下结合附图对本发明作进一步说明。

[0030] 一种基于尺度注意力空洞卷积网络的视频动作检测方法，首先对视频采样获得帧图像序列并根据动作片段标记获得视频片段，然后分别构建层尺度注意力动作片段模型和帧位置注意力动作识别模型，最后结合分水岭算法判定视频片段所属的动作类别。该方法利用空洞卷积网络能更准确捕捉视频数据的时空运动信息，使用层尺度注意力机制刻画视频帧的时序上下文关系，通过帧位置注意力机制为动作片段的视频帧学习合适的权重以更好地反映动作片段的内容。通过这种方式构建的视频动作检测系统能够更有效提取视频帧图像和视频片段的时序特征，同时更高效地检测视频中的动作类别。

[0031] 如图1，该方法首先获取视频数据集合，然后进行以下操作：

[0032] 步骤(1).对视频采样处理，获得帧图像序列，并根据片段位置标记获得视频片段；具体是：

[0033] (1 ‑ 1) .对单个视频以每秒i帧的采样率处理为帧图像序列其中N表示帧图像总数，fn表示序列中第n幅宽为w高为h的RGB三通道帧图像，n＝1,2,…,N，i＝20～40；本实施例中i＝30；

[0034] (1‑2).根据视频片段位置标记获取视频片段，包括动作片段和背景片段；其中视频片段的类别 J为动作类别数目，j＝0,1,2,…,J，j≠0时为动作类别序号，j＝0时为背景类别序号；M为动作片段和背景片段的总数目，对于第m个视频片段，sm是该片段开始帧序号，em是该片段结束帧序号,cm是该片段对应的类别，m＝1,2,…,M。

[0035] 步骤(2).构建层尺度注意力动作片段模型，输入为完整视频的帧图像序列，输出为完整的视频帧图像的加权特征表示及各帧是否为动作帧的概率；具体是：

[0036] (2‑1).以视频帧为单位逐帧处理完整视频的帧图像序列，由视频片段位置标记分别获得动作片段和背景片段的开始帧序号和结束帧序号，对动作片段内的视频帧记为动作帧，对背景片段内的视频帧记为背景帧；

[0037] (2‑2).层尺度注意力动作片段模型以考虑时序关系的多层空洞卷积神经网络为主干，首先通过从低层到高层逐帧处理的方式依次获取帧图像序列各帧不同尺度的上下文特征表示，即第t帧图像在第k层的特征表示为其中ck是第k层的通道数，wk和hk分别是第k层特征表示的宽和高；然后通过层尺度注意力机制获得完整视频的加权特征表示其中第t帧图像的加权特征表示为是第k层的尺度注意力权重， K是多层空洞卷积网络的总层数,K≥2；

[0038] (2‑3).将第t帧图像的加权特征表示St经过全连接层后的输出向量作为层尺度注意力动作片段模型的最后一层的输入，该层采用Softmax(·)函数输出视频帧是否属于动作帧的概率 h＝0,1，其中e表示自然底数，y0是背景帧的概率，y1是动作帧的概率，Zq表示向量Z的第q个元素，并将第n个视频帧是否属于动作帧的概率记为之后计算模型的交叉熵损失函数其中为真实标记，表示该帧为动作帧，表示该帧为背景帧；利用随机梯度下降算法优化训练层尺度注意力动作片段模型，通过反向梯度传播更新模型参数。

[0039] 步骤(3).构建帧位置注意力动作识别模型，输入为视频片段帧图像的加权特征表示，输出为视频片段所属动作类别的概率；具体是：

[0040] (3‑1).依次从完整视频的加权特征表示中利用视频片段位置标记L的开始帧序号和结束帧序号获取各视频片段的加权特征表示 m＝1，…，M；

[0041] (3‑2).帧位置注意力动作识别模型以考虑帧位置注意力机制的多层神经网络为主干，其输入为视频片段各帧的加权特征表示该模型通过计算帧位置注意力获得视频片段的加权特征表示其中是第t帧的位置注意力权重，

[0042] (3‑3).将视频片段的加权特征表示Xm经过全连接层后的输出向量作为帧位置注意力动作识别模型的最后一层的输入，该层采用Softmax(·)函数输出为视频片段所属动作类别j的概率 j＝1,2,…,J，以及属于背景类别的概率然后计算模型的交叉熵损失其中是真实标记，若视频
片段属于类别j则为1，否则为0；利用随机梯度下降算法优化训练帧位置注意力动作识别模型，通过反向梯度传播更新模型参数。

[0043] 步骤(4).对新视频根据层尺度注意力动作片段模型和分水岭算法生成视频片段，并由帧位置注意力动作识别模型判定片段动作类别，获得动作检测结果；具体是：

[0044] (4‑1).对于新视频利用(1‑1)获得其帧图像序列将该序列输入步骤(2)的层尺度注意力动作片段模型并通过(2‑3)计算得到视频帧图像序列是否属于动作帧的概率序列然后对此概率序列使用基于多层次浸没的分水岭算法，即概率值高于设定阈值τ(τ＝0～1，本实施例中τ＝0.7)，且时序连续的视频帧聚合成为视频片段；同时用多个不同0～1范围的阈值生成不同长短的M′个视频片段，及其开始帧序号s′和结束帧序号e′；

[0045] (4‑2).将(4‑1)的视频片段帧图像序列输入步骤(3)的帧位置注意力动作识别模型得到视频片段中的帧图像属于各类别的概率并将最大概率值对应的类别作为视频片段所属的类别c'；对判定为某个具体动作的视频片段输出其开始帧序号和结束帧序号；

[0046] (4‑3).对新视频先经过(4‑1)获得视频片段，然后经过(4‑2)获得视频动作检测结果其中m'是视频片段的序号，M′是检测到的动作片段总数，s'm'表示该片段开始帧序号，e'm'表示该片段的结束帧序号，c'm'表示该片段的动作类别。

[0047] 本实施例所述的内容仅仅是对发明构思的实现形式的列举，本发明的保护范围的不应当被视为仅限于实施例所陈述的具体形式，本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

附图说明

[0028] 图1是本发明方法的流程图。

1一种应用于远程视频会议的数据分析方法及系统 2一种基于大数据分析的视频图像处理方法及系统 3一种短视频分析处理方法、系统及计算机存储介质 4一种基于音视频分析技术的教师授课专注度的评估方法 5一种基于细粒度的多方面分析的短视频点击率预测方法 6一种视频直播环境监测分析调控方法、设备及计算机存储介质