首页 > 专利 > 杭州电子科技大学 > 一种双流神经网络时序动作定位方法专利详情

一种双流神经网络时序动作定位方法 0 0

有效专利查看PDF

申请进展

基本信息

申请人信息

代理人信息

摘要

法律状态

权利要求

说明书

专利申请流程有哪些步骤？

申请

申请号：指国家知识产权局受理一件专利申请时给予该专利申请的一个标示号码。唯一性原则。

申请日：提出专利申请之日。

2019-10-30

申请公布

申请公布指发明专利申请经初步审查合格后，自申请日（或优先权日）起18个月期满时的公布或根据申请人的请求提前进行的公布。

申请公布号：专利申请过程中，在尚未取得专利授权之前，国家专利局《专利公报》公开专利时的编号。

申请公布日：申请公开的日期，即在专利公报上予以公开的日期。

2020-05-12

授权

授权指对发明专利申请经实质审查没有发现驳回理由，授予发明专利权；或对实用新型或外观设计专利申请经初步审查没有发现驳回理由，授予实用新型专利权或外观设计专利权。

2021-06-04

预估到期

发明专利权的期限为二十年，实用新型专利权期限为十年，外观设计专利权期限为十五年，均自申请日起计算。专利届满后法律终止保护。

2039-10-30

基本信息

有效性	有效专利	专利类型	发明专利
申请号	CN201911044384.6	申请日	2019-10-30
公开/公告号	CN111027377B	公开/公告日	2021-06-04
授权日	2021-06-04	预估到期日	2039-10-30
申请年	2019年	公开/公告年	2021年
缴费截止日
分类号	G06K9/00 、G06N3/04	主分类号	G06K9/00
是否联合申请	独立申请	文献类型号	B
独权数量	1	从权数量	0
权利要求数量	1	非专利引证数量	1
引用专利数量	1	被引证专利数量	0
非专利引证	1、2019.06.27CN 106469314 A,2017.03.01薛路强.基于双流融合卷积神经网络的人体行为识别研究《.万方数据库》.2018,第1-79页. 张怡佳等.基于双流卷积神经网络的改进人体行为识别算法《.计算机测量与控制》.2018,第26卷(第8期),第266-269,274页. Haochen Zhang 等.Two-Stream ActionRecognition-Oriented Video Super-Resolution《.arXiv》.2019,第1-10页. Jiyang Gao 等.Cascaded BoundaryRegression for Temporal Action Detection. 《arXiv》.2017,第1-11页. Limin Wang 等.Temporal SegmentNetworks: Towards Good Practices for DeepAction Recognition《.arXiv》.2016,第1-16页.;
引用专利	US2019199753A	被引证专利
专利权维持	3	专利申请国编码	CN
专利事件		事务标签	公开、实质审查、授权

申请人信息

申请人	杭州电子科技大学	第一申请人	杭州电子科技大学
专利权人	杭州电子科技大学	当前专利权人	杭州电子科技大学
发明人	李平、曹佳晨、胡海洋、徐向华	第一发明人	李平
地址	浙江省杭州市下沙高教园区2号大街	邮编	310018
申请人数量	1	发明人数量	4
申请人所在省	浙江省	申请人所在市	浙江省杭州市

代理人信息

代理机构

专利代理机构是经省专利管理局审核，国家知识产权局批准设立，可以接受委托人的委托，在委托权限范围内以委托人的名义办理专利申请或其他专利事务的服务机构。

杭州君度专利代理事务所

代理人

专利代理师是代理他人进行专利申请和办理其他专利事务，取得一定资格的人。

杨舟涛

摘要

本发明公开了一种双流神经网络时序动作定位方法。本发明方法首先对视频采样处理后获得视频帧流图像序列和视频光流图像序列；其次，构建双流神经网络边界分割模型，以完整视频的帧流以及光流图像序列为输入，以视频动作的边界信息为输出；再次，构建稀疏采样动作识别模型，输入为视频片段的帧流以及光流图像序列的稀疏采样序列，输出为视频片段对各动作类别(含背景)的概率。通过稀疏采样可以大为减少视频片段的冗余特征提取；采用边界分割策略搜索候选片段,规避了不同尺度下视频片段被重复处理的问题，抑制了后续候选片段在动作识别阶段中的背景类干扰，提高了时序动作定位的准确率。

摘要附图
说明书附图：图1

法律状态

序号	法律状态公告日	法律状态	法律状态信息
1	2021-06-04	授权
2	2020-05-12	实质审查的生效	IPC(主分类): G06K 9/00 专利申请号: 201911044384.6 申请日: 2019.10.30
3	2020-04-17	公开

权利要求

权利要求书是申请文件最核心的部分，是申请人向国家申请保护他的发明创造及划定保护范围的文件。

1.一种双流神经网络时序动作定位方法，其特征在于，该方法首先获取视频数据集，然后进行如下操作：
步骤(1).对视频采样处理，获得视频帧流图像序列和视频光流图像序列；具体方法是：
(1‑1).以每秒10～50帧的采样率将视频V处理为一个帧流图像序列
N表示帧流图像数目，fi表示序列中第i幅宽为w、高为h的RGB三通道图像；
(1‑2).通过帧流图像生成对应的水平方向与竖直方向的光流图像序列
N表示光流图像数目，且与帧流图像的数目相同，ofi表示序列中第i幅宽为w、高为h包含竖直方向和水平方向的光流双通道图像，且根据下标i与帧流图像对应；
步骤(2).构建双流神经网络边界分割模型，完整视频的帧流以及光流图像序列作为输入，视频动作的边界信息作为输出；具体方法是：
(2‑1).参与模型构建的视频包含动作片段标记信息，标记信息记为
其中M表示不含背景片段的视频V内动作片段数目，对于第j个动作片段，表示该片段动作开始帧，表示该片段动作结束帧，cj以数字表示该片段对应的动作种类，C表示视频的动作种类数目；
双流序列包括帧流图像序列和光流图像序列边界分割模型采用
每隔8帧选16帧作为候选边界单元的策略；
(2‑2).根据标记信息L获得所有动作片段的开始帧和结束帧信息，若候选边界单元内包含任意开始帧或结束帧，则定义其为边界单元并将该单元标记为正例，否则标记为负例；
(2‑3).使用浅层神经网络结构作为双流神经网络边界分割模型的骨干结构，为双流序列提供两个并行神经网络结构A1与A2，采用Softmax层为输出层并利用交叉熵损失函数；具体操作是：
①假定Softmax层的输出概率为yb，其中表示Softmax层
的输入，e表示自然底数，y0表示为非边界单元的概率，y1表示为边界单元的概率；
②假定Softmax层的真实标记为则交叉熵损失函数为
若该单元为边界单元则否则
(2‑4).将候选边界单元的帧流图像序列和光流图像序列分别输入双流神经网络边界分割模型中的A1与A2，各自通过Softmax输出层获取该候选单元属于边界单元的概率，然后利用(2‑2)的正负例单元标记信息计算交叉熵损失；
(2‑5).利用随机梯度下降算法优化训练双流神经网络边界分割模型，通过反向传播分别对双流神经网络边界分割模型内的A1和A2各层的参数并进行调整更新；
步骤(3).构建稀疏采样动作识别模型，输入为视频片段的帧流以及光流图像序列的稀疏采样序列，输出为视频片段对各动作类别的概率；具体方法是：
start
(3‑1).输入的视频片段是原始视频根据标记信息中动作开始帧t
end
和动作结束帧t 作为边界分割而成的2M+1个片段，其中有M个动作片段，有M+1个背景片段，第j个动作片段的类别标记为cj，背景片段则均标记为0；
(3‑2).对于每一个视频片段S，其帧流图像序列为光流图像序列为
其中P表示片段内的图像数目；
(3‑3).将片段S平均分割为α个子片段后，对每个子片段进行稀疏采样，即随机选择子片段内的三个相差τ帧的帧流图像序列和对应的光流图像序列，每个片段共分别获得α组帧流图像序列和光流图像序列；
(3‑4).使用深层神经网络结构作为稀疏采样视频动作识别模型的骨干结构，并为(3‑
2)中片段的双流采样序列提供两个并行神经网络结构A3与A4，均设置神经网络Softmax层和利用交叉熵损失函数；具体操作是：
a.假定Softmax层获得的视频动作类别k的输出概率为yk，其
中C表示动作类别总数，表示Softmax层的输入，e表示自然底数；
b.交叉熵损失函数的计算公式为其中表示视频
动作类别k的真实概率，若片段属于类别k则为1，否则为0；
(3‑5).将α组帧流图像序列和光流图像序列的采样分别输入(3‑4)中的稀疏采样视频动作识别模型中的A3和A4，各自通过Softmax层获取概率，然后利用片段的动作种类标记信息计算交叉熵损失；
(3‑6).利用随机梯度下降算法反向传播分别对稀疏采样视频动作识别模型内的A3和A4各层的参数进行调整更新；
步骤(4).对新视频根据边界分割模型确定候选片段并用稀疏采样动作识别模型判定候选片段动作类别，完成定位任务；具体方法是：
(4‑1).以每秒10～50帧的采样率将新视频V'处理为一个帧流图像序列通过帧流图像生成对应的水平方向与竖直方向的光流图像序列
(4‑2).将帧流图像序列和光流图像序列输入双流神经网络边
界分割模型，每隔8帧选16帧作为候选边界单元，将单元内的帧流图像序列和光流图像序列分别输入至分割模型内的A1与A2，分别得到二维向量输出：和单元对应结果BR＝Average(BR1,BR2)，Average(·,·)表示取多个向量对应元素的平均值，表示单元属于边界单元与非边界单元的概率；
(4‑3).将属于边界单元概率大于阈值θ的单元设为边界单元，得到M'个边界单元并在所有边界单元的二分之一处对视频V'进行分割，获得分割后的2M'+1个片段，并记录每个片段的开始帧与结束帧
(4‑4).将(4‑3)得到的每个片段平均分割为α个子片段，再对每个子片段进行稀疏采样，得到α组帧流图像序列和光流图像序列；
(4‑5).将稀疏采样得到的α组帧流图像序列和光流图像序列分别输入至稀疏采样视频动作识别模型内的A3和A4，对应输出α×(C+1)维矩阵：和其中
C+1表示包含背景的动作类别数目，片段对应输出C+1维向量；
RR＝Average(Mean(RR3),Mean(RR4))；
其中Average(·,·)取多个向量对应元素的平均值，Mean(·)取二维矩阵每一列的平均值，RR表示片段属于各个动作类别的概率，对于每一个片段记录其RR中概率最大的类别作为其动作识别结果c'；
(4‑6).对于动作识别结果c'，若一个片段识别结果为非背景类，则结合(4‑3)记录的片段开始帧和结束帧，将其加入最终结果Result中；
(4‑7).对于新视频V'，最终的时序动作定位结果表示为其中
表示定位得到的动作片段总数，对于第j个片段，表示该片段在视频中的开始帧，表示该片段在视频中的结束帧，表示该片段的动作识别结果。

说明书

技术领域

[0001] 本发明属于计算机技术领域，具体是视频分析中的时序动作定位技术领域，涉及一种基于边界分割和稀疏采样的双流神经网络进行时序动作定位的方法。

背景技术

[0002] 随着智能设备的推广以及智慧城市的建设，各类摄像头已成为监控安防、自动驾驶、智慧医疗等领域不可或缺的硬件设备。面对每时每刻产生的海量视频，人工处理非常困难且效率低不能满足实际的应用需求，视频分析领域应运而生。该领域主要研究视频中的目标分割、目标追踪、目标识别、动作识别、语义分析、动作定位等颇具挑战的难题。

[0003] 时序动作定位是指定位视频中目标动作出现的时间，而时空动作定位是指定位视频中的目标动作出现的时间以及实施动作的对象。时序动作定位任务一般分为两个阶段：搜索候选片段和识别候选片段动作；定位不仅要求标注动作发生的时间片段还需要识别动作的种类。例如，定位一名运动员短跑动作的视频即需要确定跑步片段的开始时间和结束时间，同时识别该片段的动作种类为跑步。相比图像分析领域，视频分析还需要考虑视频帧间的时序关系，涉及更为复杂的矩阵和张量计算；而传统视频分析算法主要采用人工特征如轨迹特征并用分类器如支持向量机进行动作识别，不能提供端到端的学习，使得其性能受限。

[0004] 近年来，采用GPU提供高性能并行计算的硬件逐步涌现，促使以卷积神经网络(CNN：Convolutional Neural Network)为研究对象的深度学习领域飞速发展，为解决上述问题提供了有效途径。例如，双流卷积神经网络结合图像处理中的光流算法与卷积神经网络提取更优质的时序特征后，采用滑窗算法搜索候选动作片段和支持向量机识别片段动作；片段卷积神经网络(S‑CNN：Segment‑CNNs)以三维卷积神经网络(C3D)为骨干结构先以滑窗算法搜索候选动作片段，然后以神经网络分类器识别候选动作片段，完成时序动作定位任务；结构化片段网络对视频以单元为单位提取CNN特征，通过结构时间金字塔池化获得由多个单元特征组成的片段特征，最后由线性分类器进行片段动作分类。

[0005] 然而，已有的时序动作定位方法的不足主要表现在以下方面：第一，在搜索候选片段阶段，早期选择的滑窗算法以及后来的结构时间金字塔池化法都会对视频进行不同尺度的重复扫描，极大地增加了计算开销；第二，在识别候选片段动作阶段，未充分考虑背景(不属于任何动作类)干扰导致识别结果不准确，许多方法对包含大量冗余信息的全部视频片段进行处理造成繁重的计算量；第三，很多方法定位的动作片段存在时序上的重叠，需要对其进行后处理(如非极大值抑制)，这也说明其在搜索候选片段时已有冗余信息。由此迫切需要设计一种既能减少冗余计算开销又能提高时序动作定位性能的方法。

发明内容

[0006] 本发明的目的就是针对现有技术的不足，提供一种基于边界分割和稀疏采样的双流神经网络时序动作定位方法，可以高效地搜索视频动作的候选片段，并准确判定视频动作类别。

[0007] 本发明方法首先获取视频数据集，然后进行如下操作：

[0008] 步骤(1).对视频采样处理，获得视频帧流图像序列和视频光流图像序列；

[0009] 步骤(2).构建双流神经网络边界分割模型，完整视频的帧流以及光流图像序列作为输入，视频动作的边界信息作为输出；

[0010] 步骤(3).构建稀疏采样动作识别模型，输入为视频片段的帧流以及光流图像序列的稀疏采样序列，输出为视频片段对各动作类别的概率；

[0011] 步骤(4).对新视频根据边界分割模型确定候选片段并用稀疏采样动作识别模型判定候选片段动作类别，完成定位任务。

[0012] 进一步，步骤(1)具体方法是：

[0013] (1‑1).以每秒10～50帧的采样率将视频V处理为一个帧流图像序列N表示帧流图像数目，fi表示序列中第i幅宽为w、高为h的RGB三通道图像；

[0014] (1‑2).通过帧流图像生成对应的水平方向与竖直方向的光流图像序列N表示光流图像数目，且与帧流图像的数目相同，ofi表示序列中第i幅宽为w、高为h包含竖直方向和水平方向的光流双通道图像，且根据下标i与帧流图像对应。

[0015] 进一步，步骤(2)具体方法是：

[0016] (2‑1) .参与模型构建的视频包含动作片段标记信息，标记信息记为其中M表示不含背景片段的视频V内动作片段数目，对于第j个动作片段，表示该片段动作开始帧，表示该片段动作结束帧，cj以数字表示该片段对应的动作种类，C表示视频的动作种类数目；

[0017] 双流序列包括帧流图像序列和光流图像序列边界分割模型采用每隔8帧选16帧作为候选边界单元的策略；

[0018] (2‑2).根据标记信息L获得所有动作片段的开始帧和结束帧信息，若候选边界单元内包含任意开始帧或结束帧，则定义其为边界单元并将该单元标记为正例，否则标记为负例；

[0019] (2‑3).使用浅层神经网络结构作为双流神经网络边界分割模型的骨干结构，为双流序列提供两个并行神经网络结构A1与A2，采用Softmax层为输出层并利用交叉熵损失函数；具体操作是：

[0020] ①假定Softmax层的输出概率为yb，其中表示Softmax层的输入，e表示自然底数，y0表示为非边界单元的概率，y1表示为边界单元的概率；

[0021] ② 假定 S of tm a x 层的真实标记为则交叉熵损失函数为若该单元为边界单元则否则

[0022] (2‑4).将候选边界单元的帧流图像序列和光流图像序列分别输入双流神经网络边界分割模型中的A1与A2，各自通过Softmax输出层获取该候选单元属于边界单元的概率，然后利用(2‑2)的正负例单元标记信息计算交叉熵损失；

[0023] (2‑5).利用随机梯度下降算法优化训练双流神经网络边界分割模型，通过反向传播分别对双流神经网络边界分割模型内的A1和A2各层的参数并进行调整更新。

[0024] 进一步，步骤(3)具体方法是：

[0025] (3‑1).输入的视频片段是原始视频根据标记信息中动作开始帧start endt 和动作结束帧t 作为边界分割而成的2M+1个片段，其中有M个动作片段，有M+1个背景片段，第j个动作片段的类别标记为cj，背景片段则均标记为0；

[0026] (3‑2).对于每一个视频片段S，其帧流图像序列为光流图像序列为其中P表示片段内的图像数目；

[0027] (3‑3).将片段S平均分割为α个子片段后，对每个子片段进行稀疏采样，即随机选择子片段内的三个相差τ帧的帧流图像序列和对应的光流图像序列，每个片段共分别获得α组帧流图像序列和光流图像序列；

[0028] (3‑4).使用深层神经网络结构作为稀疏采样视频动作识别模型的骨干结构，并为(3‑2)中片段的双流采样序列提供两个并行神经网络结构A3与A4，均设置神经网络Softmax层和利用交叉熵损失函数；具体操作是：

[0029] a .假定Softm ax层获得的视频动作类别k的输出概率为yk ，其中C表示动作类别总数，表示Softmax层的输入，e表示自然底数；

[0030] b.交叉熵损失函数的计算公式为其中表示视频动作类别k的真实概率，若片段属于类别k则为1，否则为0；

[0031] (3‑5).将α组帧流图像序列和光流图像序列的采样分别输入(3‑4)中的稀疏采样视频动作识别模型中的A3和A4，各自通过Softmax层获取概率，然后利用片段的动作种类标记信息计算交叉熵损失；

[0032] (3‑6).利用随机梯度下降算法反向传播分别对稀疏采样视频动作识别模型内的A3和A4各层的参数进行调整更新。

[0033] 进一步，步骤(4)具体方法是：

[0034] (4‑1).以每秒10～50帧的采样率将新视频V'处理为一个帧流图像序列通过帧流图像生成对应的水平方向与竖直方向的光流图像序列

[0035] (4‑2).将帧流图像序列和光流图像序列输入双流神经网络边界分割模型，每隔8帧选16帧作为候选边界单元，将单元内的帧流图像序列和光流图像序列分别输入至分割模型内的A1与A2，分别得到二维向量输出：和单元对应结果BR＝Average(BR1,BR2)，Average(·,·)表示取多个向量对应元素的平均值，表示单元属于边界单元与非边界单元的概率；

[0036] (4‑3).将属于边界单元概率大于阈值θ的单元设为边界单元，得到M'个边界单元并在所有边界单元的二分之一处对视频V'进行分割，获得分割后的2M'+1个片段，并记录每个片段的开始帧与结束帧

[0037] (4‑4).将(4‑3)得到的每个片段平均分割为α个子片段，再对每个子片段进行稀疏采样，得到α组帧流图像序列和光流图像序列；

[0038] (4‑5).将稀疏采样得到的α组帧流图像序列和光流图像序列分别输入至稀疏采样视频动作识别模型内的A3和A4，对应输出α×(C+1)维矩阵：和其中C+1表示包含背景的动作类别数目，片段对应输出C+1维向量；

[0039] RR＝Average(Mean(RR3),Mean(RR4))；

[0040] 其中Average(·,·)取多个向量对应元素的平均值，Mean(·)取二维矩阵每一列的平均值，RR表示片段属于各个动作类别的概率，对于每一个片段记录其RR中概率最大的类别作为其动作识别结果c'；

[0041] (4‑6).对于动作识别结果c'，若一个片段识别结果为非背景类，则结合(4‑3)记录的片段开始帧和结束帧，将其加入最终结果Result中；

[0042] (4‑7).对于新视频V'，最终的时序动作定位结果表示为其中表示定位得到的动作片段总数，对于第j个片段，表示该片段在视频中的开始帧，表示该片段在视频中的结束帧，表示该片段的动作识别结果。

[0043] 本发明方法首先对视频采样处理后获得视频帧流图像序列和视频光流图像序列；其次，构建双流神经网络边界分割模型，以完整视频的帧流以及光流图像序列为输入，以视频动作的边界信息为输出；再次，构建稀疏采样动作识别模型，输入为视频片段的帧流以及光流图像序列的稀疏采样序列，输出为视频片段对各动作类别(含背景)的概率。采用边界分割策略搜索候选片段,从根本上规避不同尺度下视频片段被重复处理的问题，同时能够抑制后续候选片段在动作识别阶段中的背景类干扰；通过稀疏采样，网络模型仅需几幅双流图像即可获取片段类别信息，减少冗余特征的提取。

[0044] 本发明方法充分考虑了视频数据具有时空一致性的特点，结合光流发生成光流图像为视频动作定位模型提供更多的时空运动信息，从边界分割策略和稀疏采样的角度为时序动作定位任务提供新的解决方案，提高了时序动作定位的准确率，可广泛应用于视频摘要、事件检测与捕捉、安防监控、自动驾驶等实际的应用场景。

实施方案

[0046] 以下结合附图对本发明作进一步说明。

[0047] 一种基于边界分割和稀疏采样的双流神经网络时序动作定位方法，重点考虑视频的时空一致性特点，利用反映动作变化的光流图像作为网络模型的输入数据流，以提供更能反映动作有关物体和场景的时空运动信息。主要思想是采用边界分割策略搜索候选片段以规避不同尺度下视频片段被重复处理的问题，同时能够抑制后续候选片段在动作识别阶段中的背景类干扰；利用稀疏采样策略，网络模型仅需几幅双流图像即可获取片段的类别信息，可以减少冗余特征的提取。通过这种方式，可以有效地进行时序动作定位。

[0048] 如图1，该方法首先获取视频数据集，然后进行如下操作：

[0049] 步骤(1).对视频采样处理，获得视频帧流图像序列和视频光流图像序列。具体方法是：

[0050] (1‑1).以每秒10～50帧的采样率(本实施例采用每秒25帧)将视频V处理为一个帧流图像序列其中N表示帧流图像数目，fi表示序列中第i幅宽为w、高为h的RGB三通道图像；

[0051] (1‑2).通过帧流图像生成对应的水平方向与竖直方向的光流图像序列其中N表示光流图像数目，且与帧流图像的数目相同，ofi表示序列中第i幅宽为w、高为h包含竖直方向和水平方向的光流双通道图像，且根据下标i与帧流图像对应；光流图像用于描述相对于观察者运动所造成的观测目标、表面或边缘的变化。

[0052] 光流图像的生成选用常见的光流法，本实施例采用卢卡斯‑卡纳德方法计算光流。

[0053] 步骤(2).构建双流神经网络边界分割模型，完整视频的帧流以及光流图像序列作为输入，视频动作的边界信息作为输出。具体方法是：

[0054] (2‑1) .参与模型构建的视频包含动作片段标记信息，标记信息记为其中M表示不含背景片段的视频V内动作片段数目，对于第j个动作片段，表示该片段动作开始帧，表示该片段动作结束帧，cj以数字表示该片段对应的动作种类，C表示视频的动作种类数目；

[0055] 双流序列包括帧流图像序列和光流图像序列边界分割模型采用每隔8帧选16帧作为候选边界单元的策略；

[0056] (2‑2).根据标记信息L获得所有动作片段的开始帧和结束帧信息，若候选边界单元内包含任意开始帧或结束帧，则定义其为边界单元并将该单元标记为正例，否则标记为负例；一般来说边界单元数目较少，可以通过数据增强方法(如随机裁剪等)增加边界单元数目；

[0057] (2‑3).使用考虑了时序信息的较浅层神经网络结构(如三维卷积神经网络C3D)作为双流神经网络边界分割模型的骨干结构，为双流序列提供两个并行神经网络结构A1与A2，采用Softmax层为输出层并利用交叉熵损失函数；

[0058] 采用神经网络Softmax层和利用交叉熵损失函数操作具体是：

[0059] ①假定Softmax层的输出概率为yb，其中表示Softmax层的输入，e表示自然底数，y0表示为非边界单元的概率，y1表示为边界单元的概率；

[0060] ② 假定 S o f t m a x 层的真实标记为则交叉熵损失函数为若该单元为边界单元则否则

[0061] (2‑4).将候选边界单元的帧流图像序列和光流图像序列分别输入双流神经网络边界分割模型中的A1与A2，各自通过Softmax输出层获取该候选单元属于边界单元的概率，然后利用(2‑2)的正负例单元标记信息计算交叉熵损失；

[0062] (2‑5).利用随机梯度下降算法优化训练双流神经网络边界分割模型，通过反向传播分别对双流神经网络边界分割模型内的A1和A2各层的参数并进行调整更新。

[0063] 步骤(3).构建稀疏采样动作识别模型，输入为视频片段的帧流以及光流图像序列的稀疏采样序列，输出为视频片段对各动作类别(含背景)的概率。具体方法是：

[0064] (3‑1).输入的视频片段是原始视频根据标记信息中动作开始start end
帧t 和动作结束帧t 作为边界分割而成的2M+1个片段，其中有M个动作片段，有M+1个背景片段，第j个动作片段的类别标记为cj，背景片段则均标记为0；

[0065] (3‑2).对于每一个视频片段S，其帧流图像序列为光流图像序列为其中P表示片段内的图像数目；

[0066] (3‑3).将片段S平均分割为α(取3)个子片段后，对每个子片段进行稀疏采样，即随机选择子片段内的三个相差τ帧(取1)的帧流图像序列和对应的光流图像序列，每个片段共分别获得α组(每组三帧)帧流图像序列和光流图像序列；

[0067] (3‑4).使用考虑了时序信息的较深层神经网络结构(如膨胀三维卷积神经网络I3D：Inflated 3‑Dimensional Convolution Neural Networks)作为稀疏采样视频动作识别模型的骨干结构，并为(3‑2)中片段的双流采样序列提供两个并行神经网络结构A3与A4，均设置神经网络Softmax层和利用交叉熵损失函数；

[0068] 设置神经网络Softmax层和利用交叉熵损失函数操作具体是：

[0069] ①假定Sof tma x层获得的视频动作类别 k的输出概率为yk ，其中C表示动作类别总数(背景类别表示为0)，表示Softmax层的输入，e表示自然底数；

[0070] ②交叉熵损失函数的计算公式为其中表示视频动作类别k的真实概率，若片段属于类别k则为1，否则为0。

[0071] (3‑5).将α组帧流图像序列和光流图像序列的采样分别输入(3‑4)中的稀疏采样视频动作识别模型中的A3和A4，各自通过Softmax层获取概率，然后利用片段的动作种类标记信息计算交叉熵损失；

[0072] (3‑6).利用随机梯度下降算法反向传播分别对稀疏采样视频动作识别模型内的A3和A4各层的参数进行调整更新。

[0073] 步骤(4).对新视频根据边界分割模型确定候选片段并用稀疏采样动作识别模型判定候选片段动作类别，完成定位任务。具体方法是：

[0074] (4‑1).对于新视频V'通过(1‑1)方法获得其帧流图像序列和光流图像序列

[0075] (4‑2).将帧流图像序列和光流图像序列输入双流神经网络边界分割模型，每隔8帧选16帧作为候选边界单元，将单元内的帧流图像序列和光流图像序列分别输入至分割模型内的A1与A2，分别得到二维向量输出：和单元对应结果BR＝Average(BR1,BR2)，Average(·,·)表示取多个向量对应元素的平均值，表示单元属于边界单元与非边界单元的概率；

[0076] (4‑3).将属于边界单元概率大于阈值θ(取0.7)的单元设为边界单元(若多个连续单元均满足条件，则选择概率最大的单元设为边界单元)，这样得到M'个边界单元并在所有边界单元的二分之一处对视频V'进行分割，获得分割后的2M'+1个片段，并记录每个片段的开始帧与结束帧

[0077] (4‑4).将(4‑3)得到的每个片段通过(3‑2)将片段平均分割为α(取3)个子片段，再对每个子片段进行稀疏采样，得到α组帧流图像序列和光流图像序列；

[0078] (4‑5).将稀疏采样得到的α组帧流图像序列和光流图像序列分别输入至稀疏采样视频动作识别模型内的A3和A4，对应输出α×(C+1)维矩阵：和其中C+1表示包含背景的动作类别数目，片段对应输出C+1维向量：

[0079] RR＝Average(Mean(RR3),Mean(RR4))；

[0080] 其中Average(·,·)取多个向量对应元素的平均值，Mean(·)取二维矩阵每一列的平均值，RR表示片段属于各个动作类别(含背景)的概率，对于每一个片段记录其RR中概率最大的类别作为其动作识别结果c'；

[0081] (4‑6).对于动作识别结果c'，若一个片段识别结果为非背景类，则结合(4‑3)记录的片段开始帧和结束帧，将其加入最终结果Result中；

[0082] (4‑7).对于新视频V'，最终的时序动作定位结果表示为其中表示定位得到的动作片段总数，对于第j个片段，表示该片段在视频中的开始帧，表示该片段在视频中的结束帧，表示该片段的动作识别结果。

[0083] 本实施例所述的内容仅仅是对发明构思的实现形式的列举，本发明的保护范围的不应当被视为仅限于实施例所陈述的具体形式，本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

附图说明

[0045] 图1是本发明方法的流程图。

1计算机用机箱 2一种计算机 3一种计算机机壳 4一种计算机机箱 5一种计算机机箱 6一种计算机机箱 7一种计算机机箱 8一种计算机机箱 9结构量计算机的MSD乘法计算的方法 10易拆装计算机机箱