首页 > 专利 > 杭州电子科技大学 > 一种基于稀疏低秩编码的视频动作识别方法专利详情

一种基于稀疏低秩编码的视频动作识别方法 0 0

有效专利查看PDF

申请进展

基本信息

申请人信息

代理人信息

摘要

法律状态

权利要求

说明书

专利申请流程有哪些步骤？

申请

申请号：指国家知识产权局受理一件专利申请时给予该专利申请的一个标示号码。唯一性原则。

申请日：提出专利申请之日。

2016-05-31

申请公布

申请公布指发明专利申请经初步审查合格后，自申请日（或优先权日）起18个月期满时的公布或根据申请人的请求提前进行的公布。

申请公布号：专利申请过程中，在尚未取得专利授权之前，国家专利局《专利公报》公开专利时的编号。

申请公布日：申请公开的日期，即在专利公报上予以公开的日期。

2016-11-23

授权

授权指对发明专利申请经实质审查没有发现驳回理由，授予发明专利权；或对实用新型或外观设计专利申请经初步审查没有发现驳回理由，授予实用新型专利权或外观设计专利权。

2019-03-08

预估到期

发明专利权的期限为二十年，实用新型专利权期限为十年，外观设计专利权期限为十五年，均自申请日起计算。专利届满后法律终止保护。

2036-05-31

基本信息

有效性	有效专利	专利类型	发明专利
申请号	CN201610377217.3	申请日	2016-05-31
公开/公告号	CN106056082B	公开/公告日	2019-03-08
授权日	2019-03-08	预估到期日	2036-05-31
申请年	2016年	公开/公告年	2019年
缴费截止日
分类号	G06K9/00	主分类号	G06K9/00
是否联合申请	独立申请	文献类型号	B
独权数量	3	从权数量	0
权利要求数量	3	非专利引证数量	1
引用专利数量	6	被引证专利数量	0
非专利引证	1、杜海顺等.基于Gabor低秩恢复稀疏表示分类的人脸图像识别方法《.电子学报》.2014,第42卷(第12期),;
引用专利	CN103632385A、CN104933439A、CN104298977A、CN105184298A、CN103824063A、US2016/0050343A1	被引证专利
专利权维持	6	专利申请国编码	CN
专利事件		事务标签	公开、实质审查、授权

申请人信息

申请人	杭州电子科技大学	第一申请人	杭州电子科技大学
专利权人	杭州电子科技大学	当前专利权人	杭州电子科技大学
发明人	李平、彭勇、计忠平、徐向华	第一发明人	李平
地址	浙江省杭州市下沙高教园区2号大街	邮编	310018
申请人数量	1	发明人数量	4
申请人所在省	浙江省	申请人所在市	浙江省杭州市

代理人信息

代理机构

专利代理机构是经省专利管理局审核，国家知识产权局批准设立，可以接受委托人的委托，在委托权限范围内以委托人的名义办理专利申请或其他专利事务的服务机构。

浙江杭州金通专利事务所有限公司

代理人

专利代理师是代理他人进行专利申请和办理其他专利事务，取得一定资格的人。

王佳健

摘要

本发明涉及一种基于稀疏低秩编码的视频动作识别方法。本发明对给定的视频集合进行如下操作：1）对每个视频从空间和时间两个维度使用立方体检测和描述视频动作的兴趣点，并形成相应的局部时空特征；2）利用稀疏低秩矩阵分解对局部时空特征做编码，形成对应兴趣点的稀疏低秩编码表示，并用改进的平均池化技术获得全局时空特征向量作为视频的数据表示；3）对所有视频样本实施上述步骤获得相应的时空数据表示，并分为训练样本和测试样本，再利用支持向量机建立分类模型用于识别测试样本的视频动作。本发明能够从局部和全局角度利用视频兴趣点的时空特征有力刻画视频动作，并通过稀疏低秩编码获得更优的视频数据表示，提高了视频动作识别的准确率。

摘要附图
说明书附图：图1

法律状态

序号	法律状态公告日	法律状态	法律状态信息
1	2019-03-08	授权
2	2016-11-23	实质审查的生效	IPC(主分类): G06K 9/00 专利申请号: 201610377217.3 申请日: 2016.05.31
3	2016-10-26	公开

权利要求

权利要求书是申请文件最核心的部分，是申请人向国家申请保护他的发明创造及划定保护范围的文件。

1.一种基于稀疏低秩编码的视频动作识别方法，该方法的特征在于对给定的视频集合，进行如下操作：
1)对每个视频从空间和时间两个维度使用立方体算子检测和描述视频动作的兴趣点，并形成相应的局部时空特征；
2)利用稀疏低秩矩阵分解对局部时空特征做编码，形成对应兴趣点的稀疏低秩编码表示，并采用改进的平均池化技术获得全局时空特征向量作为一个视频的数据表示；
3)对所有的视频样本实施上述步骤后，可获得相应的时空数据表示，将其分为训练样本和测试样本，利用支持向量机建立分类模型用于识别测试样本的视频动作；
所述的步骤2)中的利用稀疏低秩矩阵分解对局部时空特征做编码，形成对应兴趣点的稀疏低秩编码表示，并采用改进的平均池化技术获得全局时空特征向量作为一个视频的数据表示，具体是：
2.1)视频的特征矩阵X分解为两部分，一部分为从数据字典重构获得的低秩矩阵另一部分为噪声矩阵并对低秩矩阵Z添加l1范式约束||Z||1，使得重构矩阵Z尽可能逼近视频中兴趣点的局部时空特性结构；
2.2)数据字典A通过对视频的特征矩阵X运用k均值聚类算法获得，即将视频的所有兴趣点表示聚为500个簇，而簇中心以列向量的形式组成数据字典A；
2.3)根据视频的特征矩阵及其数据字典，计算最优稀疏低秩编码矩阵Z的目标函数为其中，常数a>0，λ>0，符号||·||*表示矩阵的核范数为矩阵的奇异值之和，符号||·||2,1表示矩阵的l2,1范数，即先求矩阵各列向量的l2范式再求其l1范式；
2.4)为了减少求解核范数的时间复杂度，将矩阵Z分解为两个矩阵，即和用Frobenius范数||·||F近似替换核范数，则计算效率更高的目标函数为这样，该目标函数中共有四个变量需要优化；
2.5)利用变量交替迭代优化方法求解2.4)中目标函数的最优解，可得到视频的最优稀疏低秩编码表示Z*，其中变量交替迭代方法的本质特点在于每轮迭代中依次固定其他变量的同时仅优化一个变量；
2.6)最优稀疏低秩编码表示Z*由500个维度为n的行向量组成，即{z1,z2,…,z500}，对其*
运用改进的平均池化技术，即对矩阵Z中各行向量依次取前20个最大元素值的算术平均值，便可以得到视频的全局时空特征向量x，其维度为500。

2.如权利要求1所述的基于稀疏低秩编码的视频动作识别方法，其特征在于：所述的步骤1)中的对每个视频从空间和时间两个维度使用立方体算子检测和描述视频动作的兴趣点，并形成相应的局部时空特征，具体是：
1.1)对每个视频分别用二维高斯光滑核与一维高波滤波器从空间维度和时间维度生成n个兴趣点，并采用立方体描述子表示这些局部时空兴趣点；
1.2)单个视频的所有兴趣点表示组成的集合记为其中每个兴趣点表
示Ii(i＝1,2,…,n)为长度为80维的具有局部时空特性的列向量，这些列向量组成该视频对应的特征矩阵

3.如权利要求1所述的基于稀疏低秩编码的视频动作识别方法，其特征在于：所述的步骤3)中的对所有的视频样本实施上述步骤后，可获得相应的时空数据表示，将其分为训练样本和测试样本，利用支持向量机建立分类模型用于识别测试样本的视频动作，具体是：
3.1)对所有的视频样本实施步骤1)和步骤2)后，可获得相应的时空数据表示{y1,y2,…,ym}，此处设有m个视频样本；
3.2)将m个视频样本一分为二，其中80％作为训练样本，20％作为测试样本，利用支持向量机在训练样本上建立分类模型，则输入测试样本的数据表示可通过支持向量机分类器获得对应的类别标记，即实现了视频动作的识别功能。

说明书

技术领域

[0001] 本发明属于视频分析技术领域，特别是基于稀疏低秩编码的视频动作识别方法。

背景技术

[0002] 随着视频采集设备的日益丰富和城市安防监控需求的逐步增大，各类视频数据源源不断地产生，使得视频大数据的理解受到学术界和产业界研究人员的广泛关注，同时引起了国家高层的重视。不同于传统的文本和图像，视频往往呈现非结构化、规模大的特点且具有时序关联性，给理解和分析视频数据带来很大挑战。常见的视频数据应用包括目标定位与跟踪、目标识别、动作识别、事件检测等。其中，视频动作识别作为典型的视频理解问题，可用于地铁广场监控、交通流监管，同时为视频数据的高层语义分析奠定基础，例如视频事件一般由多个相互关联的视频动作组成，因而视频动作识别方法的研究有利于提高视频事件检测技术的发展。

[0003] 视频的数据表示是实现视频动作识别的关键，即对视频提取特征并将其表示为向量形式。最为直接的方法是提取视频帧的图像特征，如SIFT、SURF等，但是该方法未考虑视频帧之间的时间关系，不能反映兴趣点的时空变化。由此，研究人员提出许多时空兴趣点提取方法，比如立方体(Cuboid)算子，分别从时间和空间两个维度提取给定视频的兴趣点，并用合适的描述子表征兴趣点。同时，对兴趣点表征向量的进一步优化是提升视频动作识别效果的重要途径，例如词袋(BoW)表示、稀疏表示、低秩表示、非负矩阵分解等等。然后，对优化后的兴趣点表示利用最大池化技术或平均池化技术获得视频的向量化特征表示。最后，在视频样本集的新特征表示上建立分类模型，用于对未标记的视频样本进行动作识别。

[0004] 上述方法存在一些缺陷，例如词袋表示和非负矩阵分解均未充分考虑视频样本与字典间的重构关系、稀疏表示未考虑重构矩阵的低秩特性、低秩表示未考虑重构矩阵的稀疏特性，使得视频样本的特征表示不能很好地刻画动作的兴趣点。另外，最大池化技术仅考虑了占比最大兴趣点而忽略了其他重要兴趣点；平均池化技术由于利用了所有的兴趣点特征，使之不可避免地将一些噪声兴趣点特征用于计算视频的全局特征表示。总体而言，这些视频特征表示方法或多或少都存在无法克服的缺点，不利于视频样本分类器的建立，直接影响了视频动作的识别效果。因此，迫切需要设计一种能准确反映视频时空兴趣点结构的特征编码方法，同时考虑局部和全局信息，从而构建泛化能力更强的视频动作识别分类器，提高识别的精度。

发明内容

[0005] 为了准确表征视频动作序列的时空结构，从局部和全局两个角度反映视频中兴趣点的时空信息，增强视频动作识别的效果，本发明提出了一种基于稀疏低秩编码的视频动作识别方法，该方法包括以下步骤：

[0006] 1、获取视频样本集合后，进行以下操作：

[0007] 1)对每个视频从空间和时间两个维度使用立方体算子检测和描述视频动作的兴趣点，并形成相应的局部时空特征。

[0008] 2)利用稀疏低秩矩阵分解对局部时空特征做编码，形成对应兴趣点的稀疏低秩编码表示，并采用改进的平均池化技术获得全局时空特征向量作为一个视频的数据表示。

[0009] 3)对所有的视频样本实施上述步骤后，可获得相应的时空数据表示，将其分为训练样本和测试样本，利用支持向量机建立分类模型用于识别测试样本的视频动作。

[0010] 进一步，所述的步骤1)中的对每个视频从空间和时间两个维度使用立方体算子检测和描述视频动作的兴趣点，并形成相应的局部时空特征，具体是：

[0011] 1.1)对每个视频分别用二维高斯光滑核(Gaussian smoothing kernel)与一维高波滤波器(Gabor filter)从空间维度和时间维度生成n个兴趣点，并采用立方体描述子(Cuboid descriptor)表示这些局部时空兴趣点。

[0012] 1.2)单个视频的所有兴趣点表示组成的集合记为其中每个兴趣点表示Ii(i＝1,2,…,n)为长度为80维的具有局部时空特性的列向量，这些列向量组成该视频对应的特征矩阵

[0013] 进一步，所述的步骤2)中的利用稀疏低秩矩阵分解对局部时空特征做编码，形成对应兴趣点的稀疏低秩编码表示，并采用改进的平均池化技术获得全局时空特征向量作为一个视频的数据表示，具体是：

[0014] 2.1)视频的特征矩阵X分解为两部分，一部分为从数据字典为字典的原子个数，80为字典原子的维度)重构获得的低秩矩阵另一部分为噪声矩阵并对低秩矩阵Z添加l1范式约束||Z||1，使得重构矩阵Z尽可能逼近视频中兴趣点的局部时空特性结构。

[0015] 2.2)数据字典A通过对视频的特征矩阵X运用k均值(k-means)聚类算法获得，即将视频的所有兴趣点表示聚为500个簇，而簇中心以列向量的形式组成数据字典A。

[0016] 2.3)根据视频的特征矩阵及其数据字典，计算最优稀疏低秩编码矩阵Z的目标函数为

[0017]

[0018] 其中，常数α>0，λ>0，符号||·||*表示矩阵的核范数为矩阵的奇异值之和，符号||·||2,1表示矩阵的l2,1范数，即先求矩阵各列向量的l2范式再求其l1范式。

[0019] 2.4)为了减少求解核范数的时间复杂度，特将矩阵Z分解为两个矩阵，即和用Frobenius范数||·||F近似替换核范数，则计算效率更高的目标函数为

[0020]

[0021] 这样，该目标函数中共有四个变量需要优化。

[0022] 2.5)利用变量交替迭代优化方法求解2.4)中目标函数的最优解，可得到视频的最*优稀疏低秩编码表示Z ，其中变量交替迭代方法的本质特点在于每轮迭代中依次固定其他变量的同时仅优化一个变量。

[0023] 2.6)最优稀疏低秩编码表示Z*由500个维度为n的行向量组成，即{z1,z2,…,z500}，对其运用改进的平均池化技术，即对矩阵Z*中各行向量依次取前20个最大元素值的算术平均值(先对行向量中的n个元素做降序排列)，便可以得到视频的全局时空特征向量x，其维度为500。

[0024] 所述的步骤3)中的对所有的视频样本实施上述步骤后，可获得相应的时空数据表示，将其分为训练样本和测试样本，利用支持向量机建立分类模型用于识别测试样本的视频动作，具体是：

[0025] 3.1)对所有的视频样本实施步骤1)和步骤2)后，可获得相应的时空数据表示{y1,y2,…,ym}，此处设有m个视频样本。

[0026] 3.2)将m个视频样本一分为二，其中80％作为训练样本(即具有动作类别标记的视频)，20％作为测试样本(即无标记的视频)，利用支持向量机(SVM)在训练样本上建立分类模型，则输入测试样本的数据表示可通过SVM分类器获得对应的类别标记，即实现了视频动作的识别功能。

[0027] 本发明提出了基于稀疏低秩编码的视频动作识别方法，其优点在于：通过立方体算子从空间和时间两个维度对视频检测和描述其兴趣点，能充分地刻画视频的动作序列特性；利用稀疏低秩矩阵分解基于字典矩阵对兴趣点特征进行重构表示，能有效地反映视频的兴趣点的时空信息；采用改进的平均池化技术对兴趣点的局部时空特征进行编码，能更好地刻画视频的全局特征建立泛化能力更强的分类器，从而提高了视频的动作识别效果，为智慧城市的安防监控等应用提供了技术支持。

实施方案

[0029] 参照附图1，进一步说明本发明：

[0030] 1、获取视频集合后，进行以下操作：

[0031] 1)对每个视频从空间和时间两个维度使用立方体算子检测和描述视频动作的兴趣点，并形成相应的局部时空特征。

[0032] 2)利用稀疏低秩矩阵分解对局部时空特征做编码，形成对应兴趣点的稀疏低秩编码表示，并采用改进的平均池化技术获得全局时空特征向量作为一个视频的数据表示。

[0033] 3)对所有的视频样本实施上述步骤后，可获得相应的时空数据表示，将其分为训练样本和测试样本，利用支持向量机建立分类模型用于识别测试样本的视频动作。

[0034] 步骤1)中所述的对每个视频从空间和时间两个维度使用立方体算子检测和描述视频动作的兴趣点，并形成相应的局部时空特征，具体是：

[0035] 1.1)对每个视频分别用二维高斯光滑核(Gaussian smoothing kernel)与一维高波滤波器(Gabor filter)从空间维度和时间维度生成n个兴趣点，并采用立方体描述子(Cuboid descriptor)表示这些局部时空兴趣点。

[0036] 1.2)单个视频的所有兴趣点表示组成的集合记为其中每个兴趣点表示Ii(i＝1,2,…,n)为长度为80维的具有局部时空特性的列向量，这些列向量组成该视频对应的特征矩阵

[0037] 步骤2)中的利用稀疏低秩矩阵分解对局部时空特征做编码，形成对应兴趣点的稀疏低秩编码表示，并采用改进的平均池化技术获得全局时空特征向量作为一个视频的数据表示，具体是：

[0038] 2.1)视频的特征矩阵X分解为两部分，一部分为从数据字典为字典的原子个数，80为字典原子的维度)重构获得的低秩矩阵另一部分为噪声矩阵并对低秩矩阵Z添加l1范式约束||Z||1，使得重构矩阵Z尽可能逼近视频中兴趣点的局部时空特性结构。

[0039] 2.2)数据字典A通过对视频的特征矩阵X运用k均值(k-means)聚类算法获得，即将视频的所有兴趣点表示聚为500个簇，而簇中心以列向量的形式组成数据字典A。

[0040] 2.3)根据视频的特征矩阵及其数据字典，计算最优稀疏低秩编码矩阵Z的目标函数为

[0041]

[0042] 其中，常数α>0，λ>0，符号||·||*表示矩阵的核范数为矩阵的奇异值之和，符号||·||2,1表示矩阵的l2,1范数，即先求矩阵各列向量的l2范式再求其l1范式。

[0043] 2.4)为了减少求解核范数的时间复杂度，特将矩阵Z分解为两个矩阵，即和用Frobenius范数||·||F近似替换核范数，则计算效率更高的目标函数为

[0044]

[0045] 这样，该目标函数中共有四个变量需要优化。

[0046] 2.5)利用变量交替迭代优化方法求解2.4)中目标函数的最优解，可得到视频的最优稀疏低秩编码表示Z*，其中变量交替迭代方法的本质特点在于每轮迭代中依次固定其他变量的同时仅优化一个变量。

[0047] 2.6)最优稀疏低秩编码表示Z*由500个维度为n的行向量组成，即{z1,z2,…,z500}，对其运用改进的平均池化技术，即对矩阵Z*中各行向量依次取前20个最大元素值的算术平均值(先对行向量中的n个元素做降序排列)，便可以得到视频的全局时空特征向量x，其维度为500。

[0048] 步骤3)中的对所有的视频样本实施上述步骤后，可获得相应的时空数据表示，将其分为训练样本和测试样本，利用支持向量机建立分类模型用于识别测试样本的视频动作，具体是：

[0049] 3.1)对所有的视频样本实施步骤1)和步骤2)后，可获得相应的时空数据表示{y1,y2,…,ym}，此处设有m个视频样本。

[0050] 3.2)将m个视频样本一分为二，其中80％作为训练样本(即具有动作类别标记的视频)，20％作为测试样本(即无标记的视频)，利用支持向量机(SVM)在训练样本上建立分类模型，则输入测试样本的数据表示可通过SVM分类器获得对应的类别标记，即实现了视频动作的识别功能。

[0051] 本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举，本发明的保护范围的不应当被视为仅限于实施例所陈述的具体形式，本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

附图说明

[0028] 图1是本发明的方法流程图。

1一种应用于远程视频会议的数据分析方法及系统 2一种基于大数据分析的视频图像处理方法及系统 3一种短视频分析处理方法、系统及计算机存储介质 4一种基于音视频分析技术的教师授课专注度的评估方法 5一种基于细粒度的多方面分析的短视频点击率预测方法 6一种视频直播环境监测分析调控方法、设备及计算机存储介质