[0005] 为了准确表征视频动作序列的时空结构,从局部和全局两个角度反映视频中兴趣点的时空信息,增强视频动作识别的效果,本发明提出了一种基于稀疏低秩编码的视频动作识别方法,该方法包括以下步骤:
[0006] 1、获取视频样本集合后,进行以下操作:
[0007] 1)对每个视频从空间和时间两个维度使用立方体算子检测和描述视频动作的兴趣点,并形成相应的局部时空特征。
[0008] 2)利用稀疏低秩矩阵分解对局部时空特征做编码,形成对应兴趣点的稀疏低秩编码表示,并采用改进的平均池化技术获得全局时空特征向量作为一个视频的数据表示。
[0009] 3)对所有的视频样本实施上述步骤后,可获得相应的时空数据表示,将其分为训练样本和测试样本,利用支持向量机建立分类模型用于识别测试样本的视频动作。
[0010] 进一步,所述的步骤1)中的对每个视频从空间和时间两个维度使用立方体算子检测和描述视频动作的兴趣点,并形成相应的局部时空特征,具体是:
[0011] 1.1)对每个视频分别用二维高斯光滑核(Gaussian smoothing kernel)与一维高波滤波器(Gabor filter)从空间维度和时间维度生成n个兴趣点,并采用立方体描述子(Cuboid descriptor)表示这些局部时空兴趣点。
[0012] 1.2)单个视频的所有兴趣点表示组成的集合记为 其中每个兴趣点表示Ii(i=1,2,…,n)为长度为80维的具有局部时空特性的列向量,这些列向量组成该视频对应的特征矩阵
[0013] 进一步,所述的步骤2)中的利用稀疏低秩矩阵分解对局部时空特征做编码,形成对应兴趣点的稀疏低秩编码表示,并采用改进的平均池化技术获得全局时空特征向量作为一个视频的数据表示,具体是:
[0014] 2.1)视频的特征矩阵X分解为两部分,一部分为从数据字典 为字典的原子个数,80为字典原子的维度)重构获得的低秩矩阵 另一部分为噪声矩阵并对低秩矩阵Z添加l1范式约束||Z||1,使得重构矩阵Z尽可能逼近视频中兴趣点的局部时空特性结构。
[0015] 2.2)数据字典A通过对视频的特征矩阵X运用k均值(k-means)聚类算法获得,即将视频的所有兴趣点表示聚为500个簇,而簇中心以列向量的形式组成数据字典A。
[0016] 2.3)根据视频的特征矩阵及其数据字典,计算最优稀疏低秩编码矩阵Z的目标函数为
[0017]
[0018] 其中,常数α>0,λ>0,符号||·||*表示矩阵的核范数为矩阵的奇异值之和,符号||·||2,1表示矩阵的l2,1范数,即先求矩阵各列向量的l2范式再求其l1范式。
[0019] 2.4)为了减少求解核范数的时间复杂度,特将矩阵Z分解为两个矩阵,即和 用Frobenius范数||·||F近似替换核范数,则计算效率更高的目标函数为
[0020]
[0021] 这样,该目标函数中共有四个变量需要优化。
[0022] 2.5)利用变量交替迭代优化方法求解2.4)中目标函数的最优解,可得到视频的最*优稀疏低秩编码表示Z ,其中变量交替迭代方法的本质特点在于每轮迭代中依次固定其他变量的同时仅优化一个变量。
[0023] 2.6)最优稀疏低秩编码表示Z*由500个维度为n的行向量组成,即{z1,z2,…,z500},对其运用改进的平均池化技术,即对矩阵Z*中各行向量依次取前20个最大元素值的算术平均值(先对行向量中的n个元素做降序排列),便可以得到视频的全局时空特征向量x,其维度为500。
[0024] 所述的步骤3)中的对所有的视频样本实施上述步骤后,可获得相应的时空数据表示,将其分为训练样本和测试样本,利用支持向量机建立分类模型用于识别测试样本的视频动作,具体是:
[0025] 3.1)对所有的视频样本实施步骤1)和步骤2)后,可获得相应的时空数据表示{y1,y2,…,ym},此处设有m个视频样本。
[0026] 3.2)将m个视频样本一分为二,其中80%作为训练样本(即具有动作类别标记的视频),20%作为测试样本(即无标记的视频),利用支持向量机(SVM)在训练样本上建立分类模型,则输入测试样本的数据表示可通过SVM分类器获得对应的类别标记,即实现了视频动作的识别功能。
[0027] 本发明提出了基于稀疏低秩编码的视频动作识别方法,其优点在于:通过立方体算子从空间和时间两个维度对视频检测和描述其兴趣点,能充分地刻画视频的动作序列特性;利用稀疏低秩矩阵分解基于字典矩阵对兴趣点特征进行重构表示,能有效地反映视频的兴趣点的时空信息;采用改进的平均池化技术对兴趣点的局部时空特征进行编码,能更好地刻画视频的全局特征建立泛化能力更强的分类器,从而提高了视频的动作识别效果,为智慧城市的安防监控等应用提供了技术支持。