首页 > 专利 > 杭州电子科技大学 > 一种基于元类基学习器的行人重识别集成方法专利详情

一种基于元类基学习器的行人重识别集成方法 0 0

有效专利查看PDF

申请进展

基本信息

申请人信息

代理人信息

摘要

法律状态

权利要求

说明书

专利申请流程有哪些步骤？

申请

申请号：指国家知识产权局受理一件专利申请时给予该专利申请的一个标示号码。唯一性原则。

申请日：提出专利申请之日。

2019-10-30

申请公布

申请公布指发明专利申请经初步审查合格后，自申请日（或优先权日）起18个月期满时的公布或根据申请人的请求提前进行的公布。

申请公布号：专利申请过程中，在尚未取得专利授权之前，国家专利局《专利公报》公开专利时的编号。

申请公布日：申请公开的日期，即在专利公报上予以公开的日期。

2020-04-24

授权

授权指对发明专利申请经实质审查没有发现驳回理由，授予发明专利权；或对实用新型或外观设计专利申请经初步审查没有发现驳回理由，授予实用新型专利权或外观设计专利权。

2021-05-04

预估到期

发明专利权的期限为二十年，实用新型专利权期限为十年，外观设计专利权期限为十五年，均自申请日起计算。专利届满后法律终止保护。

2039-10-30

基本信息

有效性	有效专利	专利类型	发明专利
申请号	CN201911044411.X	申请日	2019-10-30
公开/公告号	CN110941994B	公开/公告日	2021-05-04
授权日	2021-05-04	预估到期日	2039-10-30
申请年	2019年	公开/公告年	2021年
缴费截止日
分类号	G06K9/00 、G06K9/62	主分类号	G06K9/00
是否联合申请	独立申请	文献类型号	B
独权数量	1	从权数量	6
权利要求数量	7	非专利引证数量	1
引用专利数量	3	被引证专利数量	0
非专利引证	1、2016.08.25Yihao Zhang.Deep DiscriminativeNetwork with Inception Module for PersonRe-indentification《.VCIP 2017》.2017,冯川.基于深度学习的行人重识别技术研究《.中国优秀硕士学位论文全文数据库信息科技辑 I138-699》.2019,安强强.基于深度学习的图像识别研究《.自动化与仪器仪表》.2018,;
引用专利	WO2019128735A、US2017032222A、US2016247290A	被引证专利
专利权维持	3	专利申请国编码	CN
专利事件		事务标签	公开、实质审查、授权

申请人信息

申请人	杭州电子科技大学	第一申请人	杭州电子科技大学
专利权人	杭州电子科技大学	当前专利权人	杭州电子科技大学
发明人	李平、赵国潘、徐向华	第一发明人	李平
地址	浙江省杭州市下沙高教园区2号大街	邮编	310018
申请人数量	1	发明人数量	3
申请人所在省	浙江省	申请人所在市	浙江省杭州市

代理人信息

代理机构

专利代理机构是经省专利管理局审核，国家知识产权局批准设立，可以接受委托人的委托，在委托权限范围内以委托人的名义办理专利申请或其他专利事务的服务机构。

杭州君度专利代理事务所

代理人

专利代理师是代理他人进行专利申请和办理其他专利事务，取得一定资格的人。

杨舟涛

摘要

本发明公开了一种基于元类基学习器的行人重识别集成方法。本发明方法首先对行人图像的深度特征向量聚类以获取元类集合能够使得元类中的图像在特征空间中语义相似；通过均匀划分卷积神经网络的全连接层获取每个元类对应的基学习器，解决对应元类的行人重识别子问题；同时给出了元类内的正例对和负例对及元类间负例对的采样过程、基学习器的训练方案以及自适应梯度加权的基学习器差异化策略。本发明能够有效地处理行人图像数据分布的复杂性，高效地利用深度特征的表示空间，从而获取更优越的行人识别性能。

摘要附图
说明书附图：图1

法律状态

序号	法律状态公告日	法律状态	法律状态信息
1	2021-05-04	授权
2	2020-04-24	实质审查的生效	IPC(主分类): G06K 9/00 专利申请号: 201911044411.X 申请日: 2019.10.30
3	2020-03-31	公开

权利要求

权利要求书是申请文件最核心的部分，是申请人向国家申请保护他的发明创造及划定保护范围的文件。

1.一种基于元类基学习器的行人重识别集成方法，其特征在于，该方法首先获取行人图像的数据集，然后进行如下操作：
步骤(1).通过卷积神经网络获取行人图像的深度特征向量并进行聚类，获得语义相似的图像元类，即图像簇；
步骤(2).均匀划分卷积神经网络的全连接层，形成多个基学习器与行人图像元类对应；
步骤(3).训练基学习器，输入对应元类内的正负样本对及元类间负样本对，计算样本对损失及梯度，并更新基学习器，采取自适应梯度加权策略更新下一个基学习器；
步骤(4).重复步骤(1)～(3)，直至基学习器收敛，将测试图库输入基学习器组成的集成学习器，得到相同行人的图像集合。

2.如权利要求1所述一种基于元类基学习器的行人重识别集成方法，其特征在于步骤(1)具体方法是：
(1‑1).对行人图像训练数据集进行预处理，得到预处理后的训练数据集，记为其中表示第i幅行人图像，N为图像数目；所述的预处理包括缩放、修剪、翻转、旋转操作；
(1‑2).选用在大型图像数据集上预训练的残差卷积神经网络，将输入网络，所述的残差卷积神经网络中的全连接层将输出深度特征向量其中
(1‑3).对深度特征向量进行聚类操作，通过聚类操作获得C个行人图像元类，聚类簇个数C由模型的超参数指定，C＝4～8；通过聚类算法，被组织成元类的集合Kl表示由语义上相似的行人图像组成的第l个行人图像元类。

3.如权利要求1所述一种基于元类基学习器的行人重识别集成方法，其特征在于步骤(2)具体方法是：
(2‑1).按照线性顺序均匀地将残差卷积神经网络的全连接层划分为C段，作为C个基学习器 fl表示第l个基学习器；
(2‑2).第l个基学习器fl用于学习第l个行人图像元类Kl，使得基学习器与行人图像元类对应。

4.如权利要求1所述一种基于元类基学习器的行人重识别集成方法，其特征在于步骤(3)具体方法是：
(3‑1).设批量样本元组Tl为第l个基学习器fl的训练样本，则对于每个行人图像元类Kl，批量样本元组Tl由一个参考深度特征向量相对的一个元类内正例特征向量以及(M‑1)个元类内负例特征向量 (C‑1)个元类间负例特征向量
组成，j＝1,2,…,C,j≠l，M为元类内的不同行人的类别数；
(3‑2).根据批量样本元组Tl计算如下损失函数：
其中exp(·)表示指数函数；得到每个样本元组的损失及梯度，然后对学习器fl进行参数更新；
(3‑3).进行自适应梯度加权操作，并更新第(l+1)个基学习器fl+1。

5.如权利要求1所述一种基于元类基学习器的行人重识别集成方法，其特征在于步骤(4)具体方法是：
(4‑1).重复步骤(1)～(3)，学习C个基学习器直至基学习器收敛；
(4‑2).将测试图库即行人图像测试数据集以1:1的比例划分为查询集和图库集；同时将已收敛的C个基学习器依次合并为一个集成学习器f；
(4‑3).将查询集和图库集中的行人图像分别输入集成学习器f得到对应的深度特征表示和其中D和S分别为查询集和图库集的大小；
(4‑4).根据余弦相似度和欧氏距离，计算深度特征表示之间的相似度simf和距离distf：计
算得到查询与图库图像的相似度矩阵和距离矩阵；
(4‑5).计算相似度矩阵和距离矩阵对应元素的平均值，据此搜索与查询集中的图像相似的图库图像，得到相同行人的图像集合。

6.如权利要求4所述一种基于元类基学习器的行人重识别集成方法，其特征在于：
所述的参考深度特征向量通过对第l个元类的样本特征向量进行随机采样获得；
所述的元类内正例特征向量是对第l个元类的所属的行人类别对应的样本特征向量随机采样获得；
所述的元类内负例特征向量采样过程为：对第l个元类Kl采样与参考深度特征向量不同行人类别的样本特征，每个类别随机采样一个即可获得(M‑1)个元类内负例特征向量；
所述的元类间负例特征向量采样过程为：对元类集合{Kj|j＝1,2,…,C,j≠l}，分别随机采样一个样本，即可获得(C‑1)个元类间负例特征向量

7.如权利要求4所述一种基于元类基学习器的行人重识别集成方法，其特征在于所述的自适应梯度加权操作具体是：
①设置初始化的梯度权重其中V为fl的深度特征向量维度；
②计算fl的深度特征向量每一维组成的梯度向量Gl，由更新自适应权
v
重，(W)′为更新后权重，从而对fl+1进行网络参数更新；z为归一化常数；表示基学习器fl的梯度向量的第v维。

说明书

技术领域

[0001] 本发明属于计算机技术领域，具体是计算机视觉中的行人重识别技术领域，涉及一种基于元类基学习器的行人重识别集成方法。

背景技术

[0002] 随着数字化城市的建设，视频监控设备被广泛应用于道路、商业区、生活区等公共场所，如何对采集到的海量视频数据进行智能分析变得尤为重要。行人重识别(Person Re‑identification)是一项重要的应用研究问题，其目标是在不同的摄像机视图之间匹配同一身份的行人图像。它可以广泛应用于智能视频监控、安保、刑侦等领域，例如跨摄像机视角的行人跟踪、大型图库中行人搜索、零售商店中的访客分析等实际场景。

[0003] 现阶段行人重识别的主流方法基于度量学习，而以马氏度量学习为主导的传统行人重识别技术通常利用手工设计的行人图像特征，并以线性投影方式学习行人图像相似度(或距离)度量函数；而以深度神经网络为主导的深度度量行人重识别方法大多侧重于单一的度量指标，通常从给定的行人图像数据分布中学习所有已观测样本的单个相似度度量函数，其优化目标是使得相似图像在深度特征空间中相互靠近，同时使得不相似图像相互远离。然而，视觉数据通常具有复杂的内在结构，如数据分布的不同区域具有不同的密度。因此，不同区域中的数据点可通过不同的相似性度量指标来刻画(例如形状、颜色、语义等)。现阶段行人重识别的主要挑战在于：1)较大差异的摄像机视角所引起的行人外观变化；2)行人之间的相似度很高给准确挖掘身份识别信息带来挑战。

[0004] 综上所述，现有人物重识别方法的不足点主要表现在以下几方面：第一，直接将深度特征向量的所有维度用作单一度量指标的学习器，造成特征表示空间使用效率低下、行人识别性能不高；第二，直接拟合整个数据集的数据分布，未充分考虑行人图像数据分布的复杂性，在实践中通常会导致局部最优和过度拟合；第三，由于采用不同度量指标的基学习器存在差异性，通常会引起模型收敛缓慢的问题。因此，迫切需要设计一种能充分地利用深度特征，同时结合多种度量指标并充分挖掘样本信息的行人重识别技术。

发明内容

[0005] 本发明的目的就是针对现有技术的不足，提供一种基于元类基学习器的行人重识别集成方法，可以有效地处理行人图像数据分布的复杂性，高效地利用深度特征的表示空间。

[0006] 本发明方法首先获取行人图像的数据集，然后进行如下操作：

[0007] 步骤(1).通过卷积神经网络获取行人图像的深度特征向量并进行聚类，获得语义相似的图像元类，即图像簇；

[0008] 步骤(2).均匀划分卷积神经网络的全连接层，形成多个基学习器与行人图像元类对应；

[0009] 步骤(3).训练基学习器，输入对应元类内的正负样本对及元类间负样本对，计算样本对损失及梯度，并更新基学习器，采取自适应梯度加权策略更新下一个基学习器；

[0010] 步骤(4).重复步骤(1)～(3)，直至基学习器收敛，将测试图库输入基学习器组成的集成学习器，得到相同行人的图像集合。

[0011] 进一步，步骤(1)具体方法是：

[0012] (1‑1).对行人图像训练数据集进行预处理，得到预处理后的训练数据集，记为其中表示第i幅行人图像，N为图像数目；所述的预处理包括缩放、修剪、翻转、旋转操作；

[0013] (1‑2).选用在大型图像数据集上预训练的残差卷积神经网络，将输入网络，所述的残差卷积神经网络中的全连接层将输出深度特征向量其中

[0014] (1‑3).对深度特征向量进行聚类操作，通过聚类操作获得C个行人图像元类，聚类簇个数C由模型的超参数指定，C＝4～8；通过聚类算法，被组织成元类的集合Kl表示由语义上相似的行人图像组成的第l个行人图像元类。

[0015] 进一步，步骤(2)具体方法是：

[0016] (2‑1).按照线性顺序均匀地将残差卷积神经网络的全连接层划分为C段，作为C个基学习器 fl表示第l个基学习器；

[0017] (2‑2).第l个基学习器fl用于学习第l个行人图像元类Kl，使得基学习器与行人图像元类对应。

[0018] 进一步，步骤(3)具体方法是：

[0019] (3‑1).设批量样本元组Tl为第l个基学习器fl的训练样本，则对于每个行人图像元类Kl，批量样本元组Tl由一个参考深度特征向量相对的一个元类内正例特征向量以及(M‑1)个元类内负例特征向量 (C‑1)个元类间负例特征向量组成，j＝1,2,…,C,j≠l，M为元类内的不同行人的类别数；

[0020] (3‑2).根据批量样本元组Tl计算如下损失函数：

[0021]

[0022] 其中exp(·)表示指数函数；得到每个样本元组的损失及梯度，然后对学习器fl进行参数更新；

[0023] (3‑3).进行自适应梯度加权操作，并更新第(l+1)个基学习器fl+1。

[0024] 进一步，步骤(4)具体方法是：

[0025] (4‑1).重复步骤(1)～(3)，学习C个基学习器直至基学习器收敛；

[0026] (4‑2).将测试图库即行人图像测试数据集以1:1的比例划分为查询集和图库集；同时将已收敛的C个基学习器依次合并为一个集成学习器f；

[0027] (4‑3).将查询集和图库集中的行人图像分别输入集成学习器f得到对应的深度特征表示其中D和S分别为查询集和图库集的大小；

[0028] (4‑4).根据余弦相似度和欧氏距离，计算深度特征表示之间的相似度simf和距离distf：计算得到查询与图库图像的相似度矩阵和距离矩阵；

[0029] (4‑5).计算相似度矩阵和距离矩阵对应元素的平均值，据此搜索与查询集中的图像相似的图库图像，得到相同行人的图像集合。

[0030] 本发明方法首先对行人图像的深度特征向量聚类以获取元类(图像簇)集合能够使得元类中的图像在特征空间中语义相似；通过均匀划分卷积神经网络的全连接层获取每个元类对应的基学习器，可以解决对应元类的行人重识别子问题；同时给出了元类内的正例对和负例对及元类间负例对的采样过程、基学习器的训练方案以及自适应梯度加权的基学习器差异化策略。

[0031] 本发明方法充分考虑了行人图像数据分布的复杂性特点，高效利用了深度特征的表示空间，深度挖掘了行人图像数据分布不同区域间的负例样本对，同时有效缓解了网络模型收敛缓慢的问题。本发明能够有效地处理行人图像数据分布的复杂性，高效地利用深度特征的表示空间，从而获取更优越的行人识别性能。

实施方案

[0033] 以下结合附图对本发明作进一步说明。

[0034] 一种基于元类基学习器的行人重识别集成方法，重点考虑行人图像数据分布的复杂性特点，高效利用深度特征的表示空间，深度挖掘行人图像数据分布不同区域间的负例样本对，同时有效缓解网络模型收敛缓慢的问题。主要思想是对行人图像的深度特征向量聚类以获取元类(图像簇)集合，能够使得元类中的图像在特征空间中语义相似；通过均匀划分卷积神经网络的全连接层获取每个元类对应的基学习器，可以解决对应元类的行人重识别子问题。通过这种方式，可以有效地进行行人重识别。

[0035] 如图1，该方法首先获取行人图像的数据集，然后进行如下操作：

[0036] 步骤(1).通过卷积神经网络获取行人图像的深度特征向量并进行聚类，获得语义相似的图像元类，即图像簇。具体方法是：

[0037] (1‑1).对行人图像训练数据集进行预处理，得到预处理后的训练数据集，记为其中表示第i幅行人图像，N为图像数目；预处理为进行缩放、修剪、翻转、旋转等常见图像数据增强操作；

[0038] (1‑2).选用在大型图像数据集上(如ImageNet)预训练的残差卷积神经网络(ResNet‑50)，将输入网络，该网络中的全连接层将输出深度特征向量其中[0039] (1‑3).对深度特征向量进行聚类操作，通过聚类操作获得C个行人图像元类，聚类簇个数C由模型的超参数指定，C＝4～8；通过聚类算法，被组织成元类的集合Kl表示由语义上相似的行人图像组成的第l个行人图像元类。

[0040] 聚类操作可选用常见的聚类算法，本实施例采用k‑均值聚类或基于密度的聚类算法(DBSCAN)。

[0041] 步骤(2).均匀划分卷积神经网络的全连接层，形成多个基学习器与行人图像元类对应。具体方法是：

[0042] (2‑1).按照线性顺序均匀地将残差网络(ResNet‑50)的全连接层划分为C段，作为C个基学习器 fl表示第l个基学习器；

[0043] (2‑2).第l个基学习器fl用于学习第l个行人图像元类Kl，使得基学习器与行人图像元类对应。

[0044] 步骤(3).训练基学习器，输入对应元类内的正负样本对及元类间负样本对，计算样本对损失及梯度，并更新基学习器，采取自适应梯度加权策略更新下一个基学习器。具体方法是：

[0045] (3‑1).设批量样本元组Tl为第l个基学习器fl的训练样本，则对于每个行人图像元类Kl，批量样本元组Tl由一个参考深度特征向量相对的一个元类内正例特征向量以及(M‑1)个元类内负例特征向量 (C‑1)个元类间负例特征向量组成，j＝1,2,…,C,j≠l，M为元类内的不同行人的类别数；

[0046] 参考深度特征向量通过对第l个元类的样本特征向量进行随机采样获得；

[0047] 元类内正例特征向量是对第l个元类的所属的行人类别对应的样本特征向量随机采样获得；

[0048] 元类内负例特征向量采样过程为：对第l个元类Kl采样与参考深度特征向量不同行人类别的样本特征，每个类别随机采样一个即可获得(M‑1)个元类内负例特征向量；

[0049] 元类间负例特征向量采样过程为：对元类集合{Kj|j＝1,2,…,C,j≠l}，分别随机采样一个样本，即可获得(C‑1)个元类间负例特征向量

[0050] (3‑2).根据批量样本元组Tl计算如下损失函数：

[0051]

[0052] 其中exp(·)表示指数函数；得到每个样本元组的损失及梯度，然后对学习器fl进行参数更新；

[0053] (3‑3).进行自适应梯度加权操作，并更新第(l+1)个基学习器fl+1，以进一步增加基学习器之间的差异性。

[0054] 自适应梯度加权操作具体是：

[0055] ①设置初始化的梯度权重 1≤v≤V，其中V为fl的深度特征向量维度；

[0056] ②计算fl的深度特征向量的每一维组成的梯度向量Gl，由更新自适v应权重，(W)′为更新后的权重，从而对fl+1进行网络参数更新；z为归一化常数；表示基学习器fl的梯度向量的第v维。

[0057] 步骤(4).重复步骤(1)～(3)，直至基学习器收敛，将测试图库输入基学习器组成的集成学习器，得到相同行人的图像集合。具体方法是：

[0058] (4‑1).重复步骤(1)～(3)，学习C个基学习器直至基学习器收敛；

[0059] (4‑2).将测试图库即行人图像测试数据集以1:1的比例划分为查询集(query)和图库集(gallery)；同时将已收敛的C个基学习器依次合并为一个集成学习器f；

[0060] (4‑3).将查询集和图库集中的行人图像分别输入集成学习器f得到对应的深度特征表示和其中D和S分别为查询集和图库集的大小；

[0061] (4‑4).根据余弦相似度和欧氏距离，计算深度特征表示之间的相似度simf和距离distf：

[0062]

[0063]

[0064] 计算得到查询与图库图像的相似度矩阵和距离矩阵；

[0065] (4‑5).计算相似度矩阵和距离矩阵对应元素的平均值，据此搜索与查询集中的图像相似的图库图像，得到相同行人(指同一身份)的图像集合。

[0066] 本实施例所述的内容仅仅是对发明构思的实现形式的列举，本发明的保护范围的不应当被视为仅限于实施例所陈述的具体形式，本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

附图说明

[0032] 图1是本发明方法的流程图。

1计算机用机箱 2一种计算机 3一种计算机机壳 4一种计算机机箱 5一种计算机机箱 6一种计算机机箱 7一种计算机机箱 8一种计算机机箱 9结构量计算机的MSD乘法计算的方法 10易拆装计算机机箱