首页 > 专利 > 杭州电子科技大学 > 基于局部和通道组合特征的行人重识别方法专利详情

基于局部和通道组合特征的行人重识别方法   0    0

有效专利 查看PDF
专利申请流程有哪些步骤?
专利申请流程图
申请
申请号:指国家知识产权局受理一件专利申请时给予该专利申请的一个标示号码。唯一性原则。
申请日:提出专利申请之日。
2020-05-27
申请公布
申请公布指发明专利申请经初步审查合格后,自申请日(或优先权日)起18个月期满时的公布或根据申请人的请求提前进行的公布。
申请公布号:专利申请过程中,在尚未取得专利授权之前,国家专利局《专利公报》公开专利时的编号。
申请公布日:申请公开的日期,即在专利公报上予以公开的日期。
2020-10-27
授权
授权指对发明专利申请经实质审查没有发现驳回理由,授予发明专利权;或对实用新型或外观设计专利申请经初步审查没有发现驳回理由,授予实用新型专利权或外观设计专利权。
2022-07-29
预估到期
发明专利权的期限为二十年,实用新型专利权期限为十年,外观设计专利权期限为十五年,均自申请日起计算。专利届满后法律终止保护。
2040-05-27
基本信息
有效性 有效专利 专利类型 发明专利
申请号 CN202010460902.9 申请日 2020-05-27
公开/公告号 CN111709313B 公开/公告日 2022-07-29
授权日 2022-07-29 预估到期日 2040-05-27
申请年 2020年 公开/公告年 2022年
缴费截止日
分类号 G06V40/10G06V10/44G06V10/764G06V10/82G06K9/62G06N3/04G06N3/08 主分类号 G06V40/10
是否联合申请 独立申请 文献类型号 B
独权数量 1 从权数量 1
权利要求数量 2 非专利引证数量 1
引用专利数量 1 被引证专利数量 0
非专利引证 1、2019.08.01Weilin Zhong 等.Combining multilevelfeature extraction and multi-losslearning for person re-identification. 《Neurocomputing》.2019,;
引用专利 WO2019144575A 被引证专利
专利权维持 2 专利申请国编码 CN
专利事件 事务标签 公开、实质审查、授权
申请人信息
申请人 第一申请人
专利权人 杭州电子科技大学 当前专利权人 杭州电子科技大学
发明人 徐尔立、翁立、王建中 第一发明人 徐尔立
地址 浙江省杭州市下沙高教园区2号大街 邮编 310018
申请人数量 1 发明人数量 3
申请人所在省 浙江省 申请人所在市 浙江省杭州市
代理人信息
代理机构
专利代理机构是经省专利管理局审核,国家知识产权局批准设立,可以接受委托人的委托,在委托权限范围内以委托人的名义办理专利申请或其他专利事务的服务机构。
杭州君度专利代理事务所 代理人
专利代理师是代理他人进行专利申请和办理其他专利事务,取得一定资格的人。
朱月芬
摘要
本发明提供一种基于局部和通道组合特征的行人重识别方法。本发明通过数据增强的方式,模拟各种遮挡发生的情况,提升了对于遮挡问题的鲁棒性。同时使用STN对图片进行缩放,旋转和平移,来对齐行人图片。将图片进行水平分割,得到不同部位的特征。对于整张行人图片的全局特征,通过分类损失使其正确分类行人身份,再通过相似度损失使得相同行人的特征分布地更加紧密,不同行人的特征分布地更加疏远。对于局部和通道组合特征,通过相似度损失对这些不同身体部位上的不同模式进行比较。最终将两种特征融合作为行人描述符,进一步提升了行人描述符的判别力。通过提高行人描述符的抗遮挡和判别能力,可以进行较为准确的行人重识别。
  • 摘要附图
    基于局部和通道组合特征的行人重识别方法
  • 说明书附图:图1
    基于局部和通道组合特征的行人重识别方法
  • 说明书附图:图2
    基于局部和通道组合特征的行人重识别方法
  • 说明书附图:图3
    基于局部和通道组合特征的行人重识别方法
  • 说明书附图:图4
    基于局部和通道组合特征的行人重识别方法
  • 说明书附图:图5
    基于局部和通道组合特征的行人重识别方法
法律状态
序号 法律状态公告日 法律状态 法律状态信息
1 2022-07-29 授权
2 2020-10-27 实质审查的生效 IPC(主分类): G06K 9/00 专利申请号: 202010460902.9 申请日: 2020.05.27
3 2020-09-25 公开
权利要求
权利要求书是申请文件最核心的部分,是申请人向国家申请保护他的发明创造及划定保护范围的文件。
1.一种基于局部和通道组合特征的行人重识别方法,其特征在于,包括以下流程:
一、训练流程:对神经网络进行训练,以获得最佳的网络参数;训练数据集中的样本由行人图片x和其对应的行人身份ID(x),ID(x)∈{1,...,C}组成;C代表行人身份总数,一个身份的行人具有多张图片;
二、测试流程:
测试数据集分为查询集和仓库集,查询集包含已知其身份的行人图片,仓库集包含和
查询集中行人身份相同的图片以及和查询集中行人身份不同的图片;数据集的构建是先由视角不重叠的监控摄像头拍摄下行人的图片,再由行人检测器(Deformable Parts Model,DPM)自动地标注出行人矩形框,最后保留矩形框中的行人图片,并添加上行人的身份标签,同一行人在查询集和仓库集中的图片的拍摄视角不同;
训练流程具体步骤如下:
步骤1、对训练集中的样本进行采样生成小批量数据:
一个小批量数据中包含P×K张图片,即不同身份的行人P个,每个行人K张图片;如果在训练集中,一个行人的图片数量大于K张,则从中随机采样K张;小于K张,则采样其所有的图片,不够的再重复采样;
步骤2、通过数据增强的方式提升模型的抗遮挡能力:
2‑1、生成一个可以存放不同分辨率图片的图片池Pool;
2‑2、在每张图片输入到网络之前,会以p1概率复制其中一小块图片存入Pool中;假设图片的分辨率为H×W,一小块图片即图片块的分辨率随机落在区间[0.1H,0.2H]×[0.1W,
0.2W]之间,位置也是随机选择;
2‑3、然后以p2概率从Pool中随机挑选一图片块覆盖在该图片上,覆盖的位置随机选择;
步骤3、加载预训练网络:
使用在ImageNet数据集上预训练的ResNet‑50网络,保留该网络全局平均池化Global Average Pooling,GAP层之前的结构,并将最后一个卷积层Convolutional Layer的步长设置为1,将其记作“卷积基网络”;一张分辨率为256×128的图片输入卷积基网络后输出尺寸为16×8×2048的张量特征图T;
步骤4、对通道分组获得每组通道的特征:
将步骤3中得到的尺寸为16×8×2048的张量特征图T沿着通道,即最后一个维度,平均
分成4组,每组的张量特征图尺寸为16×8×512,分别记作T1,T2,T3,T4;
步骤5、对张量特征图进行切割获得局部特征:
将步骤4获得的每组张量特征图T1,T2,T3,T4,沿着其水平方向平均切割成4块局部张量特征图,每块局部张量特征图的尺寸为4×8×512,分别记作T11~T14,T21~T24,T31~T34,T41~T44;T经过步骤4和5得到16块局部张量特征图T11~T14,T21~T24,T31~T34,T41~T44;每块局部张量特征图代表着不同位置和不同通道的组合特征;
步骤6、对特征图进行压缩:
对张量特征图T进行卷积,卷积核尺寸为16×8×512,个数为512个,参数随机初始化,
得到尺寸为1×1×512的全局特征g;同样对T11~T14,T21~T24,T31~T34,T41~T44分别进行卷积,每块局部张量特征图对应的卷积核尺寸为4×8×512,个数为512,参数随机初始化,得到16个尺寸为1×1×512的局部通道组合特征pc1~pc16;
步骤7、对不同的特征应用不同的损失函数:
对于局部通道组合特征pc1~pc16,分别应用批难样本三元组损失Batch Hard Triplet Loss:
式(1)中X代表步骤1采样得到的小批量数据,θ代表网络的参数; 代表第i个行人对应K张图片中的第a张图片, 代表第i个行人对应K张图片中的第p张图片,因两张图片属于同一行人,称之为正样本对; 代表第j个行人对应K张图片中的第n张图片,因 和 属于不同行人,称之为负样本对;fθ(x)代表图片x输入网络运算后输出的特征,D(x,y)代表特征x和特征y的欧几里得距离EuclideanDistance;m是一个常数,约束了两个特征对距离之间的关系,[x]+=max(0,x);对于一个行人的一张图片 来说,遍历该行人对应K张图片中的每张图片 找到特定的 使得 和 分别输入网络运算后得到的两个特征间欧几里得距
离最大, 即为一个正难样本对;同时,遍历其余行人的每张图片,共(P‑1)×K张图
片,记为 找到特定的 使得 和 分别输入网络运算后得到的两个特征间欧几里得
距离最小, 即为一个负难样本对;该损失函数找出每个行人的每张图片对应的正难
和负难样本对,并约束正难样本对特征距离和负难样本对特征距离间的关系;
对于特征pc1,其Batch Hard Triplet Loss为:
式(2)中 代表从第i个行人的第a张图片中提取的特征pc1, 代表从第i个行人的
第p张图片中提取的特征pc1, 代表从第j个行人的第n张图片中提取的特征pc1;
对于全局特征g,分别应用Batch Hard Triplet Loss和Softmax Loss;其Batch Hard 
Triplet Loss为:
式(3)中 代表从第i个行人的第a张图片中提取的特征g, 代表从第i个行人的第p张
图片中提取的特征g, 代表从第j个行人的第n张图片中提取的特征g;在应用Softmax Loss之前,需要将g输入一个全连接层Fully Connected Layer,FC layer;全连接层输出神经元个数为训练集行人身份总数C,全连接层参数随机初始化;全局特征g的Softmax Loss为:
式(4)中 代表从第i个行人的第j张图片中提取的特征g, 代表该
图片对应的行人身份; 代表FC layer第 个输出神经元对应的权重,Wk代表FC layer第k个输出神经元对应的权重;
该网络总的损失函数为:
式(5)中λ1,λ2,λ3为三个损失的权重,满足λ1+λ2+λ3=1;
步骤8、将步骤3‑6中构建的网络记为N;使用梯度下降算法,对步骤7中损失函数Loss求导并通过反向传播来优化N中的可学习参数;
步骤9、使用空间变换网络对齐特征图:
9‑1、将N中卷积基网络的第4块Res 4 Block输出特征图F4通过一个残差连接块和GAP层得到一个长度为6的向量θ(θ11,θ12,θ13,θ21,θ22,θ23);其中θ11,θ12,θ21,θ22用来缩放和旋转特征图,θ13,θ23用来平移特征图;
9‑2、利用θ11,θ12,θ13,θ21,θ22,θ23对N中卷积基网络的第2块Res 2Block输出特征图F2进s
行仿射变换,获得空白特征图F”2;对F2通道c的特征图来说,其上一像素点的坐标为(x ,s t t
y),经过仿射变换后变为(x ,y),二者之间的关系为:
9‑3、根据公式(6)对空白特征图F”2从F2上采样像素进行填充,得到对齐后的特征图F2';在仿射过程中,会出现F”2中坐标对应的F2坐标超出F2原始范围时,对于这些坐标,设置其像素值为0;出现F”2中坐标对应的F2坐标不是像素点时,通过双线性插值来填充像素值到这些坐标上:
s s
式(7)中 是F”2的c通道上(m,n)位置的像素值, 是F2的c通道上(x ,y)位置的
像素值;
步骤10、处理对齐后特征图:
对于对齐后的特征图F'2,将其输入一个新的卷积网络,所述的新的卷积网络是由在
ImageNet数据集上预训练的ResNet‑50网络中的Res 3 Block、Res 4 Block、Res 5 Blockalign align
堆叠而成,输出和步骤3中特征图T同样尺寸的特征图T ;对于T ,进行和步骤3‑6中相align
同的操作, 同样得到1个全局特征g 以及16个局部和通道组合特征 记步
align align
骤9‑10中构建的网络为N ,N 是由N中卷积基网络的Res 1 Block、Res 2 Block、Res 
3 Block、Res 4 Block、STN、新的卷积网络中Res 3 Block、Res 4 Block、Res 5 Block、对align
全局特征以及局部和通道组合特征进行压缩的卷积层构成;对全局特征g 以及局部和通align
道组合特征 使用步骤7中相同的损失函数,优化N 中可学习的参数。

2.根据权利要求1所述的一种基于局部和通道组合特征的行人重识别方法,其特征在
于,测试流程具体步骤如下:
align align
步骤1、将一张待查询的行人图片输入N ,将输出的g 和 连接起来得
到该行人的描述符 是一个8704维特征向量;
步骤2、仓库集中所有图片同样经过步骤1得到其行人描述符;
步骤3、分别计算待查询行人描述符和仓库集中每一个行人描述符间的cosine距离并
保存下来;
步骤4、对所保存的距离按照从小到大的顺序进行排序,并选择其中前k个距离所对应
的仓库行人图片,作为该待查询行人的重识别结果;
步骤5、通过对比重识别获得的仓库行人图片的真实身份和待查询行人的身份是否一
致来衡量模型的识别性能。
说明书

技术领域

[0001] 本发明属于计算机视觉、图像检索领域,涉及一种基于局部和通道组合特征的行人重识别方法。该方法解决了行人重识别领域中一些常见的问题。

背景技术

[0002] 随着监控系统的发展和普及,越来越多的行人图像数据亟待处理。行人重识别技术是根据某一摄像头拍摄的行人图像,在其他摄像头拍摄的行人图像中,找出该行人的图像。其在现实生活中有着广泛的应用场景,例如智能安保、刑事侦查、人机交互等,同时也与行人检测,行人跟踪等其他领域密切联系。
[0003] 目前普遍使用的行人重识别方法是基于卷积神经网络(Convolutional Neural Network,CNN)进行的。因此一些方法旨在设计或改良网络模型,提取更具判别力的行人图像特征,例如在ImageNet数据集上预训练并在行人重识别数据集上微调的残差网络ResNet‑50。同时一些方法致力于改良或设计损失函数,损失函数主要分为两类:1)分类损失,将每个行人当作一个特定的类别,例如交叉熵损失(cross‑entropy loss);2)相似度损失,约束了行人图像间相似度的关系,例如对比损失(contrastive loss),三元组损失(triplet loss),四元组损失(quadruplet loss)。

发明内容

[0004] 针对现有行人重识别领域中存在的问题,本发明提出了一种基于局部和通道组合特征的行人重识别方法。该方法具有以下优点:1)通过数据增强的方式,使得网络模型提高抗遮挡问题的能力;2)通过空间变换网络(Spatial Transformer Network,STN)解决行人图像不对齐问题;3)通过对特征图的切割和对特征图通道进行分组,获得更具判别力的局部和通道组合特征;4)通过对不同的特征施加不同的损失函数,进一步提升特征的判别力。本发明提出的方法较为全面地解决了行人重识别中的遮挡、不对齐、行人外观变化较大等主要问题,因此具有更准确的识别能力。
[0005] 一种基于局部和通道组合特征的行人重识别方法,包括以下流程:
[0006] 一、训练流程:对神经网络进行训练,以获得最佳的网络参数。训练数据集中的样本由行人图片x和其对应的行人身份ID(x),ID(x)∈{1,...,C}组成。C代表行人身份总数,一个身份的行人具有多张图片。具体步骤如下:
[0007] 步骤1、对训练集中的样本进行采样生成小批量数据:
[0008] 一个小批量数据中包含P×K张图片,即不同身份的行人P个,每个行人K张图片。如果在训练集中,一个行人的图片数量大于K张,则从中随机采样K张;小于K张,则采样其所有的图片,不够的再重复采样。
[0009] 步骤2、通过数据增强的方式提升模型的抗遮挡能力:
[0010] 2‑1、生成一个可以存放不同分辨率图片的图片池(Pool);
[0011] 2‑2、在每张图片输入到网络之前,会以p1概率复制其中一小块图片存入Pool中。假设图片的分辨率为H×W,一小块图片即图片块的分辨率随机落在区间[0.1H,0.2H]×[0.1W,0.2W]之间,位置也是随机选择。
[0012] 2‑3、然后以p2概率从Pool中随机挑选一图片块覆盖在该图片上,覆盖的位置随机选择。
[0013] 步骤3、加载预训练网络:
[0014] 使用在ImageNet数据集上预训练的ResNet‑50网络,保留该网络全局平均池化(Global Average Pooling,GAP)层之前的结构,并将最后一个卷积层(Convolutional Layer)的步长设置为1,将其记作“卷积基网络”。一张分辨率为256×128的图片输入卷积基网络后输出尺寸为16×8×2048的张量特征图T。
[0015] 步骤4、对通道分组获得每组通道的特征:
[0016] 将步骤3中得到的尺寸为16×8×2048的张量特征图T沿着通道(即最后一个维度)平均分成4组,每组的张量特征图尺寸为16×8×512,分别记作T1,T2,T3,T4。
[0017] 步骤5、对张量特征图进行切割获得局部特征:
[0018] 将步骤4获得的每组张量特征图T1,T2,T3,T4,沿着其水平方向平均切割成4块局部张量特征图,每块局部张量特征图的尺寸为4×8×512,分别记作T11~T14,T21~T24,T31~T34,T41~T44。T经过步骤4和5得到16块局部张量特征图T11~T14,T21~T24,T31~T34,T41~T44。每块局部张量特征图代表着不同位置和不同通道的组合特征。
[0019] 步骤6、对特征图进行压缩:
[0020] 对张量特征图T进行卷积,卷积核尺寸为16×8×512,个数为512个,参数随机初始化,得到尺寸为1×1×512的全局特征g。同样对T11~T14,T21~T24,T31~T34,T41~T44分别进行卷积,每块局部张量特征图对应的卷积核尺寸为4×8×512,个数为512,参数随机初始化,得到16个尺寸为1×1×512的局部通道组合特征pc1~pc16。
[0021] 步骤7、对不同的特征应用不同的损失函数:
[0022] 对于局部通道组合特征pc1~pc16,分别应用批难样本三元组损失(Batch Hard Triplet Loss):
[0023]
[0024] 式(1)中X代表步骤1采样得到的小批量数据,θ代表网络的参数。 代表第i个行人对应K张图片中的第a张图片, 代表第i个行人对应K张图片中的第p张图片,因两张图片属于同一行人,称之为正样本对; 代表第j个行人对应K张图片中的第n张图片,因 和 属于不同行人,称之为负样本对。fθ(x)代表图片x输入网络运算后输出的特征,D(x,y)代表特征x和特征y的欧几里得距离(Euclidean Distance)。m是一个常数,约束了两个特征对距离之间的关系,[x]+=max(0,x)。对于一个行人的一张图片 来说,遍历该行人对应K张图片中的每张图片 找到特定的 使得 和 分别输入网络运算后得到的两个特征间欧几里得距离最大, 即为一个正难样本对;同时,遍历其余行人的每张图片(共(P‑1)×K张图片) 找到特定的 使得 和 分别输入网络运算后得到的两个特征间欧几里得距离最小, 即为一个负难样本对。该损失函数找出每个行人的每张图片对应的正难和负难样本对,并约束正难样本对特征距离和负难样本对特征距离间的关系。
[0025] 对于特征pc1,其Batch Hard Triplet Loss为:
[0026]
[0027] 式(2)中 代表从第i个行人的第a张图片中提取的特征pc1, 代表从第i个行人的第p张图片中提取的特征pc1, 代表从第j个行人的第n张图片中提取的特征pc1。
[0028] 对于全局特征g,分别应用Batch Hard Triplet Loss和Softmax Loss。其Batch Hard Triplet Loss为:
[0029]
[0030] 式(3)中 代表从第i个行人的第a张图片中提取的特征g, 代表从第i个行人的第p张图片中提取的特征g, 代表从第j个行人的第n张图片中提取的特征g。在应用Softmax Loss之前,需要将g输入一个全连接层(Fully Connected Layer,FC layer)。全连接层输出神经元个数为训练集行人身份总数C,全连接层参数随机初始化。全局特征g的Softmax Loss为:
[0031]
[0032] 式(4)中 代表从第i个行人的第j张图片中提取的特征g, 代表该图片对应的行人身份。 代表FClayer第 个输出神经元对应的权重,Wk代表FClayer第k个输出神经元对应的权重。
[0033] 该网络总的损失函数为:
[0034]
[0035] 式(5)中λ1,λ2,λ3为三个损失的权重,满足λ1+λ2+λ3=1。
[0036] 步骤8、将步骤3‑6中构建的网络记为N。使用梯度下降算法,对步骤7中损失函数Loss求导并通过反向传播来优化N中的可学习参数。
[0037] 步骤9、使用空间变换网络对齐特征图:
[0038] 9‑1、将N中卷积基网络的第4块(Res 4 Block)输出特征图F4(三维张量)通过一个残差连接块(Res Block,参数随机初始化)和GAP层得到一个长度为6的向量θ(θ11,θ12,θ13,θ21,θ22,θ23)。其中θ11,θ12,θ21,θ22用来缩放和旋转特征图,θ13,θ23用来平移特征图。
[0039] 9‑2、利用θ11,θ12,θ13,θ21,θ22,θ23对N中卷积基网络的第2块(Res2Block)输出特征图F2(大小为H×W×C的张量)进行仿射变换,获得空白特征图F”2。对F2通道c的特征图(大小s s t t为H×W的张量)来说,其上一像素点的坐标为(x ,y),经过仿射变换后变为(x ,y),二者之间的关系为:
[0040]
[0041] 9‑3、根据公式(6)对空白特征图F”2从F2上采样像素进行填充,得到对齐后的特征图F'2。。在仿射过程中,会出现F”2中坐标对应的F2坐标超出F2原始范围时,对于这些坐标,设置其像素值为0。出现F”2中坐标对应的F2坐标不是像素点时,通过双线性插值来填充像素值到这些坐标上:
[0042]
[0043] 式(7)中 是F”2的c通道上(m,n)位置的像素值, 是F2的c通道上(m,n)位置的像素值。
[0044] 步骤10、处理对齐后特征图:
[0045] 对于对齐后的特征图F'2,将其输入一个新的卷积网络,所述的新的卷积网络是由在ImageNet数据集上预训练的ResNet‑50网络中的Res 3 Block、Res 4 Block、Res 5 align alignBlock堆叠而成,输出和步骤3中特征图T同样尺寸的特征图T 。对于T ,进行和步骤3‑align
6中相同的操作,同样得到1个全局特征g 以及16个局部和通道组合特征
align align
记步骤9‑10中构建的网络为N ,N 是由N中卷积基网络的Res 1 Block、Res 2 Block、Res 3 Block、Res 4 Block、STN、新的卷积网络中Res 3 Block、Res 4 Block、Res 5 align
Block、对全局特征以及局部和通道组合特征进行压缩的卷积层构成。对全局特征g 以及align
局部和通道组合特征 使用步骤7中相同的损失函数,优化N 中可学习的
参数。
[0046] 二、测试流程:
[0047] 测试数据集分为查询集和仓库集,查询集包含已知其身份的行人图片,仓库集包含和查询集中行人身份相同的图片以及和查询集中行人身份不同的图片。数据集的构建是先由视角不重叠的监控摄像头拍摄下行人的图片,再由行人检测器(Deformable Parts Model,DPM)自动地标注出行人矩形框,最后保留矩形框中的行人图片,并添加上行人的身份标签,同一行人在查询集和仓库集中的图片的拍摄视角不同。具体步骤如下:
[0048] 步骤1、将一张待查询的行人图片输入Nalign,将输出的galign和 连接起来得到该行人的描述符 是一个8704维特征向量。
[0049] 步骤2、仓库集中所有图片同样经过步骤1得到其行人描述符。
[0050] 步骤3、分别计算待查询行人描述符和仓库集中每一个行人描述符间的cosine距离并保存下来。
[0051] 步骤4、对所保存的距离按照从小到大的顺序进行排序,并选择其中前k个距离所对应的仓库行人图片,作为该待查询行人的重识别结果。
[0052] 步骤5、通过对比重识别获得的仓库行人图片的真实身份和待查询行人的身份是否一致来衡量模型的识别性能。
[0053] 本发明有益效果如下:
[0054] 本发明通过数据增强的方式,模拟各种遮挡发生的情况,网络通过处理这些人为造成遮挡的图片,提升了对于遮挡问题的鲁棒性。同时使用STN对图片进行缩放,旋转和平移,来对齐行人图片。在图片已经对齐的基础上,简单地将图片进行水平分割,可以很好地定位到行人不同的身体部位,得到不同部位的特征(对特征图进行切割、通道分组和仿射变换这些操作等价于在原始图片上进行相同的操作)。特征图中不同通道会对不同的模式(颜色,衣服种类,性别,年龄等)进行响应,因此局部和通道组合特征可以更好地定位行人不同身体部位上的不同模式。对于整张行人图片的全局特征,通过分类损失使其正确分类行人身份,再通过相似度损失使得相同行人的特征分布地更加紧密,不同行人的特征分布地更加疏远。对于局部和通道组合特征,因为其本身包含的信息量较少,无法通过其正确分类行人身份,所以不适用分类损失。但是通过相似度损失对这些不同身体部位上的不同模式进行比较,可以使模型更好地分辨出这些模式,使得局部和通道组合特征更具判别力。最终将两种特征融合作为行人描述符,进一步提升了行人描述符的判别力。通过提高行人描述符的抗遮挡和判别能力,可以进行较为准确的行人重识别。

实施方案

[0060] 下面结合附图对本发明做进一步说明。
[0061] 基于局部和通道组合特征的行人重识别方法其训练流程如图1所示。批训练样本先进行数据增强,将数据增强后的样本输入卷积基网络,输出特征图。对于该特征图进行两种不同的操作,第一种是对其进行压缩,得到全局特征;第二种是对其进行通道分组和水平切割产生子特征图,接着压缩子特征图得到局部和通道组合特征。对全局特征以及局部和通道组合特征施加不同的损失函数,对总损失函数进行求导,利用反向传播算法优化网络。将优化后网络中Res2Block输出的特征图通过STN进行对齐,并输入对齐后的特征图到新的卷积网络得到输出特征图。对此特征图按照上面一样的方式得到对齐后的全局特征以及局部和通道组合特征,并施加同样的损失函数再一次优化新的网络。
[0062] 具体步骤如下:
[0063] 步骤1、对训练集中的样本进行采样生成小批量数据:
[0064] 一个小批量数据中包含P×K张图片,不同身份的行人P个,每个行人K张图片。如果在训练集中,一个行人的图片数量大于K张,则从中随机采样K张;小于K张,则采样其所有的图片,不够的再重复采样。
[0065] 步骤2、通过图2所示的数据增强方式提升模型的抗遮挡能力:
[0066] 2‑1、生成一个可以存放不同分辨率图片的图片池(Pool);
[0067] 2‑2、在每张图片输入到网络之前,会以p1概率复制其中一小块图片存入Pool中。假设图片的分辨率为H×W,一小块图片即图片块的分辨率随机落在区间[0.1H,0.2H]×[0.1W,0.2W]之间,位置也是随机选择。
[0068] 2‑3、然后以p2概率从Pool中随机挑选一图片块覆盖在该图片上,覆盖的位置随机选择。
[0069] 步骤3、加载预训练网络:
[0070] 使用在ImageNet数据集上预训练的ResNet‑50网络,保留该网络全局平均池化(Global Average Pooling,GAP)层之前的结构,并将最后一个卷积层(Convolutional Layer)的步长设置为1,将其记作卷积基网络。一张分辨率为256×128的图片输入卷积基网络输出尺寸为16×8×2048的张量特征图T。
[0071] 步骤4、对通道分组获得每组通道的特征:
[0072] 将步骤3中得到的尺寸为16×8×2048的张量特征图T沿着通道平均分成4组,每组的张量特征图尺寸为16×8×512,分别记作T1,T2,T3,T4。
[0073] 步骤5、对张量特征图进行切割获得局部特征:
[0074] 将步骤4获得的每组张量特征图T1,T2,T3,T4,沿着其水平方向平均切割成4块局部张量特征图,每块局部张量特征图的尺寸为4×8×512,分别记作T11~T14,T21~T24,T31~T34,T41~T44。T经过步骤4和5得到16块局部张量特征图T11~T14,T21~T24,T31~T34,T41~T44。每块局部张量特征图代表着不同位置和不同通道的组合特征。
[0075] 步骤6、对特征图进行压缩:
[0076] 对张量特征图T进行卷积,卷积核尺寸为16×8×512,个数为512个,参数随机初始化,得到尺寸为1×1×512的全局特征g。同样对T11~T14,T21~T24,T31~T34,T41~T44分别进行卷积,每块局部张量特征图对应的卷积核尺寸为4×8×512,参数随机初始化,个数为512,得到16个尺寸为1×1×512的局部通道组合特征pc1~pc16。步骤3‑6构建出来的网络N如图3所示。
[0077] 步骤7、对不同的特征应用不同的损失函数:
[0078] 对于局部通道组合特征pc1~pc16,分别应用批难样本三元组损失(Batch Hard Triplet Loss)。
[0079] 例如对特征pc1,其Batch Hard Triplet Loss为:
[0080]
[0081] 对于全局特征g,分别应用Batch Hard Triplet Loss和Softmax Loss。其Batch Hard Triplet Loss为:
[0082]
[0083] 其Softmax Loss为:
[0084]
[0085] 该网络总的损失函数为:
[0086]
[0087] 步骤8、使用梯度下降算法,对步骤7中损失函数Loss求导并反向传播来优化N中的可学习参数。
[0088] 步骤9、使用空间变换网络对齐特征图:
[0089] 9‑1、将N中卷积基网络的第4块(Res 4 Block)输出特征图F4(三维张量)通过一个残差连接块(Res Block,参数随机初始化)和GAP层得到一个长度为6的向量θ(θ11,θ12,θ13,θ21,θ22,θ23)。其中θ11,θ12,θ21,θ22用来缩放和旋转特征图,θ13,θ23用来平移特征图。
[0090] 9‑2、利用θ11,θ12,θ13,θ21,θ22,θ23对N中卷积基网络的第2块(Res 2 Block)输出特征图F2(大小为H×W×C的张量)进行仿射变换,获得空白特征图F”2。对F2通道c的特征图(大s s t t小为H×W的张量)来说,其上一像素点的坐标为(x ,y),经过仿射变换后变为(x ,y),二者之间的关系为:
[0091]
[0092] 9‑3、根据公式(12)对空白特征图F”2从F2上采样像素进行填充,得到对齐后的特征图F'2。在仿射过程中,会出现F”2中坐标对应的F2坐标超出F2原始范围时,对于这些坐标,设置其像素值为0。出现F”2中坐标对应的F2坐标不是像素点时,通过双线性插值来填充像素值到这些坐标上:
[0093]
[0094] 步骤10、处理对齐后特征图:
[0095] 对于对齐后的特征图F”2,将其输入一个新的卷积网络,所述的新网络是由在ImageNet数据集上预训练的ResNet‑50网络中的Res 3 Block、Res 4 Block、Res 5 Blockalign align堆叠而成,输出和步骤3中特征图T同样尺寸的特征图T 。对于T ,进行和步骤3‑6中一align
样的操作,同样得到1个全局特征g 以及16个局部和通道组合特征 记步
align align
骤9‑10中构建的网络为N ,N 是由N中卷积基网络的Res 1 Block、Res 2 Block、Res 
3 Block、Res 4 Block、STN、新的卷积网络中Res 3 Block、Res 4 Block、Res 5 Block、对全局特征以及局部和通道组合特征进行压缩的卷积层构成,具体结构如图4所示。对全局特align align
征g 以及局部和通道组合特征 使用步骤7中相同的损失函数,优化N
中可学习的参数。
[0096] 基于局部和通道组合特征的行人重识别方法其测试流程如图5所示。将待一张查询行人图片和仓库中所有行人图片输入到训练好的网络中,分别输出其行人描述符。计算行人描述符间的cosine distance,选出前k个最小距离对应的仓库行人图片作为待查询行人图片的重识别结果。通过比较重识别出来的行人身份和待查询行人身份是否一致,来衡量模型的好坏。
[0097] 具体步骤如下:
[0098] 步骤1、将一张待查询的行人图片输入Nalign,将输出的galign和 连接起来得到该行人的描述符 是一个8704维特征向量。
[0099] 步骤2、仓库集中所有图片同样经过步骤1得到其行人描述符。
[0100] 步骤3、分别计算待查询行人描述符和仓库集中每一个行人描述符间的cosine距离并保存下来。
[0101] 步骤4、对所保存的距离按照从小到大的顺序进行排序,并选择其中前k个距离所对应的仓库行人图片,作为该待查询行人的重识别结果。

附图说明

[0055] 图1为本发明训练流程图;
[0056] 图2为数据增强示例图;
[0057] 图3为训练步骤3‑6构建的网络;
[0058] 图4为训练步骤9‑10构建的网络;
[0059] 图5为本发明测试流程图。
版权所有:盲专网 ©2023 zlpt.xyz  蜀ICP备2023003576号