盲专网 - 基于深度学习的手势识别的多标签图像预处理方法

专利申请流程有哪些步骤？

申请

申请号：指国家知识产权局受理一件专利申请时给予该专利申请的一个标示号码。唯一性原则。

申请日：提出专利申请之日。

2018-04-23

申请公布

申请公布指发明专利申请经初步审查合格后，自申请日（或优先权日）起18个月期满时的公布或根据申请人的请求提前进行的公布。

申请公布号：专利申请过程中，在尚未取得专利授权之前，国家专利局《专利公报》公开专利时的编号。

申请公布日：申请公开的日期，即在专利公报上予以公开的日期。

2018-12-21

授权

授权指对发明专利申请经实质审查没有发现驳回理由，授予发明专利权；或对实用新型或外观设计专利申请经初步审查没有发现驳回理由，授予实用新型专利权或外观设计专利权。

2021-05-25

预估到期

发明专利权的期限为二十年，实用新型专利权期限为十年，外观设计专利权期限为十五年，均自申请日起计算。专利届满后法律终止保护。

2038-04-23

基本信息

有效性	有效专利	专利类型	发明专利
申请号	CN201810366869.6	申请日	2018-04-23
公开/公告号	CN108898045B	公开/公告日	2021-05-25
授权日	2021-05-25	预估到期日	2038-04-23
申请年	2018年	公开/公告年	2021年
缴费截止日
分类号	G06K9/00	主分类号	G06K9/00
是否联合申请	独立申请	文献类型号	B
独权数量	1	从权数量	0
权利要求数量	1	非专利引证数量	1
引用专利数量	1	被引证专利数量	0
非专利引证	1、2015.04.21严利民等.基于深度数据的关键特征点提取及动态手势轨迹识别《.工业控制计算机》.2015,第28卷(第11期),SIDDHARTH S. RAUTARAY et al..VISION-BASED APPLICATION-ADAPTIVE HAND GESTURERECOGNITION SYSTEM《.International Journalof Information Acquisition》.2013,第9卷(第1期),;
引用专利	KR101513540B	被引证专利
专利权维持	4	专利申请国编码	CN
专利事件		事务标签	公开、实质审查、授权

申请人信息

申请人	杭州电子科技大学	第一申请人	杭州电子科技大学
专利权人	杭州电子科技大学	当前专利权人	杭州电子科技大学
发明人	颜成钢、吕晓泉、张勇东	第一发明人	颜成钢
地址	浙江省杭州市下沙高教园区2号大街	邮编	310018
申请人数量	1	发明人数量	3
申请人所在省	浙江省	申请人所在市	浙江省杭州市

代理人信息

代理机构

专利代理机构是经省专利管理局审核，国家知识产权局批准设立，可以接受委托人的委托，在委托权限范围内以委托人的名义办理专利申请或其他专利事务的服务机构。

杭州君度专利代理事务所

代理人

专利代理师是代理他人进行专利申请和办理其他专利事务，取得一定资格的人。

朱月芬

摘要

本发明公开了一种基于深度学习的手势识别的多标签图像预处理方法。本发明步骤如下：1.获取已标记的多个特征点的坐标；2.在坐标中选出图像平面坐标系中x的最大和最小值，y的最大和最小值，确认坐标点A(xmin，ymin)和坐标点B(xmax，ymax)；3.利用坐标A和B定位目标在图像中标签有效的方形区域P，同时在区域P边缘的坐标点应按规则留有余量，从而得到拓展后的方形区域P1，并对区域P1的长和宽更新；4.比较区域P1的长和宽从而得到一个新的方形区域P2；5.计算裁剪图中特征点的坐标，作为裁剪图的标签。本发明在原图像中裁剪出包含目标的正方形图像，尽可能少的添加通道，减少背景冗余度，保留目标特征。

摘要附图
说明书附图：图1
说明书附图：图2
说明书附图：图3
说明书附图：图4
说明书附图：图5

法律状态

序号	法律状态公告日	法律状态	法律状态信息
1	2021-05-25	授权
2	2018-12-21	实质审查的生效	IPC(主分类): G06K 9/00 专利申请号: 201810366869.6 申请日: 2018.04.23
3	2018-11-27	公开

权利要求

权利要求书是申请文件最核心的部分，是申请人向国家申请保护他的发明创造及划定保护范围的文件。

1.基于深度学习的手势识别的多标签图像预处理方法，其特征在于包括如下步骤：
步骤
1.获取已标记的多个特征点的坐标点(x1,y1),(x2,y2)...(x21,y21),所述的多个特征点的坐标点也是网络学习时的标签；
步骤
2.在坐标点中分别选出图像平面坐标系中x的最大值xmax和最小值xmin，y的最大值ymax和最小值ymin，确认坐标点A(xmin，ymin)和坐标点B(xmax，ymax)；
Xmax＝max[x 1,x
2...x 21]；
Xmin＝min[x 1,x
2...x 21]；
ymax＝max[y1,y
2...y21]；
ymin＝min[y1,y
2...y21]；
步骤
3.利用坐标点A(xmin，ymin)和坐标点B(xmax，ymax)定位目标在图像P0中标签有效的方形区域P，其长为L，宽为W；同时，在方形区域P边缘的坐标点应按规则留有余量，使其落在方形区域P内，得到拓展后的方形区域P1，然后对方形区域P1的长和宽更新，具体如下：
方形区域P1的长L1更新为L1＝L+2×L×K，宽W1更新为W1＝W+2×W×K，其中K＝0.01；
步骤
4.比较方形区域P1的长L1和宽W1，若长L1大于宽W1，则对宽W1进行扩展，令△＝L1‑W1，则以区域P1的W1/2为对称轴，在L1上向两边均匀扩展△/2，直至长L1和宽W1的长度相等，从而得到一个新的方形区域P2；
若新的方形区域P2的长为L2，宽为W2,其无法达到长宽一致，则应使宽W2的长度无限接近长L2，即使得△最小，得到方形区域P3；
然后将获得的方形区域P2或方形区域P3裁剪下来，获得裁剪图，将剩下的背景区域分别计算每一维的像素平均值M；
步骤
5.按照原图像与裁剪图的坐标系原点的相对位置，计算裁剪图中特征点的坐标，作为裁剪图的标签；
若裁剪图的尺寸为方形区域P3，则在宽W2所在的边添加通道，使L2与W2相等，通道的像素值为剩余背景每一维的像素的平均值M。

说明书

技术领域

[0001] 本发明涉及基于深度学习的手势识别的图像预处理方法，适用于被识别目标有复杂的背景且有多个标签为二维坐标的特征点。

背景技术

[0002] 为了使神经网络的损失值更好更快的收敛，得到优秀识别率的模型，被训练的三维图像在输入网络前均会进行一系列预处理。目前，无论科研人员使用深度学习进行分类任务还是回归任务，都会把数据集原始图像的长宽直接缩放到同等大小，或者为了保证原图像长宽比例不变，在短的一侧添加0通道，使长宽一致，这样为尺度归一化。但是这样做的后果是，前者压缩了原图像的长宽比例导致图像中被检测的目标物体发生变形，损失了纹理特征，使准确率下降；后者虽然保留了纹理特征，但是会添加许多相同像素值的通道，这不属于图像中的信息，增加了图像的冗余度，所以同样会对准确率造成很大的影响。

[0003] 同时在目标在图像中所占的比例较小，其背景也很复杂的情况下，图片中无用的信息太多，不利于神经网络提取目标特征，背景的冗余和噪声较多，神经网络会在训练时不容易收敛,训练时间较长，对服务器 GPU造成负担，且模型准确率也会受到影响。

发明内容

[0004] 本发明主要解决的技术问题是在基于深度学习的手势识别图像预处理过程中，减少目标背景的冗余度，同时在原图像长宽比例不变并添加通道时更多的保留目标的特征。

[0005] 为了实现上述目的，本发明采用的技术方案如下：

[0006] 步骤1.获取已标记的多个特征点的坐标点 (x1,y1),(x2,y2)...(x21,y21),所述的多个特征点的坐标点也是网络学习时的标签。

[0007] 步骤2.在坐标点中分别选出图像平面坐标系中x的最大值xmax和最小值xmin，y的最大值ymax和最小值ymin，确认坐标点A(xmin，ymin) 和坐标点B(xmax，ymax)；

[0008] Xmax＝max[x 1,x 2...x21]；

[0009] Xmin＝min[x 1,x 2...x 21]；

[0010] ymax＝max[y1,y2...y21]；

[0011] ymin＝min[y1,y2...y21]；

[0012] 步骤3.利用坐标点A(xmin，ymin)和坐标点B(xmax，ymax)定位目标在图像P0中标签有效的方形区域P，其长为L，宽为W。同时，在方形区域P边缘的坐标点应按规则留有余量，使其落在方形区域P内，得到拓展后的方形区域P1，然后对方形区域P1的长和宽更新，具体如下：

[0013] 方形区域P1的长L1更新为L1＝L+2×L×K，宽W1更新为W1＝W+2×W×K，其中K＝0.01；

[0014] 步骤4.比较方形区域P1的长L1和宽W1，若长L1大于宽W1，则对宽 W1进行扩展，令△＝L1‑W1，则以区域P1的W1/2为对称轴，在L1上向两边均匀扩展△/2，直至长L1和宽W1的长度相等，从而得到一个新的方形区域P2；

[0015] 若新的方形区域P2的长为L2，宽为W2,其无法达到长宽一致，则应使宽W2的长度无限接近长L2，即使得△最小，得到方形区域P3；

[0016] 然后将获得的方形区域P2或方形区域P3裁剪下来，获得裁剪图，将剩下的背景区域分别计算每一维的像素平均值M。

[0017] 步骤5.按照原图像与裁剪图的坐标系原点的相对位置，计算裁剪图中特征点的坐标，作为裁剪图的标签。

[0018] 若裁剪图的尺寸为方形区域P3，则在宽W2所在的边添加通道，使 L2与W2相等，通道的像素值为剩余背景每一维的像素的平均值M。

[0019] 本发明的有益效果是：

[0020] 目标在图像中所占的比例增大，除去了图片中无用的信息，减少了图像的复杂度，在不损失特征的情况下完成尺度归一化，神经网络更加容易提取目标特征。保留了目标的纹理特征，添加的通道数减少，没有添加外来的信息，这样可以使网络训练容易收敛，且准确率提高。如果将上述区域P2或P3进行了旋转操作，根据旋转的特征点坐标，则可再次对旋转图片进行上述操作，除去图片四角旋转留下的多余通道。

实施方案

[0026] 下面结合附图对本发明作进一步说明。

[0027] 如图1‑5所示，为了实现上述目的，本发明采用的技术方案如下：

[0028] 步骤1.获取已标记的多个特征点的坐标点 (x1,y1),(x2,y2)...(x21,y21)，所述的多个特征点的坐标点也是网络学习时的标签。

[0029] 步骤2.在坐标点中分别选出图像平面坐标系中x的最大值xmax和最小值xmin，y的最大值ymax和最小值ymin，确认坐标点A(xmin，ymin) 和坐标点B(xmax，ymax)；

[0030] Xmax＝max[x 1,x 2...x 21]；

[0031] Xmin＝min[x 1,x 2...x 21]；

[0032] ymax＝max[y1,y2...y21]；

[0033] ymin＝min[y1,y2...y21]；

[0034] 步骤3.如图1所示，利用坐标点A(xmin，ymin)和坐标点B (xmax，ymax)定位目标在图像P0中标签有效的方形区域P，其长为L，宽为W。同时，在方形区域P边缘的坐标点应按规则留有余量，使其落在方形区域P内，参看图2；得到拓展后的方形区域P1，如图3所示，然后对方形区域P1的长和宽更新，具体如下：

[0035] 方形区域P1的长L1更新为L1＝L+2×L×K，宽W1更新为W1＝W+2×W×K，其中K＝0.01；

[0036] 步骤4.比较方形区域P1的长L1和宽W1，若长L1大于宽W1，则对宽 W1进行扩展，令△＝L1‑W1，则以区域P1的W1/2为对称轴，在L1上向两边均匀扩展△/2，直至长L1和宽W1的长度相等，从而得到一个新的方形区域P2，参看图4；

[0037] 若新的方形区域P2的长为L2，宽为W2,其无法达到长宽一致，则应使宽W2的长度无限接近长L2，即使得△最小，得到方形区域P3，参看如5；

[0038] 然后将获得的方形区域P2或方形区域P3裁剪下来，获得裁剪图，将剩下的背景区域分别计算每一维的像素平均值M。

[0039] 步骤5.按照原图像与裁剪图的坐标系原点的相对位置，计算裁剪图中特征点的坐标，作为裁剪图的标签。

[0040] 若裁剪图的尺寸为方形区域P3，则在宽W2所在的边添加通道，使 L2与W2相等，通道的像素值为剩余背景每一维的像素的平均值M。

附图说明

[0021] 图1为图像P0示意图；

[0022] 图2为区域P示意图；

[0023] 图3为区域P1示意图；

[0024] 图4为区域P2示意图；

[0025] 图5为区域P3示意图，其中，黑色区域为所添加的通道；

首页 > 专利 > 杭州电子科技大学 > 基于深度学习的手势识别的多标签图像预处理方法专利详情

基于深度学习的手势识别的多标签图像预处理方法 0 0

技术领域

背景技术

发明内容

实施方案

附图说明