[0004] 本发明主要解决的技术问题是在基于深度学习的手势识别图像预处理过程中,减少目标背景的冗余度,同时在原图像长宽比例不变并添加通道时更多的保留目标的特征。
[0005] 为了实现上述目的,本发明采用的技术方案如下:
[0006] 步骤1.获取已标记的多个特征点的坐标点 (x1,y1),(x2,y2)...(x21,y21),所述的多个特征点的坐标点也是网络学习时的标签。
[0007] 步骤2.在坐标点中分别选出图像平面坐标系中x的最大值xmax和最小值xmin,y的最大值ymax和最小值ymin,确认坐标点A(xmin,ymin) 和坐标点B(xmax,ymax);
[0008] Xmax=max[x 1,x 2...x21];
[0009] Xmin=min[x 1,x 2...x 21];
[0010] ymax=max[y1,y2...y21];
[0011] ymin=min[y1,y2...y21];
[0012] 步骤3.利用坐标点A(xmin,ymin)和坐标点B(xmax,ymax)定位目标在图像P0中标签有效的方形区域P,其长为L,宽为W。同时,在方形区域P边缘的坐标点应按规则留有余量,使其落在方形区域P内,得到拓展后的方形区域P1,然后对方形区域P1的长和宽更新,具体如下:
[0013] 方形区域P1的长L1更新为L1=L+2×L×K,宽W1更新为W1=W+2×W×K,其中K=0.01;
[0014] 步骤4.比较方形区域P1的长L1和宽W1,若长L1大于宽W1,则对宽 W1进行扩展,令△=L1‑W1,则以区域P1的W1/2为对称轴,在L1上向两边均匀扩展△/2,直至长L1和宽W1的长度相等,从而得到一个新的方形区域P2;
[0015] 若新的方形区域P2的长为L2,宽为W2,其无法达到长宽一致,则应使宽W2的长度无限接近长L2,即使得△最小,得到方形区域P3;
[0016] 然后将获得的方形区域P2或方形区域P3裁剪下来,获得裁剪图,将剩下的背景区域分别计算每一维的像素平均值M。
[0017] 步骤5.按照原图像与裁剪图的坐标系原点的相对位置,计算裁剪图中特征点的坐标,作为裁剪图的标签。
[0018] 若裁剪图的尺寸为方形区域P3,则在宽W2所在的边添加通道,使 L2与W2相等,通道的像素值为剩余背景每一维的像素的平均值M。
[0019] 本发明的有益效果是:
[0020] 目标在图像中所占的比例增大,除去了图片中无用的信息,减少了图像的复杂度,在不损失特征的情况下完成尺度归一化,神经网络更加容易提取目标特征。保留了目标的纹理特征,添加的通道数减少,没有添加外来的信息,这样可以使网络训练容易收敛,且准确率提高。如果将上述区域P2或P3进行了旋转操作,根据旋转的特征点坐标,则可再次对旋转图片进行上述操作,除去图片四角旋转留下的多余通道。