首页 > 专利 > 广西师范大学 > 一种基于双通道特征融合的机器视觉中手势识别方法专利详情

一种基于双通道特征融合的机器视觉中手势识别方法   0    0

实质审查 查看PDF
专利申请流程有哪些步骤?
专利申请流程图
申请
申请号:指国家知识产权局受理一件专利申请时给予该专利申请的一个标示号码。唯一性原则。
申请日:提出专利申请之日。
2019-09-24
申请公布
申请公布指发明专利申请经初步审查合格后,自申请日(或优先权日)起18个月期满时的公布或根据申请人的请求提前进行的公布。
申请公布号:专利申请过程中,在尚未取得专利授权之前,国家专利局《专利公报》公开专利时的编号。
申请公布日:申请公开的日期,即在专利公报上予以公开的日期。
2020-02-11
授权
授权指对发明专利申请经实质审查没有发现驳回理由,授予发明专利权;或对实用新型或外观设计专利申请经初步审查没有发现驳回理由,授予实用新型专利权或外观设计专利权。
预估到期
发明专利权的期限为二十年,实用新型专利权期限为十年,外观设计专利权期限为十五年,均自申请日起计算。专利届满后法律终止保护。
2039-09-24
基本信息
有效性 实质审查 专利类型 发明专利
申请号 CN201910902883.8 申请日 2019-09-24
公开/公告号 CN110674741A 公开/公告日 2020-01-10
授权日 预估到期日 2039-09-24
申请年 2019年 公开/公告年 2020年
缴费截止日
分类号 G06K9/00G06K9/62 主分类号 G06K9/00
是否联合申请 独立申请 文献类型号 A
独权数量 1 从权数量 4
权利要求数量 5 非专利引证数量 3
引用专利数量 6 被引证专利数量 1
非专利引证 1、C. XIE ET AL.: "Deep Feature Extraction and Multi-feature Fusion for Similar Hand Gesture Recognition", 《2018 IEEE VISUAL COMMUNICATIONS AND IMAGE PROCESSING (VCIP)》; 2、莫伟珑: "基于计算机视觉的手势识别方法研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑(月刊),2019年第09期》; 3、文元美等: "基于高低维度特征融合的双通道卷积神经网络", 《计算机与现代化,2018年第12期》;
引用专利 US2017220923A1、CN107037518A、CN108710945A、CN109214250A、CN109635750A、CN110135237A 被引证专利
专利权维持 99 专利申请国编码 CN
专利事件 事务标签 公开、实质审查
申请人信息
申请人 第一申请人
专利权人 广西师范大学 当前专利权人 广西师范大学
发明人 韩文静、罗晓曙、赵书林、刘欣、郑伟鹏 第一发明人 韩文静
地址 广西壮族自治区桂林市七星区育才路15号 邮编 541004
申请人数量 1 发明人数量 5
申请人所在省 广西壮族自治区 申请人所在市 广西壮族自治区桂林市
代理人信息
代理机构
专利代理机构是经省专利管理局审核,国家知识产权局批准设立,可以接受委托人的委托,在委托权限范围内以委托人的名义办理专利申请或其他专利事务的服务机构。
桂林市华杰专利商标事务所有限责任公司 代理人
专利代理师是代理他人进行专利申请和办理其他专利事务,取得一定资格的人。
刘梅芳
摘要
本发明公开了一种基于双通道特征融合的机器视觉中手势识别方法,其特征在于,包括如下步骤:1)采集数据源、制作数据集;2)对数据集中的手势图像进行预处理;4)进行网络第一阶段训练;5)进行网络第二阶段训练;6)进行特征融合操作;7)进行手势图像识别。这种方法能克服现有网络精度不高、存在梯度弥散的缺陷,能提高手势识别准确率。
  • 摘要附图
    一种基于双通道特征融合的机器视觉中手势识别方法
  • 说明书附图:图1
    一种基于双通道特征融合的机器视觉中手势识别方法
  • 说明书附图:图2
    一种基于双通道特征融合的机器视觉中手势识别方法
  • 说明书附图:图3-1
    一种基于双通道特征融合的机器视觉中手势识别方法
  • 说明书附图:图3-2
    一种基于双通道特征融合的机器视觉中手势识别方法
  • 说明书附图:图4
    一种基于双通道特征融合的机器视觉中手势识别方法
  • 说明书附图:图5
    一种基于双通道特征融合的机器视觉中手势识别方法
  • 说明书附图:图6
    一种基于双通道特征融合的机器视觉中手势识别方法
  • 说明书附图:图7
    一种基于双通道特征融合的机器视觉中手势识别方法
  • 说明书附图:图8
    一种基于双通道特征融合的机器视觉中手势识别方法
  • 说明书附图:图9
    一种基于双通道特征融合的机器视觉中手势识别方法
  • 说明书附图:图10
    一种基于双通道特征融合的机器视觉中手势识别方法
法律状态
序号 法律状态公告日 法律状态 法律状态信息
1 2020-02-11 实质审查的生效 IPC(主分类): G06K 9/00 专利申请号: 201910902883.8 申请日: 2019.09.24
2 2020-01-10 公开
权利要求
权利要求书是申请文件最核心的部分,是申请人向国家申请保护他的发明创造及划定保护范围的文件。
1.一种基于双通道特征融合的机器视觉中手势识别方法,其特征在于,包括如下步骤:
3)构建深度卷积神经网络;
1)采集数据源、制作数据集:采用美国手语手势数据集为数据源,注释美国手语手势数据集中的手势类别信息,设置2165张图片为训练集和350张图片为测试集,并生成tfrecord文件;
2)对数据集中的手势图像进行预处理:对步骤1)处理过的数据集中的手势图像进行亮度调整、对比度调整和随机裁剪;
3)构建深度卷积神经网络:构建基于双通道特征融合的深度卷积神经网络模型,所述深度卷积神经网络模型包括顺序连接的由双通道构成的输入层、特征融合层、全局平均池化层、全连接层和分类函数层;
4)进行网络第一阶段训练:将步骤1)处理过的数据集中手势图像训练集输入到步骤3)构造的双通道特征融合的深度卷积神经网络模型的第一个通道中对卷积神经网络进行训练即进行第一阶段训练,完成手势图像的局部特征提取;
5)进行网络第二阶段训练:将步骤1)处理过的数据集中手势图像训练集输入到步骤3)构造的双通道特征融合的深度卷积神经网络模型的第二个通道中对卷积神经网络进行训练即进行第二阶段训练,完成手势图像的全局特征提取;
6)进行特征融合操作:将第一阶段训练得到的手势图像的局部特征与第二阶段训练得到的手势图像的全局特征进行通道维度上的融合;
7)进行手势图像识别:将步骤6)融合后的特征图经过全局平均池化层后输入全连接层,最后通过分类函数层对结果进行分类,并选择批处理大小、学习率大小、正则化方式及优化算法对步骤3)构造的深度卷积神经网络进行参数微调,获得最佳的卷积神经网络模型,实现手势图像训练集的精确识别,采用步骤1)处理过的数据集中手势图像测试集输入到步骤3)构造的双通道特征融合的深度卷积神经网络模型中,验证步骤3)构造的双通道特征融合的深度卷积神经网络模型能够实现手势图像的精确识别。

2.根据权利要求1所述的基于双通道特征融合的机器视觉中手势识别方法,其特征在于,步骤3)中所述的双通道包括由SE_Net构成的第一通道和由Xception_ResNeXt构成的第二通道,所述第一通道包括由上至下顺序连接的第一base layer子模块、SE_Net模块和第二base layer子模块,所述第二通道包括2个结构相同串联的由上至下顺序连接的第三base layer子模块、由base layer子模块平行堆叠构成相同拓扑结构的base layer堆叠构建模块、第一通道拼接层、第四base layer子模块、由3个相同separable layer模块顺序连接构成的深度可分离卷积层、第五baselayer子模块,其中,第三base layer子模块的输出与第四base layer子模块的输出进行逐像素相加作为由3个相同separable layer模块顺序连接构成的深度可分离卷积层的输入,第三base layer子模块的输出与由3个相同separable layer模块顺序连接构成的深度可分离卷积层的输出进行逐像素相加作为第五base layer子模块的输入,第一通道和第二通道提取的特征进行通道维度上的融合,所述SE_Net具体公式如下所示:
s=σ(W2δ(W1,z))    (2)
xc=sc·uc                (3)
其中,W表示特征图的宽度,H表示特征图的高度,uc表示特征图的第c个通道,uc(i,j)表示特征图的第c个通道的(i,j)位置的参数,z=[z1,z2,...,zc]表示通道描述符,zc表示z的第c个元素,W1和W2表示全连接层的参数,δ表示激活函数ReLU,σ表示激活函数,s=[s1,s2,...,sc]表示激励的输出,Sc表示s的第c个元素,·表示标量乘法,xc表示输出,所述Xception_ResNeXt即第二通道采用depthwise separable convolution操作,将网络学习空间相关性和学习通道间相关性的任务完全分离,用平行堆叠相同拓扑结构的方式对图像进行特征提取,具体公式如公式(4)所示:
其中,x表示输入,C表示基数,Ti表示任意函数,y表示输出。

3.根据权利要求1所述的基于双通道特征融合的机器视觉中手势识别方法,其特征在于,步骤4)中所述的局部特征提取,包括如下步骤:
(4-1)输入图像尺寸为32x32x32x3,经过双通道特征融合的深度卷积神经网络模型第一通道中第一base layer子模块提取64个特征,base layer子模块包括由上到下顺序叠接的卷积层即Conv层、归一化层即Batch Normalization层和激活函数层即ReLU层,第一base layer子模块使用3x3卷积核对输入信息进行卷积运算,卷积的计算表达式如公式(5)所示:
conv=kernel*input      (5)
其中,input为卷积的输入,kernel为卷积核,conv为卷积的输出,*为卷积操作,提取卷积特征之后,采用Batch Normalization进行批量归一化操作,再将归一化结果输入到激活函数层,激活函数层选用ReLU作为激活函数;
(4-2)第一base layer子模块的输出输入到SE_Net模块中,SE_Net模块通过以下三个操作进行特征重标定;
(4-2-1)Squeeze操作:即全局平均池化,顺着空间维度进行特征压缩,将每个二维的特征通道变成一个实数,这个实数某种程度上具有全局的感受野,并且输出的维度和输入的特征通道数相匹配,它表征着在特征通道上响应的全局分布,而且使得靠近输入的层也可以获得全局的感受野;
(4-2-2)Excitation操作:即全连接层+激活函数层+全连接层+激活函数层,采用参数w来为每个特征通道生成权重,其中参数w被学习用来显式地建模特征通道间的相关性;
(4-2-3)Reweight操作:将Excitation输出的权重看做是经过特征选择后的每个特征通道的重要性,然后通过乘法逐通道加权到第一base layer层的输出上,完成在通道维度上的对原始特征的重标定;
(4-3)SE_Net模块的输出输入到第二base layer子模块,输出图像尺寸为
32x32x32x64。

4.根据权利要求1所述的基于双通道特征融合的机器视觉中手势识别方法,其特征在于,步骤5)中所述的全局特征提取,过程为:输入图像尺寸为32x32x32x3,经过Xception_ResNeXt构成的第二通道,输出图像尺寸为32x32x32x64。

5.根据权利要求2所述的基于双通道特征融合的机器视觉中手势识别方法,其特征在于,步骤5)中所述的separable layer模块包括由上而下顺序连接的可分离卷积层即separable_conv2d层、归一化层即Batch Normalization层和激活函数层即ReLU层。
说明书

技术领域

[0001] 本发明涉及图像处理技术领域,尤其涉及一种基于双通道特征融合的机器视觉中手势识别方法。

背景技术

[0002] 近年来,随着人工智能技术的快速发展,人机交互成为人工智能领域中重要的研究领域,为了满足实际应用的需要,研究基于机器视觉的人机手势交流方法具有重要的应用价值。例如在手持式云台、无人机云台、AR(Augmented Reality)、VR(Virtual Reality)等领域的人机手势交流应用以及对聋哑人的手势手语的翻译,都将大大提高相关产品的智能化水平。更为高效、舒适的交互方式是让机器能够直接理解人的肢体语言,在各种肢体语言中手势最为简单、方便,因此可以将它作为一种简单、高效的人机交互方式,有着十分广阔的应用前景。
[0003] 基于手势的人机交互中,一个很重要的过程是对手势进行识别。传统的手势识别包括基于模板匹配、基于数据手套和基于隐马尔科夫模型等方法。其中,基于模板匹配的交互方法需要手工设计一个标准手势库,将模板与输入图像进行匹配,工序复杂,迁移性差;基于数据手套的交互方法,其设备昂贵,一旦重新更换手套,需要重新训练,很不方便;基于隐马尔科夫模型的手势识别方法,其计算量大、速度慢、过程复杂;通过人工建模等方式设计手势描述特征的过程十分繁琐、无法深度挖掘更高层次、更多维度的特征信息,这就导致基于传统方法的模型泛化性差、很难达到实时检测目的。基于计算机视觉的手势识别方法可以有效克服传统方法的弊处,现有技术中已有一些基于计算机视觉的手势识别方法,比如借助Kinect设备进行手势识别的方法、基于CNN的静态手势识别方法、基于迁移学习的手势识别方法等,但是这些现有方法识别率不够高。

发明内容

[0004] 本发明的目的是针对现有技术的不足,而提供一种基于双通道特征融合的机器视觉中手势识别方法。这种方法能克服现有网络精度不高、存在梯度弥散的缺陷,能提高手势识别准确率。
[0005] 实现本发明目的的技术方案是:
[0006] 一种基于双通道特征融合的机器视觉中手势识别方法,与现有技术不同处在于,包括如下步骤:
[0007] 1)采集数据源、制作数据集:采用美国手语手势数据集(American Sign Language,简称ASL)为数据源,注释美国手语手势数据集中的手势类别信息,设置2165张图片为训练集和350张图片为测试集,并生成tfrecord文件;
[0008] 2)对数据集中的手势图像进行预处理:对步骤1)处理过的数据集中的手势图像进行亮度调整、对比度调整和随机裁剪;
[0009] 3)构建深度卷积神经网络:构建基于双通道特征融合的深度卷积神经网络模型,所述深度卷积神经网络模型包括顺序连接的由双通道构成的输入层、特征融合层即Concatenate层、全局平均池化层(Global Average Pooling,简称GAP)、全连接层(Fully Connected Layer,简称FC)和分类函数层(Sigmoid);
[0010] 4)进行网络第一阶段训练:将步骤1)处理过的数据集中手势图像训练集输入到步骤3)构造的双通道特征融合的深度卷积神经网络模型的第一个通道中对卷积神经网络进行训练即进行第一阶段训练,完成手势图像的局部特征提取;
[0011] 5)进行网络第二阶段训练:将步骤1)处理过的数据集中手势图像训练集输入到步骤3)构造的双通道特征融合的深度卷积神经网络模型的第二个通道中对卷积神经网络进行训练即进行第二阶段训练,完成手势图像的全局特征提取;
[0012] 6)进行特征融合操作:将第一阶段训练得到的手势图像的局部特征与第二阶段训练得到的手势图像的全局特征进行通道维度上的融合;
[0013] 7)进行手势图像识别:将步骤6)融合后的特征图经过全局平均池化层后输入全连接层,最后通过分类函数对结果进行分类,并选择批处理大小、学习率大小、正则化方式及优化算法对步骤3)构造的深度卷积神经网络进行参数微调,获得最佳的卷积神经网络模型,实现手势图像训练集的精确识别,采用步骤1)处理过的数据集中手势图像测试集输入到步骤3)构造的双通道特征融合的深度卷积神经网络模型中,验证步骤3)构造的双通道特征融合的深度卷积神经网络模型能够实现手势图像的精确识别。
[0014] 步骤3)中所述的双通道包括由SE_Net构成的第一通道和由Xception_ResNeXt构成的第二通道,所述第一通道包括由上至下顺序连接的第一base layer子模块、SE_Net模块和第二base layer子模块,所述第二通道包括2个结构相同串联的由上至下顺序连接的第三base layer子模块、由base layer子模块平行堆叠构成相同拓扑结构的base layer堆叠构建模块、第一通道拼接层、第四base layer子模块、由3个相同separable layer模块顺序连接构成的深度可分离卷积层、第五base layer子模块,其中,第三base layer子模块的输出与第四base layer子模块的输出进行逐像素相加作为由3个相同separable layer模块顺序连接构成的深度可分离卷积层的输入,第三base layer子模块的输出与由3个相同separable layer模块顺序连接构成的深度可分离卷积层的输出进行逐像素相加作为第五base layer子模块的输入,第一通道和第二通道提取的特征进行通道维度上的融合,所述SE_Net即第一通道通过学习自动获取每个通道特征的重要程度,并根据重要程度的不同对特征图进行自动调整,达到特征重标定的作用,所述SE_Net具体公式如下所示:
[0015]
[0016] s=σ(W2δ(W1,z))   (2)
[0017] xc=sc·uc   (3)
[0018] 其中,W表示特征图的宽度,H表示特征图的高度,uc表示特征图的第c个通道,uc(i,j)表示特征图的第c个通道的(i,j)位置的参数,z=[z1,z2,...,zc]表示通道描述符,zc表示z的第c个元素,W1和W2表示全连接层的参数,δ表示激活函数ReLU,σ表示激活函数(Sigmoid),s=[s1,s2,...,sc]表示激励的输出,sc表示s的第c个元素,·表示标量乘法,xc表示输出,所述Xception_ResNeXt即第二通道采用depthwise separable convolution操作,将网络学习空间相关性和学习通道间相关性的任务完全分离,采用ResNeXt操作用于快捷连接前后层的特征,并用平行堆叠相同拓扑结构的方式对图像进行特征提取,具体公式如公式(4)所示:
[0019]
[0020] 其中,x表示输入,C表示基数,Ti表示任意函数,y表示输出。
[0021] 步骤4)中所述的局部特征提取,包括如下步骤:
[0022] (4-1)输入图像尺寸为32x32x32x3,经过双通道特征融合的深度卷积神经网络模型第一通道中第一base layer子模块提取64个特征,base layer子模块包括由上到下顺序叠接的卷积层即Conv层、归一化层即Batch Normalization层和激活函数层即ReLU层,第一base layer子模块使用3x3卷积核对输入信息进行卷积运算,卷积的计算表达式如公式(5)所示:
[0023] conv=kernel*input   (5)
[0024] 其中,input为卷积的输入,kernel为卷积核,conv为卷积的输出,*为卷积操作,提取卷积特征之后,采用Batch Normalization进行批量归一化操作,再将归一化结果输入到激活函数层,激活函数层选用ReLU作为激活函数;
[0025] (4-2)第一base layer子模块的输出输入到SE_Net模块中,SE_Net模块通过以下三个操作进行特征重标定;
[0026] (4-2-1)Squeeze操作:即全局平均池化,顺着空间维度进行特征压缩,将每个二维的特征通道变成一个实数,这个实数某种程度上具有全局的感受野,并且输出的维度和输入的特征通道数相匹配,它表征着在特征通道上响应的全局分布,而且使得靠近输入的层也可以获得全局的感受野;
[0027] (4-2-2)Excitation操作:即全连接层+激活函数层即ReLU层+全连接层+激活函数层即Sigmoid层,类似于循环神经网络中门的机制,采用参数w来为每个特征通道生成权重,其中参数w被学习用来显式地建模特征通道间的相关性;
[0028] (4-2-3)Reweight操作:将Excitation输出的权重看做是经过特征选择后的每个特征通道的重要性,然后通过乘法逐通道加权到第一base layer层的输出上,完成在通道维度上的对原始特征的重标定;
[0029] (4-3)SE_Net模块的输出输入到第二base layer子模块,输出图像尺寸为32x32x32x64。
[0030] 步骤5)中所述的全局特征提取,过程为:输入图像尺寸为32x32x32x3,经过Xception_ResNeXt构成的第二通道,输出图像尺寸为32x32x32x64。
[0031] 步骤5)中所述的separable layer模块包括由上而下顺序连接的可分离卷积层即separable_conv2d层、归一化层即Batch Normalization层和激活函数层即ReLU层。
[0032] 本技术方案中深度卷积神经网络模型中第一通道提取的局部特征和第二通道提取的全局特征进行融合。
[0033] 本技术方案中采用双通道特征融合的深度卷积神经网络,增强网络前后层之间的联系,促使网络更好地提取手势特征,这种方法能克服现有网络精度不高、存在梯度弥散的缺陷,能提高手势识别准确率。

实施方案

[0045] 下面结合附图和实施例对本发明的内容作进一步的阐述,但不是对本发明的限定。
[0046] 实施例:
[0047] 本例手势识别方法流程实验环境是:双E5-2637 v4 CPU服务器,64位操作系统Ubuntu 16.04,使用GTX1080Ti显卡、32GB内存来加速训练,所使用的平台是谷歌开发的机器学习框架tensorflow1.8-gpu版,具体为:
[0048] 参照图1,一种基于双通道特征融合的机器视觉中手势识别方法,包括如下步骤:
[0049] 1)采集数据源、制作数据集:采用美国手语手势数据集(American Sign Language,简称ASL)为数据源,数据集的图片均为二维静态图,如图6所示,包含26种字母手势和10种数字手势,总数量为2515张,注释美国手语手势数据集中的手势类别信息,设置2165张图片为训练集和350张图片为测试集,并生成tfrecord文件;
[0050] 2)对数据集中的手势图像进行预处理:对步骤1)处理过的数据集中的手势图像进行亮度调整、对比度调整和随机裁剪;
[0051] 3)构建深度卷积神经网络:构建基于双通道特征融合的深度卷积神经网络模型,双通道特征融合的深度卷积神经网络模型如图2所示,包括顺序连接的由双通道构成的输入层、特征融合层、全局平均池化层、全连接层和分类函数层;
[0052] 4)进行网络第一阶段训练:将步骤1)处理过的数据集中手势图像训练集输入到步骤3)构造的双通道特征融合的深度卷积神经网络模型的第一个通道中对卷积神经网络进行训练即进行第一阶段训练,完成手势图像的局部特征提取,双通道特征融合的深度卷积神经网络模型中第一通道SE_Net结构如图4所示;
[0053] 5)进行网络第二阶段训练:将步骤1)处理过的数据集中手势图像训练集输入到步骤3)构造的双通道特征融合的深度卷积神经网络模型的第二个通道中对卷积神经网络进行训练即进行第二阶段训练,完成手势图像的全局特征提取,双通道特征融合的深度卷积神经网络模型中第二阶段Xception_ResNeXt结构如图5所示;
[0054] 6)进行特征融合操作:将第一阶段训练得到的手势图像的局部特征与第二阶段训练得到的手势图像的全局特征进行通道维度上的融合;
[0055] 7)进行手势图像识别:将步骤6)融合后的特征图经过全局平均池化层后输入全连接层,最后通过分类函数层对结果进行分类,并选择批处理大小、学习率大小、正则化方式及优化算法对步骤3)构造的深度卷积神经网络进行参数微调,获得最佳的卷积神经网络模型,实现手势图像训练集的精确识别,采用步骤1)处理过的数据集中手势图像测试集输入到步骤3)构造的双通道特征融合的深度卷积神经网络模型中,验证步骤3)构造的双通道特征融合的深度卷积神经网络模型能够实现手势图像的精确识别。本例识别涉及的仿真结果见图7、8、9、10,可以得到本例方法可以有效识别出36种手势,获得了97.01%的识别率,而且鲁棒性较强。
[0056] 步骤3)中所述的双通道包括由SE_Net构成的第一通道和由Xception_ResNeXt构成的第二通道,所述第一通道包括由上至下顺序连接的第一base layer子模块如图3-1所示、SE_Net模块和第二base layer子模块,所述第二通道包括2个结构相同串联的由上至下顺序连接的第三base layer子模块、由base layer子模块平行堆叠构成相同拓扑结构的base layer堆叠构建块、第一通道拼接层、第四base layer子模块、由3个相同separable layer模块顺序连接构成的深度可分离卷积层,separable layer模块如图3-2所示、第五base layer子模块,其中,第三base layer子模块的输出与第四base layer子模块的输出进行逐像素相加作为由3个相同separable layer模块顺序连接构成的深度可分离卷积层的输入,第三base layer子模块的输出与由3个相同separable layer模块顺序连接构成的深度可分离卷积层的输出进行逐像素相加作为第五base layer子模块的输入,第一通道和第二通道提取的特征进行通道维度上的融合,其中,所述SE_Net即第一通道通过学习自动获取每个通道特征的重要程度,并根据重要程度的不同对特征图进行自动调整,达到特征重标定的作用,所述SE_Net具体公式如下所示:
[0057]
[0058] s=σ(W2δ(W1,z))   (2)
[0059] xc=sc·uc   (3)
[0060] 其中,W表示特征图的宽度,H表示特征图的高度,uc表示特征图的第c个通道,uc(i,j)表示特征图的第c个通道的(i,j)位置的参数,z=[z1,z2,...,zc]表示通道描述符,zc表示z的第c个元素,W1和W2表示全连接层的参数,δ表示激活函数ReLU,σ表示激活函数,s=[s1,s2,...,sc]表示激励的输出,sc表示s的第c个元素,·表示标量乘法,xc表示输出,所述Xception_ResNeXt即第二通道采用depthwise separable convolution操作,将网络学习空间相关性和学习通道间相关性的任务完全分离,采用ResNeXt操作用于快捷连接前后层的特征,并用平行堆叠相同拓扑结构的方式对图像进行特征提取,具体公式如公式(4)所示:
[0061]
[0062] 其中,x表示输入,C表示基数,Ti表示任意函数,y表示输出。
[0063] 步骤4)中所述的局部特征提取,包括如下步骤:
[0064] (4-1)输入图像尺寸为32x32x32x3,经过双通道特征融合的深度卷积神经网络模型第一通道中第一base layer子模块提取64个特征,base layer子模块包括由上到下顺序叠接的卷积层即Conv层、归一化层即Batch Normalization层和激活函数层即ReLU层,第一base layer子模块使用3x3卷积核对输入信息进行卷积运算,卷积的计算表达式如公式(5)所示:
[0065] conv=kernel*input   (5)
[0066] 其中,input为卷积的输入,kernel为卷积核,conv为卷积的输出,*为卷积操作,提取卷积特征之后,采用Batch Normalization进行批量归一化操作,再将归一化结果输入到激活函数层,激活函数层选用ReLU作为激活函数;
[0067] (4-2)第一base layer子模块的输出输入到SE_Net模块中,SE_Net模块通过以下三个操作进行特征重标定:
[0068] (4-2-1)Squeeze操作:即全局平均池化(Global Average Pooling),顺着空间维度进行特征压缩,将每个二维的特征通道变成一个实数,这个实数某种程度上具有全局的感受野,并且输出的维度和输入的特征通道数相匹配,它表征着在特征通道上响应的全局分布,而且使得靠近输入的层也可以获得全局的感受野;
[0069] (4-2-2)Excitation操作:即全连接层+激活函数层(ReLU)+全连接层+激活函数层,类似于循环神经网络中门的机制,采用参数w来为每个特征通道生成权重,其中参数w被学习用来显式地建模特征通道间的相关性;
[0070] (4-2-3)Reweight操作:将Excitation输出的权重看做是经过特征选择后的每个特征通道的重要性,然后通过乘法逐通道加权到第一base layer层的输出上,完成在通道维度上的对原始特征的重标定;
[0071] (4-3)SE_Net模块的输出输入到第二base layer子模块,输出图像尺寸为32x32x32x64。
[0072] 步骤5)中所述的全局特征提取,过程为:输入图像尺寸为32x32x32x3,输入图像尺寸为32x32x32x3,经过Xception_ResNeXt构成的第二通道,输出图像尺寸为32x32x32x64。
[0073] 步骤5)中所述的separable layer模块包括由上而下顺序连接的可分离卷积层即separable_conv2d层、归一化层即Batch Normalization层和激活函数层即ReLU层,如图3-2所示。

附图说明

[0034] 图1为实施例中方法流程示意图;
[0035] 图2为实施例双通道特征融合的深度卷积神经网络模型的结构示意图;
[0036] 图3-1为实施例双通道特征融合的深度卷积神经网络模型中的base layer子模块示意图;
[0037] 图3-2为实施例双通道特征融合的深度卷积神经网络模型中的separable layer子模块结构示意图;
[0038] 图4为实施例双通道特征融合的深度卷积神经网络模型中第一阶段SE_Net结构示意图;
[0039] 图5为实施例双通道特征融合的深度卷积神经网络模型中第二阶段Xception_ResNeXt结构示意图;
[0040] 图6为实施例中ASL数据集的36种手势示意图;
[0041] 图7为实施例中训练集的识别准确率示意图;
[0042] 图8为实施例中训练集的学习曲线示意图;
[0043] 图9为实施例中训练集的loss曲线示意图;
[0044] 图10为实施例中测试集的准确率示意图。
版权所有:盲专网 ©2023 zlpt.xyz  蜀ICP备2023003576号