首页 > 专利 > 杭州电子科技大学 > 一种基于分类卷积神经网络的图像对象识别方法专利详情

一种基于分类卷积神经网络的图像对象识别方法   0    0

有效专利 查看PDF
专利申请流程有哪些步骤?
专利申请流程图
申请
申请号:指国家知识产权局受理一件专利申请时给予该专利申请的一个标示号码。唯一性原则。
申请日:提出专利申请之日。
2019-07-22
申请公布
申请公布指发明专利申请经初步审查合格后,自申请日(或优先权日)起18个月期满时的公布或根据申请人的请求提前进行的公布。
申请公布号:专利申请过程中,在尚未取得专利授权之前,国家专利局《专利公报》公开专利时的编号。
申请公布日:申请公开的日期,即在专利公报上予以公开的日期。
2019-12-27
授权
授权指对发明专利申请经实质审查没有发现驳回理由,授予发明专利权;或对实用新型或外观设计专利申请经初步审查没有发现驳回理由,授予实用新型专利权或外观设计专利权。
2020-07-17
预估到期
发明专利权的期限为二十年,实用新型专利权期限为十年,外观设计专利权期限为十五年,均自申请日起计算。专利届满后法律终止保护。
2039-07-22
基本信息
有效性 有效专利 专利类型 发明专利
申请号 CN201910660942.5 申请日 2019-07-22
公开/公告号 CN110533068B 公开/公告日 2020-07-17
授权日 2020-07-17 预估到期日 2039-07-22
申请年 2019年 公开/公告年 2020年
缴费截止日
分类号 G06K9/62G06N3/04G06N3/08G06K9/46 主分类号 G06K9/62
是否联合申请 独立申请 文献类型号 B
独权数量 1 从权数量 1
权利要求数量 2 非专利引证数量 0
引用专利数量 1 被引证专利数量 0
非专利引证
引用专利 CN108364281A 被引证专利
专利权维持 3 专利申请国编码 CN
专利事件 转让 事务标签 公开、实质审查、授权、权利转移
申请人信息
申请人 第一申请人
专利权人 杭州电子科技大学 当前专利权人 杭州电子科技大学,浙江大华技术股份有限公司
发明人 颜成钢、赵崇宇、王廷宇、孙垚棋、张继勇、张勇东 第一发明人 颜成钢
地址 浙江省杭州市下沙高教园区2号大街 邮编 310018
申请人数量 1 发明人数量 6
申请人所在省 浙江省 申请人所在市 浙江省杭州市
代理人信息
代理机构
专利代理机构是经省专利管理局审核,国家知识产权局批准设立,可以接受委托人的委托,在委托权限范围内以委托人的名义办理专利申请或其他专利事务的服务机构。
杭州君度专利代理事务所 代理人
专利代理师是代理他人进行专利申请和办理其他专利事务,取得一定资格的人。
朱月芬
摘要
本发明公开了一种基于分类卷积神经网络的图像对象识别方法。本发明先设计提取图像中对象位置和类别信息的分类卷积神经网络模型,删除最后一次下采样操作和全连接层,增加一层通道数为分类类别数的卷积操作,对新加卷积操作的输出特征进行局部峰值搜索,然后经过滤波得到特征图中各个通道上的峰值点,求出各通道峰值点的均值并作为类别预测分数;接着在分类数据集上进行训练,使得设计的分类网络中的参数不断得到更新学习;最后用训练完的模型进行测试,利用最后一层卷积层输出的特征和分类网络预测的类别来获得图像中对象的位置和类别信息。本发明使用标注成本较低的分类数据集且训练成本较低,便能预测出图像中对象显著性的位置和类别信息。
  • 摘要附图
    一种基于分类卷积神经网络的图像对象识别方法
  • 说明书附图:图1
    一种基于分类卷积神经网络的图像对象识别方法
  • 说明书附图:图2
    一种基于分类卷积神经网络的图像对象识别方法
法律状态
序号 法律状态公告日 法律状态 法律状态信息
1 2022-10-14 专利权的转移 登记生效日: 2022.09.29 专利权人由杭州电子科技大学变更为杭州电子科技大学 地址由310018 浙江省杭州市下沙高教园区2号大街变更为310018 浙江省杭州市下沙高教园区2号大街 专利权人变更为浙江大华技术股份有限公司 
2 2022-10-11 著录事项变更 发明人由颜成钢 赵崇宇 王廷宇 孙垚棋 张继勇 张勇东 变更为颜成钢 殷俊 颜拥 王洪波 胡冀 金恒 熊剑平 吴立 王廷宇 王亚运 孙垚棋 高宇涵 朱尊杰 赵崇宇 张勇东 张继勇 
3 2020-07-17 授权
4 2019-12-27 实质审查的生效 IPC(主分类): G06K 9/62 专利申请号: 201910660942.5 申请日: 2019.07.22
5 2019-12-03 公开
权利要求
权利要求书是申请文件最核心的部分,是申请人向国家申请保护他的发明创造及划定保护范围的文件。
1.一种基于分类卷积神经网络的图像对象识别方法,其特征在于先设计提取图像中对象位置和类别信息的分类卷积神经网络模型,即选取常用的分类网络作为主框架,删除最后一次下采样操作和全连接层,增加一层通道数为分类类别数的卷积操作,对新加卷积操作的输出特征进行局部峰值搜索,然后经过滤波得到特征图中各个通道上的峰值点,求出各通道峰值点的均值并作为类别预测分数;接着在分类数据集上进行训练,使得设计的分类网络中的参数不断得到更新学习;最后用训练完的模型进行测试,利用最后一层卷积层输出的特征和分类网络预测的类别来获得图像中对象的位置和类别信息。

2.根据权利要求1所述的一种基于分类卷积神经网络的图像对象识别方法,其特征在于具体包括以下步骤:
步骤(1)设计提取图像中对象位置和类别信息的分类卷积神经网络模型:
1-
1.从常用的分类卷积神经网络中选取ResNet50分类模型作为将要设计分类模型的主要框架,并将ResNet50在超大分类数据集ImageNet上训练完的参数值迁移过来作为设计网络的预训练参数;
1-
2.删除ResNet50分类网络中最后面的全局平均池化层,使得输出的特征有更高的分辨率,从而得到更精确的对象位置信息;
1-
3.删除ResNet50分类网络中最后一层全连接层,使得网络特征在向前预测时一直保留对象位置信息;
1-
4.再在删除修改后的网络后面加上一层步长为1、卷积核为3x3和输出通道数为20的卷积层,该卷积操作输出特征的通道数量等于数据集分类标签数量,让该卷积神经网络输出的通道与分类标签一一对应,从而在各个类别通道内推导出图像中对象显著性位置;
1-
5.对步骤1-4的输出特征中每一个通道进行滤波,选取出每一通道内局部峰值点,并将每一通道内筛选出的峰值点的均值作为最后分类类别的概率打分值;具体对输出特征用
3x3大小的窗口在每一个通道上进行扫描,找到所有局部峰值点;再筛选出每一通道内所有大于通道特征中位数和固定阈值的局部峰值点,然后求出每一通道内被筛选出的峰值点的均值作为最后预测分类20个类别的概率打分值;其中,使用3x3大小、步长为1的最大池化操作寻找局部峰值点;设定的阈值大小为30;
步骤(2)在指定的PASCAL VOC2012多标签图像数据集上,对设计的新网络参数进行多标签训练,使用Sigmoid操作的多标签损失函数作为训练指标,使得预测的分类结果不断接近真实标签;
步骤(3)对训练完的新分类网络,输入一张图像,提取出最后一层卷积输出的特征和预测的多分类结果,将特征用双线性插值的方法放大到原图大小,选择预测存在类别的通道,这些类别通道将提供对象显著区域的位置信息;即对存在的某一类别,所对应的类别特征通道会以峰值的形式描述该类别对象显著区域的位置,从而描述了不同对象位置和类别信息。
说明书

技术领域

[0001] 本发明涉及计算机视觉领域,尤其针对图像处理方面,具体涉及一种基于分类卷积神经网络的图像对象识别方法。

背景技术

[0002] 近年来,深度学习(尤其是卷积神经网络)在图像分类、目标检测、图像语义分割等领域取得了一系列突破性的研究成果,其强大的特征学习与分类能力引起了广泛的关注。图像特征的提取与分类一直是计算机视觉领域的一个基础而重要的研究方向。卷积神经网络提供了一种端到端的学习模型,模型中的参数可以通过传统的梯度下降方法进行训练,经过训练的卷积神经网络能够学习图像中的特征,并且完成对图像特征的提取和分类。作为神经网络领域的一个重要研究分支,卷积神经网络的特点在于其每一层的特征都由上一层的局部区域特征融合得到。这一特点使得卷积神经网络相比于其他神经网络和传统方法更适合应用于图像特征的学习与表达。
[0003] 图像分类一直是计算机视觉领域中重要的研究方向,它需要对已给图像做出所属类别的判断。基于卷积神经网络的图像分类方法对实际复杂的图像,如存在对象的姿态、形变、角度变化和图像的光强度、背景等干扰,相比基于特征描述和检测的传统方法能取得更好地分类性能。然而,相比图像目标检测、图像语义分割等研究任务,图像分类给出了较少的图像信息,即仅仅图像所属类别信息。我们知道卷积神经网络基于卷积核滑动来学习特征,这一特性说明卷积核特征学习过程中保留了图像特征的空间位置信息,使得基于卷积神经网络的图像分类网络能够获得图像中对象的位置信息和类别信息。相比于基于卷积神经网络的图像目标检测和图像分割方法仅有有限的人工标注数据和需要巨大的训练成本,通过已有非常成熟和较高分类性能的卷积神经网络图像分类方法来提供图像中对象的位置和类别信息,可以作为图像目标检测和分割方法的辅助信息来提高性能。

发明内容

[0004] 本发明提出一种基于分类卷积神经网络的图像对象识别方法。根据卷积神经网路中卷积操作能保留图像中对象位置信息这一特点,通过设计一个分类卷积神经网络,从网络的中间层特征中提取对象位置和类别信息。
[0005] 本发明的方法是先设计提取图像中对象位置和类别信息的分类卷积神经网络模型,即选取常用的分类网络作为主框架,删除最后一次下采样操作和全连接层,增加一层通道数为分类类别数的卷积操作,对新加卷积操作的输出特征进行局部峰值搜索,然后经过滤波得到特征图中各个通道上的峰值点,求出各通道峰值点的均值并作为类别预测分数;接着在分类数据集上进行训练,使得设计的分类网络中的参数不断得到更新学习;最后用训练完的模型进行测试,利用最后一层卷积层输出的特征和分类网络预测的类别来获得图像中对象的位置和类别信息。具体包括以下步骤:
[0006] 步骤(1)设计提取图像中对象位置和类别信息的分类卷积神经网络模型:
[0007] 1-1.从常用的分类卷积神经网络中选取一个模型(如VGG系列或ResNet系列),作为新分类模型的主要框架;
[0008] 1-2.删除最后一次下采样操作,使得输出的特征有更高的分辨率;
[0009] 1-3.删除最后面的全连接层,使得特征保留图像的空间信息;
[0010] 1-4.在经过步骤1-3处理后的网络后面加一层卷积层,该卷积操作输出特征的通道与分类标签一一对应;
[0011] 1-5.对步骤1-4的输出特征中每一个通道进行滤波,选取出每一通道内局部峰值点,并将每一通道内筛选出的峰值点的均值作为最后分类类别的概率打分值。
[0012] 步骤(2)在指定的多标签图像数据集上,对设计的新分类网络参数进行多标签训练,使得预测结果不断接近真实标签。
[0013] 步骤(3)对训练完的新分类网络,输入一张图像,提取出最后一层卷积输出的特征和预测的多分类结果,将特征用双线性插值的方法放大到原图大小,选择预测存在类别的通道,这些类别通道将提供对象显著区域的位置信息。即对存在的某一类别,该类别特征通道会以峰值的形式描述了该类别对象显著区域的位置,从而描述了不同对象位置和类别信息
[0014] 本发明的有益效果是:
[0015] 本发明所述的方法设计了一个新的分类卷积神经网络模型,相比用目标检测等复杂网络模型获得图像中对象位置和类别信息,本发明设计的分类网络使用标注成本较低的分类数据集且训练成本较低,便能预测出图像中对象显著性的位置和类别信息。并且该得到对象位置和类别信息的设计方法普遍适用于不同的分类网络。

实施方案

[0018] 以下结合附图及实施例,对本发明进行进一步的详细说明。
[0019] 本发明设计了一个新的分类卷积神经网络模型,如图1所示。使用PASCAL VOC2012图像数据集作为设计分类网络的训练集和测试集,该数据集有20个物体类别。设计的分类网络以常用的ResNet50分类网络作为主要框架,删除最全局平均池化层和后一层全连接层,再在删除后的网络后面加上一层卷积核为3x3、输出通道数为20的卷积层,最后对卷积层输出的每个类别通道特征局部峰值点进行滤波和均值融合,最终得到分类网络预测的多标签分类打分概率。
[0020] 本发明所述方法包括以下步骤:
[0021] 步骤(1)设计包含图像中对象位置和类别信息特征的分类卷积神经网络模型[0022] a)从常用的分类卷积神经网络中选取ResNet50分类模型作为将要设计分类模型的主要框架,并将ResNet50在超大分类数据集ImageNet上训练完的参数值迁移过来作为设计网络的预训练参数;
[0023] b)删除ResNet50分类网络中最后面的全局平均池化层,使得输出的特征有更高的分辨率,从而可以得到更精确的对象位置信息;
[0024] c)删除ResNet50分类网络中最后一层全连接层,使得网络特征在向前预测时一直保留对象位置信息;
[0025] d)再在删除修改后的网络后面加上一层步长为1、卷积核为3x3和输出通道数为20的卷积层,该卷积操作输出特征的通道数量等于数据集分类标签数量,让该卷积网络输出的通道与分类标签一一对应,从而在各个类别通道内推导出图像中对象显著性位置;
[0026] e)对上面卷积输出特征图用3x3大小的窗口在每一个通道上进行扫描,找到所有局部峰值点。再筛选出每一通道内所有大于通道特征中位数和固定阈值的局部峰值点,然后求出每一通道内被筛选出的峰值点的均值作为最后预测分类20个类别的概率打分值。其中,使用3x3大小、步长为1的最大池化操作寻找局部峰值点;设定的阈值大小为30。
[0027] 步骤(2)在指定的PASCAL VOC2012多标签图像数据集上,对设计的新网络参数进行多标签训练,使用Sigmoid操作的多标签损失函数作为训练指标,使得预测的分类结果不断接近真实标签。
[0028] 步骤(3)对训练完的分类网络,输入一张图像,提取出最后一层卷积输出的特征图和预测的多分类概率打分值,用预测的类别挑选出对应类别通道的特征图,再将特征图用双线性插值的方法放大到原图大小。对存在的某一类别,该类别特征通道会以峰值的形式描述了该类别对象显著区域的位置,从而描述了不同对象位置和类别信息,如图2所示。

附图说明

[0016] 图1为设计的分类卷积神经网络的网络结构图
[0017] 图2为测试图像通过网络后得到的不同对象位置和标签识别图
版权所有:盲专网 ©2023 zlpt.xyz  蜀ICP备2023003576号