首页 > 专利 > 杭州电子科技大学 > 一种基于卷积神经网络的立体图像视差匹配方法专利详情

一种基于卷积神经网络的立体图像视差匹配方法 0 0

有效专利查看PDF

申请进展

基本信息

申请人信息

代理人信息

摘要

法律状态

权利要求

说明书

专利申请流程有哪些步骤？

申请

申请号：指国家知识产权局受理一件专利申请时给予该专利申请的一个标示号码。唯一性原则。

申请日：提出专利申请之日。

2018-07-27

申请公布

申请公布指发明专利申请经初步审查合格后，自申请日（或优先权日）起18个月期满时的公布或根据申请人的请求提前进行的公布。

申请公布号：专利申请过程中，在尚未取得专利授权之前，国家专利局《专利公报》公开专利时的编号。

申请公布日：申请公开的日期，即在专利公报上予以公开的日期。

2019-01-08

授权

授权指对发明专利申请经实质审查没有发现驳回理由，授予发明专利权；或对实用新型或外观设计专利申请经初步审查没有发现驳回理由，授予实用新型专利权或外观设计专利权。

2020-08-04

预估到期

发明专利权的期限为二十年，实用新型专利权期限为十年，外观设计专利权期限为十五年，均自申请日起计算。专利届满后法律终止保护。

2038-07-27

基本信息

有效性	有效专利	专利类型	发明专利
申请号	CN201810844767.0	申请日	2018-07-27
公开/公告号	CN109005398B	公开/公告日	2020-08-04
授权日	2020-08-04	预估到期日	2038-07-27
申请年	2018年	公开/公告年	2020年
缴费截止日
分类号	H04N13/106 、G06N3/04	主分类号	H04N13/106
是否联合申请	独立申请	文献类型号	B
独权数量	1	从权数量	0
权利要求数量	1	非专利引证数量	0
引用专利数量	0	被引证专利数量	0
非专利引证
引用专利		被引证专利
专利权维持	4	专利申请国编码	CN
专利事件		事务标签	公开、实质审查、授权

申请人信息

申请人	杭州电子科技大学	第一申请人	杭州电子科技大学
专利权人	杭州电子科技大学	当前专利权人	杭州电子科技大学
发明人	王毅刚、陈靖宇	第一发明人	王毅刚
地址	浙江省杭州市下沙高教园区2号大街	邮编	310018
申请人数量	1	发明人数量	2
申请人所在省	浙江省	申请人所在市	浙江省杭州市

代理人信息

代理机构

专利代理机构是经省专利管理局审核，国家知识产权局批准设立，可以接受委托人的委托，在委托权限范围内以委托人的名义办理专利申请或其他专利事务的服务机构。

杭州君度专利代理事务所

代理人

专利代理师是代理他人进行专利申请和办理其他专利事务，取得一定资格的人。

朱月芬

摘要

本发明公开了一种基于卷积神经网络的立体图像视差匹配方法，本发明基于现有的用于视差估计的端到端学习几何和上下文的深度立体回归算法，通过改进其所用的几何上下文卷积神经网络，利用LSTM神经网络作为网络层替代原本网络模型中的soft‑argmin网络层操作。相比于原有的依靠人工定义规则的soft‑argmin网络操作，LSMT通过网络学习出一个规则，以此来提高网络性能，提高亚像素的准确性，得到更加精确的视差估计图，而且LSTM网络擅长处理成本序列，加快了网络的处理速度，提高匹配效率。

摘要附图

法律状态

序号	法律状态公告日	法律状态	法律状态信息
1	2020-08-04	授权
2	2019-01-08	实质审查的生效	IPC(主分类): H04N 13/106 专利申请号: 201810844767.0 申请日: 2018.07.27
3	2018-12-14	公开

权利要求

权利要求书是申请文件最核心的部分，是申请人向国家申请保护他的发明创造及划定保护范围的文件。

1.一种基于卷积神经网络的立体图像视差匹配方法，其特征在于，包括如下步骤：
步骤(1)：图像预处理；对带有参考实参图的立体图像对的左图和右图分别作归一化处理，使其图像像素值在[-1,1]中；
步骤(2)构造用于端到端学习的卷积神经网络；
包括以下网络层：
2-
1.构造一个2D卷积操作层，由降采样层和残差块构成，每层网络后面跟随一个批量归一化层和一个已校正的非线性层；
利用5*5的卷积核对输入图像先进行一次降采样操作，降采样因子为2，随后利用残差块对图像进行操作，该残差块总共有8个，且每个残差块由两个3*3的卷积核组成，输出为图像的一元特征；
2-
2.构造计算立体匹配代价层；
利用深度一元特征生成的成本量计算立体匹配的代价，并将步骤2-1中2D卷积操作层的输出级中的每个一元特征与对应的立体图像元组进行连接，并将其打包进一个4D量中；
其中深度一元特征生成的成本量的维度为H*W*(D+1)*F，其中H、W分别为图像的高和宽，D为最大的视差值，F表示图像特征；
2-
3.构造学习上下文层；
先由四层降采样组成3D正则化网络层，每层降采样因子为2，在编码级别中应用两个3*
3*3的卷积，使得3D成本量的尺寸减少1/8；接着利用3D反卷积操作对解码器中的向量进行上采样操作，上采样因子为2，在解码级别中应用一个3*3*3的卷积，并在每个上采样层之前添加一个残差层，以此来保留图像中的高频率信息；最后由一个单3D反卷积层输出正则化的成本量，成本量维度为H*W*D；
2-
4.构造视差估计层；
该网络层由LSMT神经网络构成，LSTM神经网络由包含四个交互层的重复模块构成，每个模块里由三个门来控制细胞单元状态信息，该三个门分别是输入门，遗忘门和输出门，每个门由一个sigmoid神经网络层和一个pointwise乘法操作构成；将步骤2-3中生成的成本量输入该网络层，输出的结果便是视差图；
每个模块具体交互步骤如下：
2-4-
1.利用遗忘门决定从细胞状态中去除信息或对其增加信息，其中sigmoid层输出
0-1之间的数值来描述每个部分多少量可通过，0表示不许任何量通过，1表示允许任意量通过；
2-4-
2.确定何种新信息将被存放在细胞状态中；首先利用输入门确定什么值需要更新，接着用一个tanh层创建一个新的候选值向量加入到状态中进行更新；
2-4-
3.确定输出值；通过sigmoid层确定细胞状态的某部分将输出，接着将细胞状态通过tanh层进行处理得到一个[-1,1]的值，并将其和sigmoid门的输出相乘，最终得到确定的输出值；
步骤(3)网络训练；
收集数据集，在训练集数据输入网络进行训练之前，对数据进行归一化处理，并设置网络模型的相关参数，接着对网络进行有监督的反向传播算法训练，直到监督回归损失收敛，得到训练网络；
收集的数据集来源于两个开源数据库，sceneflow和KITTI，网络参数设置包括选择RMSProp为优化方式，设置学习率为1e-3，并设定F,D相应的值为32,192，网络训练在TensorFlow框架下进行；训练过程有两部分组成，先使用包含大量图像数据的sceneflow数据集对网络进行预训练，得到一个预训练模型，然后在这个预训练模型上进行微调，接着训练包含图像数量较少的KITTI数据集；回归损失的计算公式如下：
其中N表示图像中的总像素数，dn表示网络预测出来的视差图，表示已有的标准视差图ground truth；
步骤(4)求视差图；
从测试集中取几组立体图像对，进行步骤(1)的预处理；将其输入步骤(3)中训练完成的网络，得到相应的视差图。

说明书

技术领域

[0001] 本发明属于计算机视觉技术领域，具体涉及一种基于卷积神经网络的立体图像视差匹配方法。

背景技术

[0002] 从立体图像对中准确地估计出三维几何信息是许多计算机视觉应用场景中的核心问题，比如自动驾驶和无人机等。其中较为关键的一步便是计算已校正的图像对中相应像素的视差，而在实际场景下，要实现较为精确的视差估计是一个极具挑战性的问题。现有的一些视差估计方法，在某些情况下无法对立体图像对进行良好的视差估计，例如无纹理区域，反射表面，薄结构和重复图案等。也有一些视差估计方法通过池化或者基于梯度的归一化方法来减少估计失败率，这就导致算法需要在平滑表面和检测细节结构之间做出平衡。

[0003] 相比较而言，深度卷积神经网络在理解语义上非常有效，由于大量训练数据集的监督，它们优于分类任务。针对视差估计算法中的一些问题，获取全局语义上下文信息而不是只依赖于局部几何信息能够良好地解决它。当前利用深度学习表示的立体算法主要关注于用它们生成一元项等，传统的正则化和后续处理步骤仍然被需要，例如半全局块匹配，左右一致性检查等，这些正则化步骤的效果十分有限，因为这些步骤都是通过人工操作，浅层功能，也容易受到上述问题的影响。

发明内容

[0004] 针对现有技术所存在的上述技术缺陷，本发明提出了一种基于卷积神经网络的立体图像视差匹配方法。基于现有的用于视差估计的端到端学习几何和上下文的深度立体回归算法，改进其所用的几何上下文卷积神经网络，利用LSTM(Long Short Term Memory network)神经网络作为网络层替代原本网络模型中的soft-argmin网络层操作。不仅提高了网络模型的良好性能，平滑了视差估计，提高匹配精度，还提高了匹配效率。

[0005] 一种基于卷积神经网络的立体图像视差匹配方法，包括如下步骤：

[0006] 步骤(1)：图像预处理。对带有参考实参图的立体图像对的左图和右图分别作归一化处理，使其图像像素值在[-1,1]中；

[0007] 步骤(2)构造用于端到端学习的卷积神经网络。

[0008] 包括以下网络层：

[0009] 2-1.构造一个2D卷积操作层，由降采样层和残差块构成，每层网络后面跟随一个批量归一化层和一个已校正的线性非线性层；

[0010] 利用5*5的卷积核对输入图像先进行一次降采样操作，降采样因子为2，随后利用残差块对图像进行操作，该残差块总共有8个，且每个残差块由两个3*3的卷积核组成，输出为图像的一元特征；

[0011] 2-2.构造计算立体匹配代价层。

[0012] 利用深度一元特征生成的成本量计算立体匹配的代价，并将步骤2-1中2D卷积操作层的输出级中的每个一元特征与对应的立体图像元组进行连接，并将其打包进一个4D量中；

[0013] 其中深度一元特征生成的成本量的维度为H*W*(D+1)*F，其中H、W分别为图像的高和宽，D为最大的视差值，F表示图像特征。

[0014] 2-3.构造学习上下文层。

[0015] 先有四层降采样组成3D正则化网络层，每层降采样因子为2，在编码级别中应用两个3*3*3的卷积，使得3D成本量的尺寸减少1/8；接着利用3D反卷积操作对解码器中的向量进行上采样操作，上采样因子为2，在解码级别中应用一个3*3*3的卷积，并在每个上采样层之前添加一个残差层，以此来保留图像中的高频率信息；最后由一个单3D反卷积层输出正则化的成本量，成本量维度为H*W*D；

[0016] 2-4.构造视差估计层。

[0017] 该网络层由LSMT神经网络构成，LSTM神经网络由包含四个交互层的重复模块构成，每个模块里由三个门来控制细胞单元状态信息，该三个门分别是输入门，遗忘门和输出门，每个门由一个sigmoid神经网络层和一个pointwise乘法操作构成；将步骤2-3中生成的成本量输入该网络层，输出的结果便是视差图；

[0018] 每个模块具体交互步骤如下：

[0019] 2-4-1.利用遗忘门决定从细胞状态中去除信息或对其增加信息，其中sigmoid层输出0-1之间的数值来描述每个部分多少量可通过，0表示不许任何量通过，1表示允许任意量通过；

[0020] 2-4-2.确定何种新信息将被存放在细胞状态中。首先利用输入门确定什么值需要更新，接着用一个tanh层创建一个新的候选值向量加入到状态中进行更新；

[0021] 2-4-3.确定输出值。通过sigmoid层确定细胞状态的某部分将输出，接着将细胞状态通过tanh层进行处理得到一个[-1,1]的值，并将其和sigmoid门的输出相乘，最终得到确定的输出值。

[0022] 步骤(3)网络训练。

[0023] 收集数据集，在训练集数据输入网络进行训练之前，对数据进行归一化处理，并设置网络模型的相关参数，接着对网络进行有监督的反向传播算法训练，直到监督回归损失收敛，得到训练网络；

[0024] 收集的数据集来源于两个开源数据库，sceneflow和KITTI，网络参数设置包括选择RMSProp为优化方式，设置学习率为1e-3，并设定F,D相应的值为32,192，网络训练在TensorFlow框架下进行。训练过程有两部分组成，先使用包含大量图像数据的sceneflow数据集对网络进行预训练，得到一个预训练模型，然后在这个预训练模型上进行微调，接着训练包含图像数量较少的KITTI数据集。回归损失的计算公式如下：

[0025]

[0026] 其中N表示图像中的总像素数，dn表示网络预测出来的视差图，表示已有的标准视差图ground truth。

[0027] 步骤(4)求视差图。

[0028] 从测试集中取几组立体图像对，进行步骤(1)的预处理。将其输入步骤(3)中训练完成的网络，得到相应的视差图。

[0029] 本发明有益效果如下：

[0030] 本发明提出了一种基于卷积神经网络的双目立体匹配方法，基于现有的用于视差估计的端到端学习几何和上下文的深度立体回归算法，通过改进其所用的几何上下文卷积神经网络，利用LSTM(Long Short Term Memory network)神经网络作为网络层替代原本网络模型中的soft-argmin网络层操作。相比于原有的依靠人工定义规则的soft-argmin网络操作，LSMT通过网络学习出一个规则，以此来提高网络性能，提高亚像素的准确性，得到更加精确的视差估计图，而且LSTM网络擅长处理成本序列，加快了网络的处理速度，提高匹配效率。

实施方案

[0031] 一种基于卷积神经网络的双目立体匹配方法，包括如下步骤：

[0032] 步骤(1)图像预处理。对带有参考实参图的立体图像对的左图和右图分别作归一化处理，使其图像像素值在[-1,1]中；

[0033] 步骤(2)构造用于端到端学习的卷积神经网络。包括以下网络层：

[0034] 2-1.构造一个2D卷积操作层，由降采样层和残差块构成，每层网络后面跟随一个批量归一化层和一个已校正的线性非线性层。

[0035] 2-2.构造计算立体匹配代价层。利用深度一元特征生成成本量计算立体匹配的代价，并将步骤2-1中左右图像的输出级通过简单连接来约束模型，从而保留立体视觉的几何信息。

[0036] 2-3.构造学习上下文层。先有四层降采样组成3D正则化网络层，每层降采样因子为2，使得3D成本量的尺寸减少1/8；接着利用3D反卷积操作对解码器中的向量进行上采样操作，并在每个上采样层之前添加一个残差层，以此来保留图像中的高频率信息；最后由一个单3D反卷积层输出正则化的成本量；

[0037] 2-4.构造视差估计层。该网络层由LSMT神经网络构成，将步骤2-3中生成的成本量输入该网络层，输出的结果便是视差图。

[0038] 构造的卷积神经网络能够实现端到端学习训练，包括以下步骤:

[0039] 2-1.利用5*5的卷积核对输入图像先进行一次降采样操作，降采样因子为2，随后利用残差块对图像进行操作，该残差块总共有8个，且每个残差块由两个3*3的卷积核组成，输出为图像的一元特征；

[0040] 2-2.利用深度一元特征生成的成本量的维度为H*W*(D+1)*F，其中H、W分别为图像的高和宽，D为最大的视差值，F表示图像特征。在每个视差水平上将每个一元特征与对应的立体图像元组进行简单连接，并将其打包进一个4D量中；

[0041] 2-3.3D正则化网络层中的每层降采样操作的降采样因子为2，接着在编码级别中应用两个3*3*3的卷积；3D反卷积层中的上采样因子为2，在解码级别中应用一个3*3*3的卷积；最后通过单步3D反卷积得到的正则化的成本量维度为H*W*D；

[0042] 2-4.LSTM神经网络由包含四个交互层的重复模块构成，每个模块里由三个门来控制细胞单元状态信息，该三个门分别是输入门，遗忘门和输出门，每个门由一个sigmoid神经网络层和一个pointwise乘法操作构成。具体交互步骤如下：

[0043] 2-4-1.利用遗忘门决定从细胞状态中去除信息或对其增加信息，其中sigmoid层输出0-1之间的数值来描述每个部分多少量可通过，0表示不许任何量通过，1表示允许任意量通过；

[0044] 2-4-2.确定何种新信息将被存放在细胞状态中。首先利用输入门确定什么值需要更新，接着用一个tanh层创建一个新的候选值向量加入到状态中进行更新；

[0045] 2-4-3.确定输出值。通过sigmoid层确定细胞状态的某部分将输出，接着将细胞状态通过tanh层进行处理得到一个[-1,1]的值，并将其和sigmoid门的输出相乘，最终得到确定的输出值。

[0046] 步骤(3)网络训练。收集数据集，在训练集数据输入网络进行训练之前，对数据进行归一化处理，并设置网络模型的相关参数，接着对网络进行有监督的反向传播算法训练，直到监督回归损失收敛，得到训练网络；

[0047] 收集的数据集来源于两个开源数据库，sceneflow和KITTI，网络参数设置包括选择RMSProp为优化方式，设置学习率为1e-3，并设定F，D相应的值为32,192，网络训练在TensorFlow框架下进行。训练过程有两部分组成，先使用包含大量图像数据的sceneflow数据集对网络进行预训练，得到一个预训练模型，然后在这个预训练模型上进行微调，接着训练包含图像数量较少的KITTI数据集。回归损失的计算公式如下：

[0048]

[0049] 其中N表示图像中的总像素数，dn表示网络预测出来的视差图，表示已有的标准视差图ground truth。

[0050] 步骤(4)求视差图。从测试集中取几组立体图像对，进行步骤(1)的预处理。将其输入步骤(3)中训练完成的网络，得到相应的视差图。

1一种基于计算机视觉的pH试纸检测方法 2基于计算机视觉的齿轮缺陷检测方法和系统 3基于计算机视觉的高速公路数据高效存储系统 4一种基于计算机视觉的叶片面积测量装置和方法 5基于计算机视觉的铜排冷隔缺陷检测方法及系统 6一种基于计算机视觉的铁炉表面裂纹生长预测方法及系统