首页 > 专利 > 杭州电子科技大学 > 基于方向和尺度自适应卷积神经网络的光场深度估计方法专利详情

基于方向和尺度自适应卷积神经网络的光场深度估计方法   0    0

有效专利 查看PDF
专利申请流程有哪些步骤?
专利申请流程图
申请
申请号:指国家知识产权局受理一件专利申请时给予该专利申请的一个标示号码。唯一性原则。
申请日:提出专利申请之日。
2018-04-10
申请公布
申请公布指发明专利申请经初步审查合格后,自申请日(或优先权日)起18个月期满时的公布或根据申请人的请求提前进行的公布。
申请公布号:专利申请过程中,在尚未取得专利授权之前,国家专利局《专利公报》公开专利时的编号。
申请公布日:申请公开的日期,即在专利公报上予以公开的日期。
2018-12-14
授权
授权指对发明专利申请经实质审查没有发现驳回理由,授予发明专利权;或对实用新型或外观设计专利申请经初步审查没有发现驳回理由,授予实用新型专利权或外观设计专利权。
2022-03-01
预估到期
发明专利权的期限为二十年,实用新型专利权期限为十年,外观设计专利权期限为十五年,均自申请日起计算。专利届满后法律终止保护。
2038-04-10
基本信息
有效性 有效专利 专利类型 发明专利
申请号 CN201810317425.3 申请日 2018-04-10
公开/公告号 CN108846473B 公开/公告日 2022-03-01
授权日 2022-03-01 预估到期日 2038-04-10
申请年 2018年 公开/公告年 2022年
缴费截止日
分类号 G06T7/557G06N3/04 主分类号 G06T7/557
是否联合申请 独立申请 文献类型号 B
独权数量 1 从权数量 1
权利要求数量 2 非专利引证数量 1
引用专利数量 2 被引证专利数量 0
非专利引证 1、2016.12.01CN 107146248 A,2017.09.08CN 107767413 A,2018.03.06赵翔等.“基于交叉熵和空间分割的全局可靠性灵敏度分析”《.航空学报》.2018,第39卷(第2期),刘畅等.“基于四维光场数据的深度估计算法”《.中北大学学报(自然科学版)》.2016,第37卷(第4期),Lu Zhang等.“Crowd Counting via Scale-Adaptive Convolutional Neural Network”. 《2018 IEEE Winter Conference onApplications of Computer Vision》.2018,;
引用专利 EP2806396A、US2016350930A 被引证专利
专利权维持 4 专利申请国编码 CN
专利事件 事务标签 公开、实质审查、授权
申请人信息
申请人 第一申请人
专利权人 杭州电子科技大学 当前专利权人 杭州电子科技大学
发明人 周文晖、梁麟开、魏兴明、周恩慈 第一发明人 周文晖
地址 浙江省杭州市下沙高教园区2号大街 邮编 310027
申请人数量 1 发明人数量 4
申请人所在省 浙江省 申请人所在市 浙江省杭州市
代理人信息
代理机构
专利代理机构是经省专利管理局审核,国家知识产权局批准设立,可以接受委托人的委托,在委托权限范围内以委托人的名义办理专利申请或其他专利事务的服务机构。
杭州君度专利代理事务所 代理人
专利代理师是代理他人进行专利申请和办理其他专利事务,取得一定资格的人。
朱月芬
摘要
本发明公开了一种基于方向和尺度自适应卷积神经网络的光场深度估计方法。本发明包括如下步骤:步骤1.准备光场数据集,制作训练集和测试集;步骤2.搭建方向和尺度自适应的卷积神经网络SOA‑EPN;步骤3.使用训练集训练搭建好的SOA‑EPN网络;步骤4.使用练好的SOA‑EPN网络在测试集上进行测试;本发明借助于尺度和方向感知卷积神经网络来预测光场深度,不仅利用了多方向,而且很好的处理了遮挡等问题,得到准确的深度估计结果。
  • 摘要附图
    基于方向和尺度自适应卷积神经网络的光场深度估计方法
  • 说明书附图:[转续页]
    基于方向和尺度自适应卷积神经网络的光场深度估计方法
  • 说明书附图:图1
    基于方向和尺度自适应卷积神经网络的光场深度估计方法
  • 说明书附图:图2
    基于方向和尺度自适应卷积神经网络的光场深度估计方法
  • 说明书附图:图3
    基于方向和尺度自适应卷积神经网络的光场深度估计方法
  • 说明书附图:图4
    基于方向和尺度自适应卷积神经网络的光场深度估计方法
法律状态
序号 法律状态公告日 法律状态 法律状态信息
1 2022-03-01 授权
2 2018-12-14 实质审查的生效 IPC(主分类): G06N 3/04 专利申请号: 201810317425.3 申请日: 2018.04.10
3 2018-11-20 公开
权利要求
权利要求书是申请文件最核心的部分,是申请人向国家申请保护他的发明创造及划定保护范围的文件。
1.基于方向和尺度自适应卷积神经网络的光场深度估计方法,其特征在于包括如下步骤:
步骤
1.准备光场数据集,制作训练集和测试集;
步骤
2.搭建方向和尺度自适应的卷积神经网络SOA‑EPN;
步骤
3.使用训练集训练搭建好的SOA‑EPN网络;
步骤
4.使用练好的SOA‑EPN网络在测试集上进行测试;
步骤1具体包括下述步骤:
步骤1‑1:使用海德堡图像处理实验室提供的4D光场数据集作为实验数据集,该数据集包含28个场景,并提供了高精度的视差和性能评估指标;每一个场景包含9行9列共81张大小为512×512的子光圈图像;将上述28个场景分为两部分,利用其中16个场景制作训练集,
12个场景制作测试集;
步骤1‑2:将每一个4D光场场景定义为LF(s,t,x,y),其中(x,y)是图像空间坐标系,(s,t)是角度坐标系;对于中心子光圈图像LF(4,4,x,y)上的任一点P,提取P点的0°、45°、90°、
135°四个方向的EPI图像块,EPI图像块高×宽×通道的大小为9×21×3,这四个EPI图像块构成了数据集的一个样本,输入到卷积神经网络;
所述步骤2具体实现如下:
步骤2‑1:搭建方向和尺度自适应的卷积神经网络SOA‑EPN;
所述的SOA‑EPN由4个尺度感知网络SAN构成;训练集和测试集的每一个样本包含四个EPI图像块,每一个所述的尺度感知网络SAN是以其中1个EPI图像块作为输入,预测输出是该图像块中心点P的视差预测向量logiti,其中i=0,1,2,3,因此会得到4个视差预测向量,使用一个有229个神经元的全连接层将这4个视差预测向量进行融合得到一个最终视差;
将4个尺度感知网络SAN进行权值共享,设定视差预测范围是‑4到4,将视差预测定义为一个分类任务,预测精度是0.035个像素,则可分为229类;
所述尺度感知网络SAN一共18层,分为3个子网络,具体如下:
(1)深度特征表征网络,即第1到第8个卷积层:
该部分使用8个卷积核为2×2、步长为1×1的卷积层对输入EPI图像块进行深度特征表征,对每个卷积层的输出进行批归一化处理,再使用ReLU函数对批归一化的输出结果进行激活;所述的8个卷积层中每个卷积层的输出特征图数量依次是(16,32,64,128,256,384,
512,512),第8个卷积层输出的张量记为x0,x0其大小为512×1×13,即512个大小为1×13的特征图;
(2)尺度自适应选择网络,即第9到第16个卷积层:
尺度自适应选择网络SASN包含四个尺度选择单元SSU,每个尺度选择单元SSU由2个卷积核为1×2、步长为1×1的卷积层,一个切片操作和一个跳跃式连接组成;尺度自适应选择网络SASN的作用是改变SOA‑EPN网络的输入EPI图像块的尺寸大小;SOA‑EPN在第8个卷积层的感知域大小为9×9,而x0是尺寸为9×21的EPI图像块的深度特征,通过改变x0的尺度间接地改变输入EPI图像块的尺寸,进而实现尺度自适应选择功能;通过四次切片操作s(·)改变x0的尺寸,进而获得尺寸为9×19、9×17、9×15、9×13的输入EPI图像块的深度特征x1、x2、x3、x4,尺度自适应选择功能具体来说就是在9×21、9×19、9×17、9×15、9×13五个尺寸中选择一个或者是它们的某种组合,选择的策略是在训练SOA‑EPN的过程学习得到的;其中SASN只以一张尺寸为9×21的EPI图像块作为输入,通过尺度选择单元SSU实现尺度自适应选择,而不是输入多张不同尺寸的EPI图像块;
第i个尺度选择单元的输出hi定义为:
其中,x0是尺寸为9×21的EPI图像块的深度特征,xi代表x1、x2、x3、x4;F(·)代表每一个尺度选择单元SSU的2个卷积层的卷积操作;值得注意的是,xi的特征图数量可能会小于F(hi‑1)的特征图数量,采用补0的方式使得xi和F(hi‑1)的特征图数量相等;s(·)是切片操作;
第9层和第10层是卷积核为1×2、步长为1×1的卷积层,它是第一个尺度选择单元SSU的卷积操作;对每个卷积层的输出进行批归一化处理,再使用斜率为0.01的Leaky ReLU函数对批归一化的输出结果进行激活;所述的2个卷积层的输出特征图的数量依次是(576,
576),第10个卷积层输出576个大小为1×11的特征图;
第11层和第12层是卷积核为1×2、步长为1×1的卷积层,它是第二个尺度选择单元SSU的卷积操作;对每个卷积层的输出进行批归一化(BN)处理,再使用斜率为0.01的Leaky ReLU函数对批归一化的输出结果进行激活;所述的2个卷积层的输出特征图的数量依次是(576,576),第12个卷积层输出576个大小为1×9的特征图;
第13层和第14层是卷积核为1×2、步长为1×1的卷积层,它是第三个尺度选择单元SSU的卷积操作;对每个卷积层的输出进行批归一化处理,再使用斜率为0.01的Leaky ReLU函数对批归一化的输出结果进行激活;所述的2个卷积层的输出特征图的数量依次是(640,
640),第14个卷积层输出640个大小为1×7的特征图;
第15层和第16层是卷积核为1×2、步长为1×1的卷积层,它是第四个尺度选择单元SSU的卷积操作;对每个卷积层的输出进行批归一化处理,再使用斜率为0.01的Leaky ReLU函数对批归一化的输出结果进行激活;所述的2个卷积层的输出特征图的数量依次是(640,
640),第16个卷积层输出640个大小为1×5的特征图;
(3)预测网络,即第17、第18个全连接层:
第17层是拥有1024个神经元的全连接层,使用ReLU函数对该全连接层的输出进行激活,使用Dropout技术处理ReLU函数的输出,每一个神经元只有50%的概率参与计算;第17层的最终输出是一个大小为1×1024的特征向量;
第18层是拥有229个神经元的全连接层,从而得到大小为1×229的视差预测向量logiti;
步骤2‑2:使用多层交叉熵损失函数对SOA‑EPN进行训练,多层交叉熵损失函数如下:
其中,N是训练集的一个批大小,wi是权重,||·||计算向量的L1距离, 是真实视差概率向量;
所述步骤3具体实现如下:
从训练集中随机选取256个样本作为一个批次输入到SOA‑EPN网络,网络预测输出logiti,利用前面定义的多层交叉熵损失函数计算预测值logiti和真实值 之间的误差,进而使用反向传播算法和梯度优化算法更新SOA‑EPN网络的参数;当Loss达到稳定值则完成训练;
所述步骤4具体包括下述步骤:
从测试集中任取一个场景,提取该场景中心子光圈图像上任一点P四个方向的EPI图像块,输入到训练好的SOA‑EPN网络,网络输出一个大小为229的概率向量logit4,将logit4中概率最大的类记为z,其概率记为a,比较z‑1和z+1两个类的概率并取概率较大的类记为s,其概率记为b;则P点的视差disp计算如下:
disp=[(a/(a+b))×z+(b/(a+b))×s]×0.035+offset,其中,offset为偏移参数,取值4;则P点的深度depth=Bf/disp,其中f是相机焦距,B是两个相邻子光圈的距离。

2.根据权利要求1所述的基于方向和尺度自适应卷积神经网络的光场深度估计方法,其特征在于所述的切片操作s(·)是指沿宽度通道切除xi‑1中每一个特征图的两端各一个神经元,进而得到xi‑1的中心区域,也就是xi;具体来说,是尺寸为9×21的EPI图像块经过8个卷积层后输出的特征图;x0进行一次切片操作后得到x1,x1是尺寸为9×19的EPI图像块经过8个卷积层后输出的特征图;同理,x1进行一次切片操作后得到x2,x2是尺寸为9×17的EPI图像块经过8个卷积层后输出的特征图;以此类推,x0、x1、x2、x3、x4分别是9×21、9×19、9×
17、9×15、9×13五个尺寸的EPI图像块的特征图,尺寸依次是512×1×13、576×1×11、576×1×9、640×1×7、640×1×5。
说明书

技术领域

[0001] 本发明是关于深度学习与光场深度估计领域,特别涉及基于方向和尺度自适应卷积神经网络的光场深度估计方法。

背景技术

[0002] 深度学习是近年来人工智能领域中的一项重要突破,已在图像识别、语音识别、自然语言处理等多个方向取得了突破性进展。相比于传统机器学习方法,深度学习方法的主要过程为:构建数据集;使用卷积层、全连接层、激活层等定义深度神经网络,定义损失函数;利用数据集训练定义好的深度网络模型,即使用反向传播技术和梯度下降等优化方法更新神经网络的参数。训练完成的深度网络模型可以拟合出某个高维复杂函数,该函数实现网络输入到输出的映射;利用训练好的深度模型在测试数据集上进行预测。卷积神经网络是人工神经网络发展最成功的网络结构之一,它擅长利用卷积层提取输入图像从低维到高维的深度特征,然后利用这些特征完成分类、回归等任务。
[0003] 与此同时,光场成像与计算是近年来计算机视觉领域中的一门新兴技术,通过在相机镜头和图像传感器之间增加一个微透镜阵列,光场相机可以记录下汇聚在传感器像素上的光线的亮度与角度,形成4D光场,为突破传统成像模型和成像机制的维度局限提供了新思路和新方法[]。鉴于4D光场提供的丰富信息,利用光场图像进行场景结构(深度)恢复的研究获得了越来越多的关注,一批基于EPI(Epipolar Plane Image)图像分析的深度估计方法涌现出来,这些方法本质上是一种立体匹配方法。EPI图像是4D光场的一个切片,它由极线(Epipolar Lines)组成,通过计算极线的斜率,可以间接获得深度图,完成深度估计。但是这种方法也面临着难以计算图像无纹理区域、遮挡区域的深度等问题。如何选择大小合适的匹配窗口是解决这些问题的一个关键,例如在计算图像无纹理区域的深度时,需要一个较大的窗口将更多的邻域像素纳入到匹配代价的计算中,增强邻域约束。相反,在计算图像遮挡区域的深度时,需要一个较小的窗口避免纳入过多的遮挡点影响匹配代价的计算。另一方面,多方向EPI图像为深度估计提供了更多的约束和深度线索。综上,我们设计了一种具备EPI图像方向自适应、EPI图像尺度自适应能力的卷积神经网络来解决上述深度估计面临的无纹理和遮挡问题。

发明内容

[0004] 本发明的目的是针对现有技术的不足,设计了一种以0°、45°、90°、135°四个方向的EPI图像块作为输入,输出视差图,具备EPI图像方向自适应、EPI图像尺度自适应能力的卷积神经网络(SOA‑EPN),并利用SOA‑EPN提出了一种光场深度估计方法。
[0005] 本发明解决其技术问题采取的技术方案包括如下步骤:
[0006] 步骤1.准备光场数据集,制作训练集和测试集;
[0007] 步骤2.搭建方向和尺度自适应的卷积神经网络SOA‑EPN;
[0008] 步骤3.使用训练集训练搭建好的SOA‑EPN网络;
[0009] 步骤4.使用练好的SOA‑EPN网络在测试集上进行测试;
[0010] 步骤1具体包括下述步骤:
[0011] 步骤1‑1:使用海德堡图像处理实验室提供的4D光场数据集(K.Honauer,O.Johannsen,D.Kondermann,and B.Goldluecke,“A dataset and evaluation methodology for depth estimation on 4d light fields,”in Asian Conference on Computer Vision,2016.)作为实验数据集,该数据集包含28个场景,并提供了高精度的视差和性能评估指标。每一个场景包含9行9列共81张大小为512×512的子光圈图像。将上述28个场景分为两部分,利用其中16个场景制作训练集,12个场景制作测试集。
[0012] 步骤1‑2:将每一个4D光场场景定义为LF(s,t,x,y),其中(x,y)是图像空间坐标系,(s,t)是角度坐标系。对于中心子光圈图像LF(4,4,x,y)上的任一点P,提取P点的0°、45°、90°、135°四个方向大小为9×21×3(高×宽×通道)的EPI图像块,这四个EPI图像块构成了数据集的一个样本,输入到卷积神经网络。
[0013] 所述步骤2具体实现如下:
[0014] 步骤2‑1:搭建方向和尺度自适应的卷积神经网络SOA‑EPN。
[0015] 所述的SOA‑EPN由4个尺度感知网络(Scale‑Aware network简称:SAN)构成。训练集和测试集的每一个样本包含四个EPI图像块,每一个所述的尺度感知网络SAN是以其中1个EPI图像块作为输入,预测输出是该图像块中心点P的视差预测向量logiti,其中i=0,1,2,3,因此会得到4个视差预测向量,使用一个有229个神经元的全连接层将这4个视差预测向量进行融合得到一个最终视差;
[0016] 为了减少SOA‑EPN的隐含层数量,减少网络参数量,降低卷积神经网络过拟合的风险,将4个尺度感知网络SAN进行权值共享,达到深度压缩的目的。
[0017] 设定视差预测范围是‑4到4(单位:像素),将视差预测定义为一个分类任务,预测精度是0.035个像素,则可分为229类。
[0018] 所述尺度感知网络SAN一共18层,分为3个子网络,具体参看表1:
[0019] 表1:
[0020]
[0021] 所述的3个子网络,具体如下:
[0022] (1)深度特征表征网络(第1到第8个卷积层)
[0023] 该部分使用8个卷积核为2×2、步长为1×1的卷积层对输入EPI图像块进行深度特征表征,对每个卷积层的输出进行批归一化(BN,batch normalization)处理,再使用ReLU函数对批归一化的输出结果进行激活;所述的8个卷积层中每个卷积层的输出特征图数量依次是(16,32,64,128,256,384,512,512),第8个卷积层输出的张量记为x0,x0其大小为512×1×13(特征图数量×高×宽),即512个大小为1×13的特征图(特征向量)。
[0024] (2)尺度自适应选择网络(第9到第16个卷积层)
[0025] 尺度自适应选择网络(Scale‑Adaptive‑Selection‑Network,SASN)是一个具有长跳跃和短跳跃连接(skip connection:跳跃式连接)的多层前馈网络,包含了四个尺度选择单元(Scale‑Selection‑Unit,SSU),每个尺度选择单元SSU由2个卷积核为1×2、步长为1×1的卷积层,一个切片操作和一个跳跃式连接组成。尺度自适应选择网络SASN的作用是改变SOA‑EPN网络的输入EPI图像块的尺寸大小。实现原理是:SOA‑EPN在第8个卷积层的感知域大小为9×9,而x0是尺寸为9×21的EPI图像块的深度特征,通过改变x0的尺度可以间接地改变输入EPI图像块的尺寸,进而实现尺度自适应选择功能(利用感知域的概念,通过切片操作改变特征向量的尺寸,进而间接改变输入图像的尺寸,达到尺度自适应选择的目的,是本专利的核心思想)。可以通过四次切片操作s(·)改变x0的尺寸,进而获得尺寸为9×19、9×
17、9×15、9×13的输入EPI图像块的深度特征x1、x2、x3、x4,尺度自适应选择功能具体来说就是在9×21、9×19、9×17、9×15、9×13五个尺寸中选择一个或者是它们的某种组合,选择的策略是在训练SOA‑EPN的过程学习得到的。值得注意的是,SASN只以一张尺寸为9×21的EPI图像块作为输入,通过尺度选择单元SSU实现尺度自适应选择,而不是输入多张不同尺寸的EPI图像块。
[0026] 第i个尺度选择单元的输出hi定义为:
[0027]
[0028] 其中,x0是尺寸为9×21的EPI图像块的深度特征,xi代表x1、x2、x3、x4。F(·)代表每一个尺度选择单元SSU的2个卷积层的卷积操作。值得注意的是,xi的特征图数量可能会小于F(hi‑1)的特征图数量,采用补0的方式使得xi和F(hi‑1)的特征图数量相等。s(·)是切片操作。
[0029] 所述的切片操作s(·)是指沿宽度通道切除xi‑1中每一个特征图(特征向量)的两端各一个神经元,进而得到xi‑1的中心区域,也就是xi。具体来说,是尺寸为9×21的EPI图像块经过8个卷积层后输出的特征图;x0进行一次切片操作后得到x1,x1是尺寸为9×19的EPI图像块经过8个卷积层后输出的特征图;同理,x1进行一次切片操作后得到x2,x2是尺寸为9×17的EPI图像块经过8个卷积层后输出的特征图。以此类推,x1、x2、x3、x4分别是9×21、9×19、9×17、9×15、9×13五个尺寸的EPI图像块的特征图,尺寸依次是512×1×11、576×1×
11、576×1×9、640×1×7、640×1×5。
[0030] 第9层和第10层是卷积核为1×2、步长为1×1的卷积层,它是第一个尺度选择单元SSU的卷积操作。对每个卷积层的输出进行批归一化(BN)处理,再使用斜率为0.01的Leaky ReLU函数对批归一化的输出结果进行激活;所述的2个卷积层的输出特征图的数量依次是(576,576),第10个卷积层输出576个大小为1×11的特征图。
[0031] 第11层和第12层是卷积核为1×2、步长为1×1的卷积层,它是第二个尺度选择单元SSU的卷积操作。对每个卷积层的输出进行批归一化(BN)处理,再使用斜率为0.01的Leaky ReLU函数对批归一化的输出结果进行激活;所述的2个卷积层的输出特征图的数量依次是(576,576),第12个卷积层输出576个大小为1×9的特征图。
[0032] 第13层和第14层是卷积核为1×2、步长为1×1的卷积层,它是第三个尺度选择单元SSU的卷积操作。对每个卷积层的输出进行批归一化(BN)处理,再使用斜率为0.01的Leaky ReLU函数对批归一化的输出结果进行激活;所述的2个卷积层的输出特征图的数量依次是(640,640),第14个卷积层输出640个大小为1×7的特征图。
[0033] 第15层和第16层是卷积核为1×2、步长为1×1的卷积层,它是第四个尺度选择单元SSU的卷积操作。对每个卷积层的输出进行批归一化(BN)处理,再使用斜率为0.01的Leaky ReLU函数对批归一化的输出结果进行激活;所述的2个卷积层的输出特征图的数量依次是(640,640),第16个卷积层输出640个大小为1×5的特征图。
[0034] (3)预测网络(第17、第18个全连接层)
[0035] 第17层是拥有1024个神经元的全连接层(Fully Connected Layer,简称FC),使用ReLU函数对该全连接层的输出进行激活,使用Dropout技术处理ReLU函数的输出,每一个神经元只有50%的概率参与计算。第17层的最终输出是一个大小为1×1024的特征向量。
[0036] 第18层是拥有229个神经元的全连接层,从而得到大小为1×229的视差预测向量logiti。
[0037] 步骤2‑2:为了增强了训练过程的可控性,减少深度学习的黑箱效应,使用多层交叉熵损失函数对SOA‑EPN进行训练,多层交叉熵损失函数如下:
[0038]
[0039] 其中,N是训练集的一个批大小,wi是权重,||·||计算向量的L1距离, 是真实视差概率向量。
[0040] 所述步骤3具体实现如下:
[0041] 从训练集中随机选取256个样本作为一个批次输入到SOA‑EPN网络,网络预测输出logiti,利用前面定义的多层交叉熵损失函数计算预测值logiti和真实值 之间的误差,进而使用反向传播算法和梯度优化算法更新SOA‑EPN网络的参数。当Loss达到稳定值则完成训练。
[0042] 所述步骤4具体包括下述步骤:
[0043] 从测试集中任取一个场景,提取该场景中心子光圈图像上任一点P四个方向的EPI图像块,输入到训练好的SOA‑EPN网络,网络输出一个大小为229的概率向量logit4,将logit4中概率最大的类记为z,其概率记为a,比较z‑1和z+1两个类的概率并取概率较大的类记为s,其概率记为b。则P点的视差disp计算如下:
[0044] disp=[(a/(a+b))×z+(b/(a+b))×s]×0.035+offset,其中,offset为偏移参数,取值4。
[0045] 则P点的深度depth=Bf/disp,其中f是相机焦距,B是两个相邻子光圈的距离。
[0046] 与现有技术相比,本发明主要贡献是:
[0047] (1).尺度感知结构.它将切片操作应用于多尺度特征提取,然后通过多层前馈网络进行长跳和短跳连接的自适应尺度选择。
[0048] (2).多方向图像块共享权重网络。它在多尺度感知结构中共享参数,实现多方位特征融合。
[0049] (3).一种用于深度估计的图像块学习模型。为了达到规模和方向感知,它包含上述两种网络结构,并以多方向图像块作为输入。

实施方案

[0054] 下面结合附图与具体实施方式对本发明作进一步详细描述:
[0055] 如图1‑4所示,一种新的基于方向和尺度自适应卷积神经网络的光场深度估计方法,用于对多方向和尺度的光场数据,包括下列过程:
[0056] 本发明方法的具体包括下述过程:
[0057] 本发明解决其技术问题采取的技术方案包括如下步骤:
[0058] 步骤1.准备光场数据集,制作训练集和测试集;
[0059] 步骤2.搭建方向和尺度自适应的卷积神经网络SOA‑EPN;
[0060] 步骤3.使用训练集训练搭建好的SOA‑EPN网络;
[0061] 步骤4.使用练好的SOA‑EPN网络在测试集上进行测试;
[0062] 步骤1具体包括下述步骤:
[0063] 步骤1‑1:使用海德堡图像处理实验室提供的4D光场数据集(K.Honauer,O.Johannsen,D.Kondermann,and B.Goldluecke,“A dataset and evaluation methodology for depth estimation on 4d light fields,”in Asian Conference on Computer Vision,2016.)作为实验数据集,该数据集包含28个场景,并提供了高精度的视差和性能评估指标。每一个场景包含9行9列共81张大小为512×512的子光圈图像。将上述28个场景分为两部分,利用其中16个场景制作训练集,12个场景制作测试集。
[0064] 步骤1‑2:如图1所示将每一个4D光场场景定义为LF(s,t,x,y),其中(x,y)是图像空间坐标系,(s,t)是角度坐标系。对于中心子光圈图像LF(4,4,x,y)上的任一点P,提取P点的0°、45°、90°、135°四个方向大小为9×21×3(高×宽×通道)的EPI图像块,这四个EPI图像块构成了数据集的一个样本,输入到卷积神经网络。
[0065] 所述步骤2具体实现如下:
[0066] 步骤2‑1:搭建方向和尺度自适应的卷积神经网络SOA‑EPN。
[0067] 如图2所示,所述的SOA‑EPN由4个尺度感知网络(Scale‑Aware network简称:SAN)构成。训练集和测试集的每一个样本包含四个EPI图像块,每一个所述的尺度感知网络SAN是以其中1个EPI图像块作为输入,预测输出是该图像块中心点P的视差预测向量logiti,其中i=0,1,2,3,因此会得到4个视差预测向量,使用一个有229个神经元的全连接层将这4个视差预测向量进行融合得到一个最终视差;
[0068] 为了减少SOA‑EPN的隐含层数量,减少网络参数量,降低卷积神经网络过拟合的风险,将4个尺度感知网络SAN进行权值共享,达到深度压缩的目的。
[0069] 设定视差预测范围是‑4到4(单位:像素),将视差预测定义为一个分类任务,预测精度是0.035个像素,则可分为229类。
[0070] 如图3和4所示,所述尺度感知网络SAN一共18层,分为3个子网络,具体参看表1:
[0071] 表1:
[0072]
[0073] 所述的3个子网络,具体如下:
[0074] (1)深度特征表征网络(第1到第8个卷积层)
[0075] 该部分使用8个卷积核为2×2、步长为1×1的卷积层对输入EPI图像块进行深度特征表征,对每个卷积层的输出进行批归一化(BN,batch normalization)处理,再使用ReLU函数对批归一化的输出结果进行激活;所述的8个卷积层中每个卷积层的输出特征图数量依次是(16,32,64,128,256,384,512,512),第8个卷积层输出的张量记为x0,x0其大小为512×1×13(特征图数量×高×宽),即512个大小为1×13的特征图(特征向量)。
[0076] (2)尺度自适应选择网络(第9到第16个卷积层)
[0077] 尺度自适应选择网络(Scale‑Adaptive‑Selection‑Network,SASN)是一个具有长跳跃和短跳跃连接(skip connection:跳跃式连接)的多层前馈网络,包含了四个尺度选择单元(Scale‑Selection‑Unit,SSU),每个尺度选择单元SSU由2个卷积核为1×2、步长为1×1的卷积层,一个切片操作和一个跳跃式连接组成。尺度自适应选择网络SASN的作用是改变SOA‑EPN网络的输入EPI图像块的尺寸大小。实现原理是:SOA‑EPN在第8个卷积层的感知域大小为9×9,而x0是尺寸为9×21的EPI图像块的深度特征,通过改变x0的尺度可以间接地改变输入EPI图像块的尺寸,进而实现尺度自适应选择功能(利用感知域的概念,通过切片操作改变特征向量的尺寸,进而间接改变输入图像的尺寸,达到尺度自适应选择的目的,是本专利的核心思想)。可以通过四次切片操作s(·)改变x0的尺寸,进而获得尺寸为9×19、9×
17、9×15、9×13的输入EPI图像块的深度特征x1、x2、x3、x4,尺度自适应选择功能具体来说就是在9×21、9×19、9×17、9×15、9×13五个尺寸中选择一个或者是它们的某种组合,选择的策略是在训练SOA‑EPN的过程学习得到的。值得注意的是,SASN只以一张尺寸为9×21的EPI图像块作为输入,通过尺度选择单元SSU实现尺度自适应选择,而不是输入多张不同尺寸的EPI图像块。
[0078] 第i个尺度选择单元的输出hi定义为:
[0079]
[0080] 其中,x0是尺寸为9×21的EPI图像块的深度特征,xi代表x1、x2、x3、x4。F(·)代表每一个尺度选择单元SSU的2个卷积层的卷积操作。值得注意的是,xi的特征图数量可能会小于F(hi‑1)的特征图数量,采用补0的方式使得xi和F(hi‑1)的特征图数量相等。s(·)是切片操作。
[0081] 所述的切片操作s(·)是指沿宽度通道切除xi‑1中每一个特征图(特征向量)的两端各一个神经元,进而得到xi‑1的中心区域,也就是xi。具体来说,是尺寸为9×21的EPI图像块经过8个卷积层后输出的特征图;x0进行一次切片操作后得到x1,x1是尺寸为9×19的EPI图像块经过8个卷积层后输出的特征图;同理,x1进行一次切片操作后得到x2,x2是尺寸为9×17的EPI图像块经过8个卷积层后输出的特征图。以此类推,x1、x2、x3、x4分别是9×21、9×19、9×17、9×15、9×13五个尺寸的EPI图像块的特征图,尺寸依次是512×1×11、576×1×
11、576×1×9、640×1×7、640×1×5。
[0082] 第9层和第10层是卷积核为1×2、步长为1×1的卷积层,它是第一个尺度选择单元SSU的卷积操作。对每个卷积层的输出进行批归一化(BN)处理,再使用斜率为0.01的Leaky ReLU函数对批归一化的输出结果进行激活;所述的2个卷积层的输出特征图的数量依次是(576,576),第10个卷积层输出576个大小为1×11的特征图。
[0083] 第11层和第12层是卷积核为1×2、步长为1×1的卷积层,它是第二个尺度选择单元SSU的卷积操作。对每个卷积层的输出进行批归一化(BN)处理,再使用斜率为0.01的Leaky ReLU函数对批归一化的输出结果进行激活;所述的2个卷积层的输出特征图的数量依次是(576,576),第12个卷积层输出576个大小为1×9的特征图。
[0084] 第13层和第14层是卷积核为1×2、步长为1×1的卷积层,它是第三个尺度选择单元SSU的卷积操作。对每个卷积层的输出进行批归一化(BN)处理,再使用斜率为0.01的Leaky ReLU函数对批归一化的输出结果进行激活;所述的2个卷积层的输出特征图的数量依次是(640,640),第14个卷积层输出640个大小为1×7的特征图。
[0085] 第15层和第16层是卷积核为1×2、步长为1×1的卷积层,它是第四个尺度选择单元SSU的卷积操作。对每个卷积层的输出进行批归一化(BN)处理,再使用斜率为0.01的Leaky ReLU函数对批归一化的输出结果进行激活;所述的2个卷积层的输出特征图的数量依次是(640,640),第16个卷积层输出640个大小为1×5的特征图。
[0086] (3)预测网络(第17、第18个全连接层)
[0087] 第17层是拥有1024个神经元的全连接层(Fully Connected Layer,简称FC),使用ReLU函数对该全连接层的输出进行激活,使用Dropout技术处理ReLU函数的输出,每一个神经元只有50%的概率参与计算。第17层的最终输出是一个大小为1×1024的特征向量。
[0088] 第18层是拥有229个神经元的全连接层,从而得到大小为1×229的视差预测向量logiti。
[0089] 步骤2‑2:为了增强了训练过程的可控性,减少深度学习的黑箱效应,使用多层交叉熵损失函数对SOA‑EPN进行训练,多层交叉熵损失函数如下:
[0090]
[0091] 其中,N是训练集的一个批大小,wi是权重,||·||计算向量的L1距离, 是真实视差概率向量。
[0092] 所述步骤3具体实现如下:
[0093] 从训练集中随机选取256个样本作为一个批次输入到SOA‑EPN网络,网络预测输出logiti,利用前面定义的多层交叉熵损失函数计算预测值logiti和真实值 之间的误差,进而使用反向传播算法和梯度优化算法更新SOA‑EPN网络的参数。当Loss达到稳定值则完成训练。
[0094] 所述步骤4具体包括下述步骤:
[0095] 从测试集中任取一个场景,提取该场景中心子光圈图像上任一点P四个方向的EPI图像块,输入到训练好的SOA‑EPN网络,网络输出一个大小为229的概率向量logit4,将logit4中概率最大的类记为z,其概率记为a,比较z‑1和z+1两个类的概率并取概率较大的类记为s,其概率记为b。则P点的视差disp计算如下:
[0096] disp=[(a/(a+b))×z+(b/(a+b))×s]×0.035+offset,其中,offset为偏移参数,取值4。
[0097] 则P点的深度depth=Bf/disp,其中f是相机焦距,B是两个相邻子光圈的距离。

附图说明

[0050] 图1:多方向EPI patch截取效果图。
[0051] 图2:SOA‑EPN的网络结构图。
[0052] 图3:SAN网络结构详细展示图。
[0053] 图4:SAN网络各层详细参数介绍。
版权所有:盲专网 ©2023 zlpt.xyz  蜀ICP备2023003576号