[0043] 下面结合附图和实施例具体说明本发明。
[0044] 实施例1
[0045] 如图1所示,本实施例提供的一种基于密集连接解码网络的轮廓检测方法,包括以下步骤:
[0046] A、构建深度神经网络结构,深度神经网络结构具体如下:
[0047] 预设初始等级、融合等级、最终等级,其中初始等级及最终等级均设有1个,融合等级设有1-5个;
[0048] 其中,初始等级中包含5个阶段,分别为阶段Ⅰ-阶段Ⅴ,每个阶段中分别设置有一个以上的卷积层;
[0049] 所述的阶段Ⅰ的第一卷积层的输入响应为原始图像,阶段Ⅰ的其他卷积层的输入响应为该阶段上一卷积层的输出响应;阶段Ⅱ-阶段Ⅴ中,除了该阶段中的第一卷积层的输入响应之外,该阶段中的其他卷积层的输入响应为上一卷积层的输出响应;阶段Ⅰ-阶段Ⅳ中最后一个卷积层的输出响应,一方面经过最大池化后作为下一个阶段的第一卷积层的输入响应;另一方面,作为输入响应输入到第一个融合等级中;
[0050] 所述的融合等级中设有1-5个融合层组,各个融合层组包含数量与融合等级数量相同的融合层,同一融合层组中的各个融合层分别与各个融合等级相对应,各个融合层预设有与其相对应的结果图通道数量以及结果图尺寸,同一融合层组中的各个融合层所对应的结果图通道数量以及结果图尺寸相同;
[0051] 对于各个融合等级中的各个融合层:分别将来自初始等级或上一融合等级的各输入响应中的结果图通道数量以及结果图尺寸调整为该融合层所对应的结果图通道数量以及结果图尺寸,分别得到该融合层的多个预处理响应,其中采用卷积后激活的方式对结果图通道数量进行调整;依次对各预处理响应同一通道的结果图中的各像素点的结果值求均值,作为该通道的各像素点的融合值,从而得到各通道的融合结果图,对各通道的融合结果图的各像素点的融合值进行归一化处理后,作为各通道的融合结果图的各像素点的归一化融合值,并将其作为下一融合等级或最终等级的输入响应;
[0052] 最终等级包含最终融合层,最终融合层将来自最后一个融合等级的各个输入响应的结果图通道数量调整为单通道,并将来自最后一个融合等级的各个输入响应的结果图尺寸调整为原始图像的尺寸,分别得到最终融合层的多个预处理响应,对各预处理响应的结果图中的各像素点的结果值求均值,作为各像素点的最终融合值,对各像素点的最终融合值进行归一化处理后,得到各像素点的归一化最终融合值,作为各像素点的轮廓响应值,即得到深度神经网络的输出响应;
[0053] 所述的阶段Ⅰ-阶段Ⅴ以及各融合层涉及的卷积表达式为m*n-k conv+relu,其中,m*n表示卷积核的大小,k表示输出通道数,conv表示卷积公式,relu表示激活函数;m*n、k均为预设值;所述的最终融合层的卷积表达式为m*n-kconv;
[0054] B、预设训练数据集,训练数据集包含训练图像及其对应的真实轮廓图,输入训练数据集中的训练图像及其真实轮廓图,预设图像批量大小,权重衰减参数,学习率,学习率衰减,最大迭代次数,优化方案和损失函数,以训练数据集中的训练图像作为输入,对应的真实轮廓图作为理想化输出,训练深度神经网络,调整各个卷积核的参数使得深度神经网络输出响应最接近理想化输出,得到训练完毕的深度神经网络;
[0055] C、利用双线性插值算法对待检测图像进行处理,分别得到尺寸是待检测图像2倍的待检测放大图像、尺寸是待检测图像0.5倍的待检测缩小图像,将待检测图像、待检测放大图像、待检测缩小图像分别作为深度神经网络的输入,经过深度神经网络输出分别得到待检测图像轮廓响应图、待检测放大图像轮廓响应图、待检测缩小图像轮廓响应图,将各像素点在上述三个轮廓响应图中对应的特征值取平均值,作为该像素点最终轮廓响应特征值,从而得到各像素点最终轮廓响应特征值;
[0056] D、对各像素点的最终轮廓响应特征值使用非极大值抑制和二值化处理,得到各像素点的最终轮廓值,进而得到最终轮廓图;
[0057] 所述的步骤B中的损失函数具体为:
[0058] LT=L+βLS (1);
[0059] L=-αlogpi·|L+|-(1-α)log(1-pi)·|L-| (2);
[0060] 其中L+、L-分别表示训练图像的真实轮廓图的边缘像素集及非边缘像素集,i为边缘像素集中的像素点编号,pi为编号为i的像素点的深度神经网络的轮廓响应值;α=|L-|/|L|,|L+|、|L-|分别为边缘像素集中像素点个数及非边缘像素集中像素点个数,|L|为|L+|、|L-|之和;
[0061] LS为融合层损失总和,通过对每个融合层的输出响应利用公式(2)进行损失计算后求和得到,β为比例参数;
[0062] 所述的卷积均为带有偏置的卷积,偏置的个数与当前的卷积核的个数相对应;
[0063] 卷积conv的公式如下:
[0064] outputj=inputj*kernelj+biasj (3);
[0065] 其中outputj为当前阶段卷积的第j个输出响应,inputj为当前阶段卷积的第j个输入响应,kernelj为第j个卷积核,biasj为第j个偏置,*为卷积符号,j=1,2,,k,k为当前阶段卷积核的个数;
[0066] 所述的激活处理的函数为:
[0067] relu(x)=max(0,x) (4);
[0068] 最初等级涉及的卷积层个数分别为2个、2个、3个、3个、3个;
[0069] 最初等级涉及的输出通道数分别为64个、128个、256个、512个、512个;
[0070] 最初等级、融合等级中涉及的的卷积核大小为3*3像素平方;
[0071] 所述的对结果图尺寸调整方法为池化或者双线性插值,其中池化对应于将结果图尺寸调整变小,双线性插值对应于将结果图尺寸调整变大;
[0072] 所述的归一化处理为将各像素点的结果值与大小为1*1像素平方的卷积核进行卷积,并且该卷积核函数为sigmoid函数;
[0073] 所述的图像批量大小表示每一批次训练输入的图像数量,其范围为8-32幅,权重衰减范围为(1e-4)-(2e-4),学习率的范围为(1e-5)-(1e-9),学习率衰减的范围为0-0.1;最大迭代次数的范围为5000-60000次,优化方案为动量为0.9的随机梯度下降法;
[0074] 所述的最大池化为2*2最大池化。
[0075] 本实施例的融合等级设有三个,分别为融合等级Ⅰ、融合等级Ⅱ、融合等级Ⅲ,融合层组设有三个,每个融合层组设有三个融合层,分别为融合层Ⅰ、融合层Ⅱ、融合层Ⅲ,其中融合层Ⅰ对应的输出通道数为64个,结果图尺寸为原图尺寸;融合层Ⅱ对应的输出通道数为128个,结果图尺寸为1/2;融合层Ⅲ对应的输出通道数为512个,结果图尺寸为1/8;
[0076] 图2为融合等级Ⅰ中各融合层的结构示意图,其中X为各融合层所对应的输出通道数,图3为融合等级Ⅱ、Ⅲ中各融合层的结构示意图,图4为最终融合层的结构示意图;
[0077] 本实施例采用伯克利图像分割数据集(BSDS500)进行训练及检测,采用该数据集中的3幅图(羚羊、鲨鱼、豹)作为待检测图像,将本实施例方法与以下文献1的方法进行轮廓检测结果的对比;
[0078] 文献1:S.XieandZ.Tu,”Holistically-nestededgedetection,”inInternationalComferenceon ComputerVision,2015,pp.1395-1403;
[0079] 其中性能评价指标F采用文献1中给出的如下标准:
[0080]
[0081] 其中P表示精确率,R表示召回率,性能评测指标F的取值在[0,1]之间,越接近1表示轮廓检测的效果越好,另外,定义容忍度为:在5*5的邻域内检测到的都算正确检测。
[0082] 对比结果如图5所示,相应的性能评价指标F的数值标示在检测结果图的右上方;
[0083] 结合图5的结果对比可以看出,本实施例方法在识别准确率及识别效果上均优于文献1方案;
[0084] 需要说明的是:
[0085] 在深度神经网络结构中,某一响应(如阶段Ⅰ的输出响应)包含了各个像素点多个通道的特征值,该通道的数量与上一次卷积的卷积核的数量相同;
[0086] 对某一响应(如阶段Ⅰ的输出响应)的卷积是指利用多个卷积核分别对各个像素点的多个通道的特征值进行卷积,卷积核的个数与该响应中各个像素点的通道数相同;将同一个卷积核对该像素点的多通道的卷积结果叠加,作为该卷积核卷积该像素点的得到特征值,多个卷积核卷积同一像素点得到的特征值即为此次卷积该像素点的响应,各个像素点响应即构成此次卷积的输出响应;
[0087] 在深度神经网络中,对各个反卷积的上采样倍数进行设定,使得参与各个反卷积处理之后的加法运算的两个响应所对应的图像尺寸相同,以保证加法运算能够顺利完成。
[0088] 本实施例涉及的深度神经网络训练方法采用文献2中记载的方案:
[0089] 文献2:
[0090] RumelhartD E,Hinton G E,Williams R J.Learning representations byback-propagating error s[J].nature,1986,323(6088):533;
[0091] 本实施例涉及的最大池化方法、卷积方法采用文献3中记载的方案:
[0092] 文献3:
[0093] LeCunY,Bottou L,Bengio Y,et al.Gradient-basedlearning appliedto documentrecognition[J].Proceedings ofthe IEEE,1998,86(11):2278-2324;
[0094] 本实施例涉及的优化方案的随机梯度下降法采用文献4中记载的方案:
[0095] 文献4:
[0096] JegadeeshN,Titman S.Returns to buying winners and selling losers:Implications for stock m arket efficiency[J].The Journal offinance,1993,48(1):65-91。
[0097] 本实施例中涉及的非极大值抑制和二值化处理采用文献5中记载的方法,其中包含的两个阈值th,tl设置为tl=0.5th,由阈值分位数p计算而得,p=0.1;
[0098] 文献5:Grigorescu C,Petkov N,Westenberg M.Contour detection based on nonclassical receptive fieldinhibition[J].IEEE Transactions on Image Processing,2003,12(7):729-739。
[0099] 并且,本申请还增加了实施例2(1融合等级,1融合层组)、实施例3(3融合等级,5融合层组)进行对比,采用文献1方案以及实施例1-3方案对伯克利图像分割数据集(BSDS500)进行训练及检测,得到最佳数据集比例(ODS)、最佳图像比例(OIS)的评测结果如表1所示,其中ODS对数据集中的所有图像采用固定的边缘阈值,而OIS为每个图像选择最佳的边缘阈值;
[0100] 由表1可以看出,本申请实施例1-3的检测结果均优于文献1方案。
[0101] 表1 BSDS500整体数据集对比表
[0102]