首页 > 专利 > 杭州电子科技大学 > 一种基于多尺度特征融合的RGBD显著性检测方法专利详情

一种基于多尺度特征融合的RGBD显著性检测方法 0 0

有效专利查看PDF

申请进展

基本信息

申请人信息

代理人信息

摘要

法律状态

权利要求

说明书

专利申请流程有哪些步骤？

申请

申请号：指国家知识产权局受理一件专利申请时给予该专利申请的一个标示号码。唯一性原则。

申请日：提出专利申请之日。

2020-01-11

申请公布

申请公布指发明专利申请经初步审查合格后，自申请日（或优先权日）起18个月期满时的公布或根据申请人的请求提前进行的公布。

申请公布号：专利申请过程中，在尚未取得专利授权之前，国家专利局《专利公报》公开专利时的编号。

申请公布日：申请公开的日期，即在专利公报上予以公开的日期。

2020-06-30

授权

授权指对发明专利申请经实质审查没有发现驳回理由，授予发明专利权；或对实用新型或外观设计专利申请经初步审查没有发现驳回理由，授予实用新型专利权或外观设计专利权。

2022-04-01

预估到期

发明专利权的期限为二十年，实用新型专利权期限为十年，外观设计专利权期限为十五年，均自申请日起计算。专利届满后法律终止保护。

2040-01-11

基本信息

有效性	有效专利	专利类型	发明专利
申请号	CN202010028837.2	申请日	2020-01-11
公开/公告号	CN111242138B	公开/公告日	2022-04-01
授权日	2022-04-01	预估到期日	2040-01-11
申请年	2020年	公开/公告年	2022年
缴费截止日
分类号	G06V10/46 、G06K9/62 、G06V10/80	主分类号	G06V10/46
是否联合申请	独立申请	文献类型号	B
独权数量	1	从权数量	1
权利要求数量	2	非专利引证数量	1
引用专利数量	1	被引证专利数量	0
非专利引证	1、2019.07.18CN 107945187 A,2018.04.20项前等.“多级上采样融合的强监督RGBD显著性目标检测”《.计算机工程与应用》.2019,Lishan Wu等“.RGBD co-saliencydetection via multiple kernel boostingand fusion”《.Multimedia Tools andApplications》.2018,;
引用专利	US2019220002A	被引证专利
专利权维持	2	专利申请国编码	CN
专利事件		事务标签	公开、实质审查、授权

申请人信息

申请人	杭州电子科技大学	第一申请人	杭州电子科技大学
专利权人	杭州电子科技大学	当前专利权人	杭州电子科技大学
发明人	颜成钢、温洪发、周晓飞、孙垚棋、张继勇、张勇东	第一发明人	颜成钢
地址	浙江省杭州市下沙高教园区2号大街	邮编	310018
申请人数量	1	发明人数量	6
申请人所在省	浙江省	申请人所在市	浙江省杭州市

代理人信息

代理机构

专利代理机构是经省专利管理局审核，国家知识产权局批准设立，可以接受委托人的委托，在委托权限范围内以委托人的名义办理专利申请或其他专利事务的服务机构。

杭州君度专利代理事务所

代理人

专利代理师是代理他人进行专利申请和办理其他专利事务，取得一定资格的人。

朱月芬

摘要

本发明提供一种基于多尺度特征融合的RGBD显著性检测方法。本发明首先构建了显著性检测模型，通过双流特征提取模块提取多级RGB图像特征和深度图像特征；通过多尺度特征池化模块和多尺度特征聚合模块进一步提取深层次特征。同时利用深度融合模块逐级融合来自于特征提取分支、多尺度特征池化模块和多尺度特征聚合模块的特征。显著性边界细化模块通过来自于RGB图像特征提取分支和深度图像特征提取分支的浅层特征进行边界约束，达到细化边界的目的；同时利用深度融合模块的输出特征进行全局约束，达到全局优化的目的。本发明实现了端到端的显著性预测，将边缘信息引入到了显著性检测中，可以充分有效地利用RGB图像信息和深度图像信息来预测显著性区域。

摘要附图
说明书附图：图1
说明书附图：图2
说明书附图：图3

法律状态

序号	法律状态公告日	法律状态	法律状态信息
1	2022-04-01	授权
2	2020-06-30	实质审查的生效	IPC(主分类): G06K 9/46 专利申请号: 202010028837.2 申请日: 2020.01.11
3	2020-06-05	公开

权利要求

权利要求书是申请文件最核心的部分，是申请人向国家申请保护他的发明创造及划定保护范围的文件。

1.一种基于多尺度特征融合的RGBD显著性检测方法，其特征在于，步骤如下：
步骤(1)、构建显著性检测模型；
显著性检测模型包括双流特征提取模块、多尺度特征池化模块、多尺度特征聚合模块、深度融合模块和显著性边界细化模块；
步骤(2)、通过HHA算法处理RGB图像I的原始深度图像，获得深度图像D；
步骤(3)、将RGB图像I及其深度图像D输入显著性检测模型中，通过双流特征提取模块中的RGB图像特征提取分支和深度图像特征提取分支分别提取多级RGB图像特征{Ii,i＝1,
2,3,4}和深度图像特征{Di,i＝1,2,3,4}；
步骤(4)、通过多尺度特征池化模块和多尺度特征聚合模块进一步提取深层次特征；同时利用深度融合模块逐级融合来自于特征提取分支、多尺度特征池化模块和多尺度特征聚合模块的特征；
步骤(5)、显著性边界细化模块通过来自于RGB图像特征提取分支和深度图像特征提取分支的浅层特征进行边界约束，达到细化边界的目的；同时利用深度融合模块的输出特征进行全局约束，达到全局优化的目的；
步骤(4)、通过多尺度特征池化模块和多尺度特征聚合模块进一步提取深层次特征；同时利用深度融合模块逐级融合来自于特征提取分支、多尺度特征池化模块和多尺度特征聚合模块的特征；
对于得到的多级RGB图像特征{Ii,i＝1,2,3,4}和深度图像特征{Di,i＝1,2,3,4}，按元素相加后得到初步融合特征{IDi,i＝2,3,4}；特别地，将融合特征ID4通过一个包含三个卷积层的卷积块后送入多尺度特征池化模块；
多尺度特征池化模块包括四个子分支，用以获得输入特征数据的上下文信息，其中第一子分支采用了全局均值池化层，得到1×1的特征表示；第二子分支和第三个分支均采用自适应均值池化层，分别得到3×3和5×5的特征表示；第四子分支采用直接跳连的方式将输入特征连接到输出端；第一、第二和第三子分支利用1×1的卷积层进一步强化特征表达，同时保持特征尺寸和通道数不变；对于上述通过卷积学习得到的特征表示，进一步分别上采样到输入特征的大小，采取双线性插值的上采样策略；最后，通过通道级联的方式将四个子分支的特征进行组合，得到融合了多尺度池化的特征表示{MPj,j＝2×,4×,8×}；
多尺度特征聚合模块包括四个子分支，其中第一子分支、第二子分支和第三子分支采用使用了常规的均值池化层，分别将相应的特征下采样到原尺寸的1/8、1/4、1/2，接着利用
3×3的卷积层进一步强化特征表达，同时保持特征尺寸和通道数不变；第四子分支采用直接跳连的方式将输入特征连接到输出端；为得到与输入特征尺寸大小相同的特征表示，进一步使用双线性插值法分别将第一子分支、第二子分支和第三子分支获得的不同尺度的特征进行8倍、4倍、2倍的上采样，并连同第四子分支的跳连特征进行按元素相加的操作，在保持通道数不变的前提下实现多尺度特征的聚合；为降低上采样操作和按元素相加操作带来的混叠效应，采用一个卷积核为3×3、步长为1、填充为1的卷积层来进行处理，最终得到尺寸大小和通道数均与输入特征保持一致的多尺度聚合的特征表示{MAi,i＝1,2,3,4}；
深度融合模块用于对来自于特征提取分支的特征{IDi,i＝2,3,4}、多尺度特征池化模块的特征{MPj,j＝2×,4×,8×}和多尺度特征聚合模块的特征{MAi,i＝1,2,3,4}进行融合，定义如下：
其中，Up(·)表示双线性插值上采样操作，C(·)表示卷积核为3×3的卷积操作；
步骤(5)、显著性边界细化模块通过来自于RGB图像特征提取分支和深度图像特征提取分支的浅层特征进行边界约束，达到细化边界的目的；同时利用深度融合模块的输出特征进行全局约束，达到全局优化的目的；
显著性边界细化模块将特征提取分支中包含丰富边缘信息的特征用于进行边缘约束，强化对边缘特征的学习，采用第二个卷积块的输出特征，即I2和D2，整个模块可以表示为如下的形式：
Edge＝C(I2+D2), (2)
其中，C(·)表示卷积核为1×1、步长为1的卷积操作；采用HED方法提取相关RBGD数据集的边缘信息作为标准的边缘图像；在执行边缘约束时，以平衡交叉熵损失函数作为目标函数进行优化，有效地缓解样本不平衡的问题。

2.根据权利要求1所述的一种基于多尺度特征融合的RGBD显著性检测方法，其特征在于，通过ResNet50预训练模型初始化RGB图像特征提取分支和深度图像特征提取分支的权重参数，其他部分的权重则使用“msra”方法初始化；在模型训练阶段，以交叉熵损失函数作为目标函数进行优化，使用Adam优化算法，动量设为0.9，权重衰减率设为0.0001，基本学习‑5
率设为5×10 ，批大小设为1；对于训练数据集，使用镜面反射和旋转技术实现数据的增广。

说明书

技术领域

[0001] 本发明属于计算机视觉领域，特别是利用深度卷积神经网络通过多尺度的方法来融合RGB图像和深度图像中所包含的特征信息。

背景技术

[0002] 显著性检测旨在区分场景中视觉上最鲜明的目标或区域，在视觉跟踪、图像分割和目标检测等领域有着广泛的应用。同时，伴随着深度学习技术的飞速发展，卷积神经网络已经成为处理显著性检测任务的主流方法。但是，现有的诸多基于深度学习的显著性检测方法大都是针对二维图像显著性检测任务，即仅仅依靠RGB图像而忽略了相应的深度信息，这极大地限制了显著性检测的精度与效率，特别是当在RGB图像中显著性对象与背景区域难以区分时，深度信息就显得尤为重要。另外，随着软硬件技术的发展，深度信息采集设备的出现使得深度图像的获取更加便利，如Kinect等，这也为深度信息的利用提供了可能。因此，如何充分利用深度信息进行显著性检测成为了当下的研究热点之一。

[0003] 目前，针对RGBD图像显著性检测的研究工作已经取得了一定的成果，但仍存在较大的进步空间。总体来说，阻碍RGBD图像显著性检测任务进一步发展的因素主要有两方面：一是虽然Kinect和光场相机等设备的出现极大的方便了深度信息的获取，但是仍不可避免地引入了大量的噪声，在一定程度上干扰了深度信息的有效表达，同时可用的已有深度图像数据集极其有限，缺少像RGB图像数据集ImageNet这样的大规模数据集，很难拟合具有复杂结构的网络模型；二是如何有效地融合RGB信息和深度信息这两种不同模态的信息是具有挑战性的，RGB图像中包含了大量的颜色和纹理等语义信息，而深度图像中包含了丰富的边缘和形状等几何信息，二者互为补充，有利于更加准确地突出显著性区域。

发明内容

[0004] 针对现有技术中存在的不足，本发明提供一种基于多尺度特征融合的RGBD显著性检测方法。本发明方法可以有效地实现对于RGBD图像的显著性检测工作。

[0005] 一种基于多尺度特征融合的RGBD显著性检测方法，步骤如下：

[0006] 步骤(1)、构建显著性检测模型。

[0007] 显著性检测模型包括双流特征提取模块、多尺度特征池化模块、多尺度特征聚合模块、深度融合模块和显著性边界细化模块。

[0008] 步骤(2)、通过HHA算法处理RGB图像I的原始深度图像，获得深度图像D。

[0009] 步骤(3)、将RGB图像I及其深度图像D输入显著性检测模型中，通过双流特征提取模块中的RGB图像特征提取分支和深度图像特征提取分支分别提取多级RGB图像特征{Ii,i＝1,2,3,4}和深度图像特征{Di,i＝1,2,3,4}。

[0010] 步骤(4)、通过多尺度特征池化模块和多尺度特征聚合模块进一步提取深层次特征。同时利用深度融合模块逐级融合来自于特征提取分支、多尺度特征池化模块和多尺度特征聚合模块的特征。

[0011] 步骤(5)、显著性边界细化模块通过来自于RGB图像特征提取分支和深度图像特征提取分支的浅层特征进行边界约束，达到细化边界的目的；同时利用深度融合模块的输出特征进行全局约束，达到全局优化的目的。

[0012] 本发明有益效果如下：

[0013] 本发明充分利用了RGB图像和相应深度图像中所蕴含的互补信息，通过多尺度特征融合的方式实现了准确预测RGBD图像中显著性区域的目标。本发明方法通过多尺度特征池化模块和多尺度特征聚合模块从不同的角度提取每个级别的深层次特征。此外，深度融合模块对不同的特征表示进行了融合并逐级上采样，从而实现了端到端的显著性预测。本发明方法将边缘信息引入到了显著性检测中，可以充分有效地利用RGB图像信息和深度图像信息来预测显著性区域。

实施方案

[0017] 以下结合附图对本发明方法进行进一步描述。

[0018] 如图1所示，本发明的显著性检测方法，步骤如下：

[0019] 步骤(1)、构建显著性检测模型。

[0020] 显著性检测模型包括双流特征提取模块、多尺度特征池化模块、多尺度特征聚合模块、深度融合模块和显著性边界细化模块。

[0021] 步骤(2)、通过HHA算法处理RGB图像I的原始深度图像，获得深度图像D。

[0022] 步骤(3)、将RGB图像I及其深度图像D输入显著性检测模型中，通过双流特征提取模块中的RGB图像特征提取分支和深度图像特征提取分支分别提取多级RGB图像特征{Ii,i＝1,2,3,4}和深度图像特征{Di,i＝1,2,3,4}。

[0023] 步骤(4)、通过多尺度特征池化模块和多尺度特征聚合模块进一步提取深层次特征。同时利用深度融合模块逐级融合来自于特征提取分支、多尺度特征池化模块和多尺度特征聚合模块的特征。

[0024] 对于得到的多级RGB图像特征{Ii,i＝1,2,3,4}和深度图像特征{Di,i＝1,2,3,4}，按元素相加后得到初步融合特征{IDi,i＝2,3,4}。特别地，将融合特征ID4通过一个包含三个卷积层的卷积块后送入多尺度特征池化模块。

[0025] 如图2所示，多尺度特征池化模块包括四个子分支，用以获得输入特征数据的上下文信息，其中第一子分支采用了全局均值池化层，得到1×1的特征表示；第二子分支和第三个分支均采用自适应均值池化层，分别得到3×3和5×5的特征表示；第四子分支采用直接跳连的方式将输入特征连接到输出端。第一、第二和第三子分支利用1×1的卷积层进一步强化特征表达，同时保持特征尺寸和通道数不变。对于上述通过卷积学习得到的特征表示，进一步分别上采样到输入特征的大小，采取双线性插值的上采样策略。最后，通过通道级联的方式将四个子分支的特征进行组合，得到融合了多尺度池化的特征表示{MPj,j＝2×,4×,8×}。

[0026] 如图3所示，多尺度特征聚合模块包括四个子分支，其中第一子分支、第二子分支和第三子分支采用使用了常规的均值池化层，分别将相应的特征下采样到原尺寸的1/8、1/4、1/2，接着利用3×3的卷积层进一步强化特征表达，同时保持特征尺寸和通道数不变；第四子分支采用直接跳连的方式将输入特征连接到输出端。为得到与输入特征尺寸大小相同的特征表示，进一步使用双线性插值法分别将第一子分支、第二子分支和第三子分支获得的不同尺度的特征进行8倍、4倍、2倍的上采样，并连同第四子分支的跳连特征进行按元素相加的操作，在保持通道数不变的前提下实现多尺度特征的聚合。为降低上采样操作和按元素相加操作带来的混叠效应，采用一个卷积核为3×3、步长为1、填充为1的卷积层来进行处理，最终得到尺寸大小和通道数均与输入特征保持一致的多尺度聚合的特征表示{MAi,i＝1,2,3,4}。

[0027] 深度融合模块用于对来自于特征提取分支的特征{IDi,i＝2,3,4}、多尺度特征池化模块的特征{MPj,j＝2×,4×,8×}和多尺度特征聚合模块的特征{MAi,i＝1,2,3,4}进行融合，定义如下：

[0028]

[0029] 其中，Up(·)表示双线性插值上采样操作，C(·)表示卷积核为3×3的卷积操作。

[0030] 步骤(5)、显著性边界细化模块通过来自于RGB图像特征提取分支和深度图像特征提取分支的浅层特征进行边界约束，达到细化边界的目的；同时利用深度融合模块的输出特征进行全局约束，达到全局优化的目的。

[0031] 显著性边界细化模块将特征提取分支中包含丰富边缘信息的特征用于进行边缘约束，强化对边缘特征的学习，采用第二个卷积块的输出特征，即I2和D2，整个模块可以表示为如下的形式：

[0032] Edge＝C(I2+D2), (2)

[0033] 其中，C(·)表示卷积核为1×1、步长为1的卷积操作。采用HED方法提取相关RBGD数据集的边缘信息作为标准的边缘图像。在执行边缘约束时，以平衡交叉熵损失函数作为目标函数进行优化，有效地缓解样本不平衡的问题。

[0034] 通过ResNet50预训练模型初始化RGB图像特征提取分支和深度图像特征提取分支的权重参数，其他部分的权重则使用“msra”方法初始化。在模型训练阶段，以交叉熵损失函数作为目标函数进行优化，使用Adam优化算法，动量设为0.9，权重衰减率设为0.0001，基本‑5学习率设为5×10 ，批大小设为1。对于训练数据集，使用镜面反射和旋转技术实现数据的增广。

[0035] 显著性检测模型的输入是RGB图像I及其深度图像D。需要注意的是，这里的深度图像D区别于原始深度图像，指的是经过HHA算法处理之后的深度图像。RGB图像特征{Ii,i＝1,2,3,4}和深度图像特征{Di,i＝1,2,3,4}分别通过RGB图像特征提取分支和深度图像特征提取分支获得。对于得到的多级RGB图像特征和深度图像特征，按元素相加后得到初步融合特征{IDi,i＝2,3,4}。特别地，将融合特征ID4通过一个包含三个卷积层的卷积块后送入多尺度特征池化模块。

[0036] 多尺度特征池化模块通过多尺度的池化操作可以更好地获取全局上下文信息，从而有效地区分背景区域中的显著性目标。同时，多尺度特征池化模块摆脱了输入数据尺寸大小的约束，可以生成固定大小的特征表示，这样大大增强了网络结构的灵活性和普适性。多尺度特征池化模块包括四个子分支，用以获得输入特征数据的上下文信息，其中第一子分支采用了全局均值池化层，得到1×1的特征表示；第二子分支和第三个分支均采用自适应均值池化层，分别得到3×3和5×5的特征表示；第四子分支采用直接跳连的方式将输入特征连接到输出端。第一、第二和第三子分支利用1×1的卷积层进一步强化特征表达，同时保持特征尺寸和通道数不变。对于上述通过卷积学习得到的特征表示，进一步分别上采样到输入特征的大小，采取双线性插值的上采样策略。最后，通过通道级联的方式将四个子分支的特征进行组合，得到融合了多尺度池化的特征表示，可以更好地表达特征数据中所包含的全局上下文信息，从而更加有利于进行显著性区域的预测。

[0037] 多尺度特征聚合模块中的“多尺度”具有两层含义：一是该模块处理的特征数据是具有多尺度属性的；二是该模块内部处理特征数据的方式是多尺度的。由于多尺度特征聚合模块处理的部分特征数据间接来自于多尺度特征池化模块，因此其具有多尺度属性。与多尺度特征池化模块类似，多尺度特征聚合模块包括四个子分支，其中第一子分支、第二子分支和第三子分支采用使用了常规的均值池化层，分别将相应的特征下采样到原尺寸的1/8、1/4、1/2，接着利用3×3的卷积层进一步强化特征表达，同时保持特征尺寸和通道数不变。；第四子分支采用直接跳连的方式将输入特征连接到输出端。为得到与输入特征尺寸大小相同的特征表示，进一步使用双线性插值法分别将第一子分支、第二子分支和第三子分支获得的不同尺度的特征进行8倍、4倍、2倍的上采样，并连同第四子分支的跳连特征进行按元素相加的操作，在保持通道数不变的前提下实现多尺度特征的聚合。为降低上采样操作和按元素相加操作带来的混叠效应，采用一个卷积核为3×3、步长为1、填充为1的卷积层来进行处理，最终得到尺寸大小和通道数均与输入特征保持一致的多尺度聚合的特征表示。

[0038] 为了能够充分地融合RGB图像特征和深度图像特征以及较好地保留全局信息，本方法还引入了深度融合模块。深度融合模块用于对来自于特征提取分支的特征{IDi,i＝2,3,4}、多尺度特征池化模块的特征{MPj,j＝2×,4×,8×}和多尺度特征聚合模块的特征{MAi,i＝1,2,3,4}进行融合，定义如下：

[0039]

[0040] 其中，Up(·)表示双线性插值上采样操作，C(·)表示卷积核为3×3的卷积操作。需要注意的是，此处的卷积操作同样具有降低上采样所带来的混叠效应的作用。

[0041] 为了能够准确地定位显著性区域，获得边界清晰的显著性图，本方法引入了显著性边界细化模块。显著性边界细化模块将特征提取分支中包含丰富边缘信息的特征用于进行边缘约束，强化对边缘特征的学习，采用第二个卷积块的输出特征，即I2和D2，整个模块可以表示为如下的形式：

[0042] Edge＝C(I2+D2), (2)

[0043] 其中，C(·)表示卷积核为1×1、步长为1的卷积操作。同样，该卷积层具有降低按元素相加操作所带来的混叠效应的作用。鉴于目前已有的RGBD数据集中大多没有提供标定好的边缘图像，本方法采用HED方法提取相关RBGD数据集的边缘信息作为标准的边缘图像。在执行边缘约束时，以平衡交叉熵损失函数作为目标函数进行优化，有效地缓解样本不平衡的问题。最后，在边缘约束的协同下，利用交叉熵损失函数进行全局优化，以实现显著性图的预测工作。

附图说明

[0014] 图1为基于多尺度特征融合的RGBD显著性检测方法的框架图；

[0015] 图2为多尺度特征池化模块示意图；

[0016] 图3为多尺度特征聚合模块示意图。