盲专网 - 图像处理方法及装置、电子设备和存储介质

序号	法律状态公告日	法律状态	法律状态信息
1	2020-11-27	授权
2	2018-09-04	实质审查的生效	IPC(主分类): G06T 7/50 专利申请号: 201810159732.3 申请日: 2018.02.26
3	2018-08-10	公开

发明内容

[0003] 本公开实施例提供一种图像处理方法及装置、电子设备和存储介质的技术方案。

[0004] 本公开实施例提供的一种图像处理方法，包括：

[0005] 确定图像的RGB特征和深度特征；

[0006] 基于所述深度特征，得到深度特征权重；

[0007] 基于所述深度特征权重，将所述深度特征及所述RGB特征进行融合，得到融合特征；

[0008] 基于所述融合特征，得到所述图像的处理结果。

[0009] 在一种可选方式中，所述基于所述深度特征，得到深度特征权重，包括：

[0010] 基于所述RGB特征和所述深度特征，得到深度特征权重。

[0011] 在一种可选方式中，所述基于所述RGB特征和所述深度特征，得到深度特征权重，包括：

[0012] 对所述RGB特征和所述深度特征进行拼接处理，得到拼接特征；

[0013] 基于所述拼接特征，得到深度特征权重。

[0014] 在一种可选方式中，所述基于所述拼接特征，得到深度特征权重，包括：

[0015] 对所述拼接特征进行逐级过滤处理，得到多个区域特征；

[0016] 基于所述多个区域特征，得到深度特征权重。

[0017] 在一种可选方式中，所述基于所述多个区域特征，得到深度特征权重，包括：

[0018] 将所述多个区域特征进行合并，得到所述深度特征权重。

[0019] 在一种可选方式中，所述对所述拼接特征进行逐级过滤处理，得到多个区域特征，包括：

[0020] 对所述多个区域特征中的第i-1区域特征进行过滤处理，得到所述多个区域特征中的第i区域特征，其中，所述第i-1区域特征是基于所述拼接特征得到的，i>1。

[0021] 在一种可选方式中，所述对所述多个区域特征中的第i-1区域特征进行过滤处理，得到所述多个区域特征中的第i区域特征，包括：

[0022] 对所述第i-1区域特征进行信息过滤，得到第一过滤特征；

[0023] 对所述第i-1区域特征进行信息备份，得到备份特征；

[0024] 基于所述第一过滤特征和所述备份特征，得到所述第i区域特征。

[0025] 在一种可选方式中，所述对所述第i-1区域特征进行信息过滤，得到第一过滤特征，包括：

[0026] 基于所述拼接特征和所述第i-1区域特征，得到过滤参数；

[0027] 基于所述过滤参数对所述第i-1区域特征进行信息过滤，得到所述第一过滤特征。

[0028] 在一种可选方式中，所述对所述第i-1区域特征进行信息备份，得到备份特征，包括：

[0029] 基于所述拼接特征和所述第i-1区域特征，得到第二过滤特征；

[0030] 基于所述过滤参数对所述第二过滤特征进行备份，得到所述备份特征。

[0031] 在一种可选方式中，所述基于所述第一过滤特征和所述备份特征，得到所述第i区域特征，包括：

[0032] 将所述第一过滤特征和所述备份特征进行合并，得到所述第i区域特征。

[0033] 在一种可选方式中，所述基于所述深度特征权重，将所述深度特征及所述RGB特征进行融合，得到融合特征，包括：

[0034] 基于所述深度特征权重，将深度特征及所述RGB特征进行深度残差连接，得到融合特征。

[0035] 在一种可选方式中，所述基于所述深度特征权重，将所述深度特征及所述RGB特征进行深度残差连接，得到融合特征，包括：

[0036] 将所述深度特征权重与所述深度特征相乘，得到加权深度特征；

[0037] 对所述加权深度特征和所述RGB特征进行连接，得到融合特征。

[0038] 在一种可选方式中，所述确定图像的RGB特征和深度特征，包括：

[0039] 利用深度神经网络，对图像对应的RGB图像和深度图像分别进行特征提取，得到所述图像的RGB特征和深度特征。

[0040] 在一种可选方式中，所述利用深度神经网络，对所述图像对应的RGB图像和深度图像分别进行特征提取，得到所述图像的RGB特征和深度特征，包括：

[0041] 利用所述深度神经网络中具有相同结构的神经网络单元分别对所述图像对应的RGB图像和深度图像分别进行特征提取，得到所述图像的RGB特征和深度特征。

[0042] 本公开实施例提供的一种图像处理装置，包括：

[0043] 特征确定单元，用于确定图像的RGB特征和深度特征；

[0044] 权重确定单元，用于基于所述深度特征，得到深度特征权重；

[0045] 融合单元，用于基于所述深度特征权重，将所述深度特征及所述RGB特征进行融合，得到融合特征；

[0046] 处理单元，用于基于所述融合特征，得到所述图像的处理结果。

[0047] 在一种可选方式中，所述权重确定单元具体用于：基于所述RGB特征和所述深度特征，得到深度特征权重。

[0048] 在一种可选方式中，所述权重确定单元包括：

[0049] 拼接子单元，用于对所述RGB特征和所述深度特征进行拼接处理，得到拼接特征；

[0050] 权重得到子单元，用于基于所述拼接特征，得到深度特征权重。

[0051] 在一种可选方式中，所述权重得到子单元具体用于：对所述拼接特征进行逐级过滤处理，得到多个区域特征；基于所述多个区域特征，得到深度特征权重。

[0052] 在一种可选方式中，所述权重得到子单元具体用于：将所述多个区域特征进行合并，得到所述深度特征权重。

[0053] 在一种可选方式中，所述权重得到子单元具体用于：对所述多个区域特征中的第i-1区域特征进行过滤处理，得到所述多个区域特征中的第i区域特征，其中，所述第i-1区域特征是基于所述拼接特征得到的，i>1。

[0054] 在一种可选方式中，所述权重得到子单元具体用于：对所述第i-1区域特征进行信息过滤，得到第一过滤特征；对所述第i-1区域特征进行信息备份，得到备份特征；基于所述第一过滤特征和所述备份特征，得到所述第i区域特征。

[0055] 在一种可选方式中，所述权重得到子单元具体用于：基于所述拼接特征和所述第i-1区域特征，得到过滤参数；基于所述过滤参数对所述第i-1区域特征进行信息过滤，得到所述第一过滤特征。

[0056] 在一种可选方式中，所述权重得到子单元具体用于：基于所述拼接特征和所述第i-1区域特征，得到第二过滤特征；基于所述过滤参数对所述第二过滤特征进行备份，得到所述备份特征。

[0057] 在一种可选方式中，所述权重得到子单元具体用于：将所述第一过滤特征和所述备份特征进行合并，得到所述第i区域特征。

[0058] 在一种可选方式中，所述融合单元具体用于：基于所述深度特征权重，将深度特征及所述RGB特征进行深度残差连接，得到融合特征。

[0059] 在一种可选方式中，所述融合单元包括：

[0060] 特征加权子单元，用于将所述深度特征权重与所述深度特征相乘，得到加权深度特征；

[0061] 连接子单元，用于对所述加权深度特征和所述RGB特征进行连接，得到融合特征。

[0062] 在一种可选方式中，所述特征确定单元具体用于：利用深度神经网络，对图像对应的RGB图像和深度图像分别进行特征提取，得到所述图像的RGB特征和深度特征。

[0063] 在一种可选方式中，所述特征确定单元包括：

[0064] 特征提取子单元，用于利用所述深度神经网络中具有相同结构的神经网络单元分别对所述图像对应的RGB图像和深度图像分别进行特征提取；

[0065] 特征得到子单元，用于得到所述图像的RGB特征和深度特征。

[0066] 本公开实施例提供的一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述方法。

[0067] 本公开实施例提供的一种电子设备，包括用于存储计算机程序的存储器和处理器，所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。

[0068] 基于本公开实施例提供的图像处理方法，针对图像的RGB图像以及深度图像，将深度图像以深度特征权重融合到RGB图像中。由于深度图像与RGB图像的关注点不同(RGB图像主要关注于物体的外观包括颜色、种类等；而深度图像主要关注于物体的外形轮廓)，而本公开实施例将二者进行有效融合，从而可提升图像处理的准确率等性能。

[0069] 下面通过附图和实施例，对本公开的技术方案做进一步的详细描述。

实施方案

[0078] 现在将参照附图来详细描述本公开的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

[0079] 同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

[0080] 以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

[0081] 对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

[0082] 应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

[0083] 随着深度相机的发展，深度图像有助于更好地探索计算机视觉以及三维空间问题。室外场景下的实例分割在很多领域有重要的应用，比如无人车系统的搭建，道路信息的检测。因此，有效地将深度图像运用在室外场景的各个领域能提升模型的鲁棒性。

[0084] 然而有效地运用室外场景下的深度图像是困难的，因为相较于室内场景下，室外场景被很多因素所影响。一方面，室外场景有着更大的范围，这使得远处的深度图像近乎无法辨认，造成了视觉上的偏差。另一方面，若近处的物体的相对距离较近，两者间的深度图像会更相似，使得深度图像中的边界信息难以辨认。很多现有的相关工作局限于室内深度图像的应用，还未开拓到室外场景下。

[0085] 本公开实施例提供的技术方案可以应用于室外场景，能够在图像处理过程中有效地利用深度图像，提高室外场景的图像处理性能，例如室外检测或图像识别等等。但是应理解，本公开实施例提供的技术方案也可以应用于其他场景，本公开实施例对此不做限定。

[0086] 图1为本公开实施例提供的一种图像处理方法的流程图。

[0087] S101：确定图像的RGB特征以及深度特征。

[0088] 具体地，可以获取图像的RGB信息，并基于该RGB信息得到图像的RGB特征。其中，该RGB特征可以具体为特征图或者其他表现形式。可选地，该RGB信息可以包括下列中的一种或多种：RGB图像、深度图像、图像的一个或多个像素点的RGB值。在一些可选实施例中，可以获取RGB图像并对该RGB图像进行特征提取处理，得到图像的RGB特征。

[0089] RGB即三原色(三基色)，指色彩中不能再分解的三种基本颜色(红、绿、蓝)。在具体操作中，可采用色彩提取算法或工具(例如matlab)等手段对图像的RGB三色值进行提取，得到RGB图像，但本公开实施例对得到RGB图像的具体实现不作限定。

[0090] 此外，可以获取图像的深度信息，并基于该深度信息得到图像的深度特征。其中，该深度特征可以具体为特征图或其他表现形式。可选地，该深度信息可以包括下列中的任意一种或多种：深度图、深度图像、图像的一个或多个像素点中每个像素点对应的深度值。在一些可选实施例中，可以获取RGB图像对应的深度图像，并对深度图像进行特征提取处理，得到图像的深度特征。

[0091] 深度图像中可以包括图像采集设备中摄像头模组的镜头与拍摄物体之间垂直距离的相关信息。例如，对于深度相机拍摄的图像，可以利用双目匹配算法，识别出深度图像，但本公开实施例对得到深度图像的具体实现不作限定。

[0092] 例如，深度图像＝RGB图像+深度图，其中，深度图(Depth Map)可以包含与视点的场景对象的表面的距离有关的信息的图像或图像通道。其中，Depth Map类似于灰度图像，只是它的每个像素值是传感器距离物体的实际距离。

[0093] 在一些实施例中，RGB图像和深度图像是配准的，因而像素点之间具有一对一的对应关系。

[0094] 在一些可选实施例中，可以利用深度神经网络对图像对应的RGB图像和深度图像分别进行特征提取，得到图像的RGB特征和深度特征。其中，该深度神经网络中用于对RGB图像进行特征提取的部分和用于对深度图像进行特征提取的部分可以具有相同或不同的结构，例如，可以利用深度神经网络中具有相同结构的神经网络单元分别对所述图像对应的RGB图像和深度图像分别进行特征提取，得到所述图像的RGB特征和深度特征，具体地，该具有相同结构的神经网络单元可以具有相同的超函数，而该相同结构的神经网络单元的具体网络参数可以是在网络训练过程中学习得到的，因此可以具有相同或不同的具体网络参数，本申请实施例对此不做限定。

[0095] 在一些可选实施例中，可以利用深度神经网络，分别提取RGB图像的候选区域及深度图像的候选区域。其中，可选地，可以利用相同结构的神经网络单元分别对RGB图像及深度图像进行特征提取处理，得到RGB图像的候选区域及深度图像的候选区域；然后，可以对RGB图像的候选区域进行插值处理，得到RGB特征，并对深度图像的候选区域进行插值处理，得到深度特征，例如，可以利用感兴趣区域对齐((Regionof Interest，RoI)Align)层分别对RGB图像和深度图像的候选区域进行处理，得到RGB特征和深度特征。这样，RGB特征和深度特征是针对图像的同一个区域、采取相同方式获得的。在具体实现中，可选地，RGB特征和深度特征可以以三维特征图表征，但本申请实施例不限于此。

[0096] S102：基于深度特征，得到深度特征权重。

[0097] 本公开实施例中，可以将深度特征和RGB特征进行融合，得到融合特征。其中，在进行特征融合时，为了突出有用信息并抑制噪音和不太有用的信息，可以确定深度特征权重，并基于深度特征权重对深度特征和RGB特征进行融合，从而提高图像处理结果的准确性。例如，在一些可选实施例中，可以通过学习深度特征图上的每个点对最终预测的贡献来确定深度特征权重，即基于深度特征自适应调整深度特征权重。

[0098] 在本公开实施例中，可选地，可以基于注意力视觉机制，确定深度特征权重。可选地，该深度特征权重可以具体为注意力图或其他形式，例如，深度特征权重可以包括每个像素点的深度特征的权重或者深度特征图上每个点的权重值，但本公开实施例对此不做限定。

[0099] 在一些实施例中，可以基于RGB特征和深度特征，得到深度特征权重。例如，可以对RGB特征和深度特征进行一种或多种处理得到深度特征权重，本公开实施例对此不做限定。

[0100] 在一些实施例中，可以对RGB特征和深度特征进行拼接处理，得到拼接特征，并基于拼接特征，得到深度特征权重。例如，可以沿着通道方向对RGB特征和深度特征进行连接，得到拼接特征。或者，也可以对RGB特征和深度特征进行加权求和处理等其他处理，然后基于处理得到的特征得到深度特征权重，本公开实施例对此不做限定。

[0101] 下面对基于拼接特征得到深度特征权重的方式进行示例性说明。

[0102] 在一些实施例中，基于拼接特征得到深度特征权重的过程包括：

[0103] (1)对拼接特征进行逐级过滤处理，得到多个区域特征。

[0104] 例如，可以根据预先设定的过滤级数(次数)，对拼接特征进行迭代过滤。具体地，可以对拼接特征进行过滤处理，得到多个区域特征中的第1区域特征，然后进一步对该第1区域特征进行过滤处理，得到第2区域特征，以此类推，得到多个区域特征。

[0105] 一般地，可以对多个区域特征中的第i-1区域特征进行过滤处理，得到多个区域特征中的第i区域特征，其中，第i-1区域特征是基于拼接特征得到的，i>1。

[0106] 在一些实施例中，可以对该拼接特征进行过滤处理，以得到深度图像中的有用信息，即残差信息。对拼接特征的过滤处理可以提取深度特征(或深度图像)中包含最多信息或重要信息的区域。

[0107] 在一些可选实施例中，可以基于注意力机制实现逐级过滤处理。例如，设置至少一个级联的注意力门单元，其中，某个注意力门单元的输入端可以与上一注意力门单元的输出端连接，并且其输出端可以与下一注意力门单元的输入端连接。这样，可以将拼接特征输入到级联的注意力门单元，得到多个区域特征。其中，在一些可选实施例中，可以设置N个级联的注意力门单元，每个注意力门单元可以输出一个区域特征，最终得到N个区域特征，此时，第i注意力门单元可以输出第i区域特征，但本公开实施例不限于此。

[0108] 例如：假设有三级注意力门单元(i＝3)，则可以将拼接特征(或者，RGB特征和深度特征)输入至第一级注意力门单元，得到第一级注意力门单元的输出，即第1区域特征；然后将拼接特征(或者，RGB特征和深度特征)以及第一级注意力门单元的输出，输入至第二级注意力门单元，得到第二级注意力门单元的输出，即第2区域特征；最后，可以将拼接特征(或者，RGB特征和深度特征)以及第二级注意力门单元的输出，输入至第三级注意力门单元，得到第三级注意力门单元的输出，即第3区域特征。

[0109] 在一些可选实施例中，对多个区域特征中的第i-1区域特征进行过滤处理、得到第i区域特征的过程可以包括信息过滤和信息备份，其中，信息过滤用于过滤掉无用信息和噪音，例如，在室外场景下，远处物体以及近处相邻物体的不可识别性，而信息备份用于对在上述信息过滤中过滤掉的信息进行备份处理，以避免本次过滤对后续的过滤处理造成影响。例如，对第i-1区域特征的过滤处理可以通过以下流程实现：

[0110] (a)对第i-1区域特征进行信息过滤，得到第一过滤特征。

[0111] 其中，在一些可选实施例中，可以基于拼接特征和第i-1区域特征，得到过滤参数；基于过滤参数对第i-1区域特征进行信息过滤，得到第一过滤特征。

[0112] 例如，可以利用激活函数(例如sigmoid函数)对拼接特征和第i-1区域特征进行处理，得到第一过滤特征。

[0113] 需要说明的是，上述得到第一过滤特征的方式仅是一个具体示例，也可以通过其他方式得到第一过滤特征，本公开实施例对此不做限定。

[0114] (b)对第i-1区域特征进行信息备份，得到备份特征。

[0115] 其中，在一些可选实施例中，可以基于拼接特征和第i-1区域特征，得到第二过滤特征；基于过滤参数对第二过滤特征进行备份，得到备份特征。

[0116] 需要说明的是，上述得到备份特征的方式仅是一个具体示例，也可以通过其他方式得到备份特征，本公开实施例对此不做限定。

[0117] (c)基于第一过滤特征和所述备份特征，得到第i区域特征。

[0118] 其中，在一些可选实施例中，可以将第一过滤特征和备份特征进行合并，得到第i区域特征。

[0119] 需要说明的是，上述合并第一过滤特征和备份特征从而得到第i区域特征的方式仅是一个具体示例，也可以通过其他方式得到第i区域特征，本公开实施例对此不做限定。

[0120] 仍以上述注意力门单元实现的例子举例说明。在每一个注意力门单元内部，实现特征过滤和特征备份两部分功能。以第i级注意力门单元为例，如前所述，它的输入包括拼接特征(或者，RGB特征和深度特征)以及第i-1级注意力门单元的输出。具体的，在特征过滤部分，可以基于卷积神经网络学习到的权重参数确定出过滤参数，根据过滤参数对第i-1级注意力门单元的输出进行过滤，得到第i级注意力门单元的第一过滤特征。在特征备份部分，将过滤掉的特征进行备份，具体的，基于拼接特征(或者，RGB特征和深度特征)和第i-1级注意力门单元的输出，得到第二过滤特征(第二过滤特征可以理解为过滤掉的特征)；基于过滤参数对第二过滤特征进行备份，得到备份特征。最后，将过滤特征和备份特征进行求和，得到第i级注意力门单元的输出。

[0121] 应理解，上述流程只是示例性描述，在本公开实施例中，还可以通过其他方式对某个区域特征进行过滤处理，得到下一区域特征，本公开实施例对此不做限定。

[0122] (2)基于多个区域特征，得到深度特征权重。

[0123] 其中，在一种可选方式中，基于多个区域特征得到深度特征权重的过程例如是：将多个区域特征进行合并，得到深度特征权重。例如，可以将多个区域特征的和确定为深度特征权重。

[0124] 需要说明的是，上述得到深度特征权重的方式仅是一个具体示例，也可以通过其他方式得到深度特征权重，本公开实施例对此不做限定。

[0125] 仍以上述注意力门单元实现的例子举例说明。假设有三级注意力门单元(i＝3)，则将每一级注意力门单元的输出求和即得到深度特征权重。

[0126] S103：基于深度特征权重，将深度特征及RGB特征进行融合，得到融合特征。

[0127] 其中，在一种可选方式中，基于深度特征权重，将深度特征及RGB特征进行深度残差连接，得到融合特征。

[0128] 需要说明的是，上述将深度特征及RGB特征进行深度残差连接得到融合特征的方式仅是一个具体示例，也可以通过其他方式(例如神经网络连接)得到深度特征权重，本公开实施例对此不做限定。

[0129] 其中，在一种可选方式中，将深度特征权重与深度特征相乘，得到加权深度特征；对加权深度特征和RGB特征进行连接，得到融合特征。

[0130] S104：基于融合特征，得到图像的处理结果。

[0131] 基于融合特征得到图像的处理结果，可应用于多个场景。例如，通过对深度图像的处理，能使室外检测任务的效果有所提升。因此可应用在例如实例分割以及一些检测任务(比如物体检测)等场景。

[0132] 可见，由于深度图像与RGB图像的关注点不同(RGB图像主要关注于物体的外观包括颜色、种类等；而深度图像主要关注与物体的外形轮廓)，而本公开实施例将二者进行有效融合，从而可提升例如室外场景下实例分割等应用场景的图像处理准确率。

[0133] 而且，利用注意力机制可有效地提取深度图像中需要关注的区域，通过过滤操作，可重点获取关注区域的目标信息以及抑制其他无用信息，从一定程度上补足RGB图像因光线等问题所引起的阴影遮挡问题。另外，利用残差结构将深度图像以不同权重融入到RGB图像中，使得最后的预测更加完善。

[0134] 下面结合图2-3，对本公开实施例提供的图像处理方法进行示例性说明。

[0135] 图2为本公开实施例的图像处理方法的示意图。

[0136] 对图2中各符号解释如下。

[0137] RGB代表RGB图像，Depth代表深度图像。T(I)和H(D)表示对RGB和Depth分别经过深度神经网络中具有相同结构的分支进行处理得到的特征。

[0138] R(I,D)为T(I)和H(D)经过级联的注意力门单元后得到的深度特征权重，例如注意力图。

[0139] P(I,D)为T(I)和H(D)经过残差连接后(基于R(I,D)对H(D)与T(I)进行融合)得到的最终预测特征图。

[0140] 图2示意出的图像处理方法的示例中，可以分成以下三个部分。首先，将RGB图像和深度图像输入到深度神经网络，利用相同的网络分支分别对RGB图像和深度图像进行处理，得到深度图像的特征图与RGB图像的特征图。其次，利用注意力门单元生成更显著的深度特征，使得深度图像中的边缘信息能够很好的体现。最后，利用深度残差连接将深度图像以不同权重与RGB图像结合，形成最后的预测图。本公开实施例能够适用于与深度图像相关的室外场景的任务中，比如室外物体检测等。

[0141] 下面结合深度神经网络的结构对上述三个部分进行详细的示例性说明。

[0142] 一、双分支特征表示(用于确定RGB特征以及深度特征)

[0143] 输入：RGB图像以及深度(Depth)图像。

[0144] 输出：双分支特征图，一个分支代表RGB特征(T(I))，另一分支代表深度特征(H(D))，双分支特征的形状和大小均相同。

[0145] 详细过程：运用深度学习神经网络的强大表征能力，将图片信息转化为特征图(三维图)形式，从而进行更有效的运算。在这个过程中，RGB图片与深度图经过相同的神经网络结构，提取出每一个候选区域，经过ROIAlign层，得到所需要的特征图。例如，T(I)为RGB经过深度学习RoIAlign层后的特征图，H(D)为深度图像经过RoIAlign层后的特征图。RoIAlign可以理解为一个简洁非量化的层，RoIAlign可以保留大致的空间位置。

[0146] 二、注意力门单元(用于确定深度特征权重)

[0147] 可以基于级联的注意力门单元确定深度特征权重。

[0148]

[0149] 其中，(R(I,D))是深度特征权重，O(i)是第i个门单元的输出。可以理解，将多个门单元的输出进行合并(即对多个区域特征进行合并)，得到深度特征权重。

[0150] 参见图3，为注意力门单元的内部原理示意图。

[0151] 输入：双分支结构输出(即前述的拼接特征：(C(I,D)))；以及，上一级门单元的输入(O(i-1))。

[0152] 输出：特征图(O(i))，即第i区域特征，表示主要关注区域的深度特征。

[0153] 注意力门单元的输入有两个，一个是C(I,D)，另一个是O(i-1)。其中C(I,D)是双分支的输出，也就是T(I)、H(D)的连接结果。在实际应用中，可以设置多个级联形式的注意力门单元，第一个门单元因为没有上一个门单元，可以将O(0)初始化为零。

[0154] 可选的，注意力门单元内部实现如下两个部分。

[0155] (1)信息过滤

[0156] 如图3所示右边部分的门机制，利用门过滤双分支结构与上一单元的输出，得到在这个单元中认为是重要的区域信息。

[0157] 首先，可以基于拼接特征C(I,D)和上一单元的输出O(i-1)，得到过滤参数[0158]

[0159] 其中，σ()表示sigmoid函数，⊙表示逐元素相乘。和是在训练过程中学习到的权重参数。

[0160] 然后，可以利用过滤参数对上一单元的输出O(i-1)进行过滤，得到第一过滤参数

[0161]

[0162] (2)信息备份

[0163] 由于考虑到在信息过滤中被丢弃的部分可能会对之后的信息处理造成影响，因此在这个部分结合原信息与被信息过滤部分丢弃的信息，进行新一层的过滤，传递到之后的门单元进行信息提取和过滤。如图3左半部分所示，首先，可以基于拼接特征C(I,D)和上一单元的输出O(i-1)，得到过滤参数

[0164]

[0165] 其中，和是网络训练过程中学习到的参数。和是利用相同的网络结构得到的，但相应的权重参数可以是分别训练的。

[0166] 然后，可以基于过滤参数对上一单元的输出O(i-1)的过滤，得到第二过滤特征

[0167]

[0168] 其中，ReLU()表示激活函数，和是网络训练过程中学习到的参数。最后，可以基于过滤参数对第二过滤特征进行备份，得到备份特征

[0169]

[0170] 信息备份部分得到的特征图与信息过滤部分的结果相加，得到第i个门单元的输出O(i)(即第i区域特征)。

[0171]

[0172] 三、深度图像残差连接(用于得到融合特征)

[0173] 输入：RGB以及深度图像的特征图(T(I)、H(D))以及级联的注意力门单元的输出(R(I,D))。

[0174] 输出：最后的预测特征图(P(I,D))，用于进行最后的掩膜预测。

[0175] 可以利用残差结构，将深度图像以不同权重融入到RGB图像中，使得模型能够对有用的信息更敏感，而抑制一些噪音与无用信息。

[0176] 具体融合过程可以表示例如为：

[0177] P(I，D)＝H(D)⊙R(I，D)+T(I) (8)

[0178] 可见，深度图像(H(D))以对应权重(R(I,D))融入到RGB图像(T(I))中。

[0179] 即：将深度特征权重与深度特征相乘，得到加权深度特征；对加权深度特征和RGB特征进行连接，得到融合特征。

[0180] 利用残差结构能有效地结合RGB图像和已经过滤的深度图像。残差结构能根据监督学习的特点，网络自动调整学习每个像素的不同权重，从而能够学出深度图像中的噪音和有用信息。实际应用中表明，深度特征图中外形轮廓部分的权重要大于其他部分，这也说明了这个网络结构能够很好地区分噪音和无用信息。

[0181] 本公开实施例提供的图像信息处理方法，利用注意力机制单元，能够不断优化与改善最后的注意力机制分布图，使得模型更关注于深度图像的边缘部分，同时剔除室外深度图中的噪音以及偏差部分；利用残差结构以不同权重融合深度图像，使得室外实例分割的结果更加准确。同时模型能考虑到各种影响深度图质量的因素进行综合分析。本公开实施例提供方案可以拓展到室外场景与深度图像相关的检测任务中。

[0182] 应理解，图2和图3所示的例子是为了帮助更好地理解本公开实施例，而不应理解成对本公开实施例的限定，例如，上述例子中的各种具体实现可以任意组合，本公开实施例中的部分流程也可以采用上述例子以外的其他公式或步骤来实现，例如，信息过滤部分采用上述例子中的具体实现方式，而信息备份部分采用其他实现方式，等等。

[0183] 还应理解，本文对技术方案的描述侧重于强调各个实施例的不同之处，其相似或相同之处可以相互参考，例如，图1所示的方法中的一个或多个流程和/或步骤可以采用图2和图3所示的例子中的具体实现方式或其他实现方式，本公开实施例对此不做限定。

[0184] 图4为本公开一个实施例图像处理装置的结构示意图。该实施例的装置可用于实现本公开上述各方法实施例。如图4所示，该实施例的装置包括:

[0185] 特征确定单元401，用于确定图像的RGB特征和深度特征；

[0186] 权重确定单元402，用于基于所述深度特征，得到深度特征权重；

[0187] 融合单元403，用于基于所述深度特征权重，将所述深度特征及所述RGB特征进行融合，得到融合特征；

[0188] 处理单元404，用于基于所述融合特征，得到所述图像的处理结果。

[0189] 在一种可选方式中，所述权重确定单元402具体用于：基于所述RGB特征和所述深度特征，得到深度特征权重。

[0190] 图5为本公开另一个实施例图像处理装置的结构示意图。该实施例的装置可用于实现本公开上述各方法实施例。

[0191] 特征确定单元501，用于确定图像的RGB特征和深度特征；

[0192] 权重确定单元502，用于基于所述深度特征，得到深度特征权重；

[0193] 融合单元503，用于基于所述深度特征权重，将所述深度特征及所述RGB特征进行融合，得到融合特征；

[0194] 处理单元504，用于基于所述融合特征，得到所述图像的处理结果。

[0195] 在一种可选方式中，所述权重确定单元502具体用于：基于所述RGB特征和所述深度特征，得到深度特征权重。

[0196] 在一种可选方式中，所述权重确定单元502包括：

[0197] 拼接子单元5021，用于对所述RGB特征和所述深度特征进行拼接处理，得到拼接特征；

[0198] 权重得到子单元5022，用于基于所述拼接特征，得到深度特征权重。

[0199] 在一种可选方式中，所述权重得到子单元5022具体用于：对所述拼接特征进行逐级过滤处理，得到多个区域特征；基于所述多个区域特征，得到深度特征权重。

[0200] 在一种可选方式中，所述权重得到子单元5022具体用于：将所述多个区域特征进行合并，得到所述深度特征权重。

[0201] 在一种可选方式中，所述权重得到子单元5022具体用于：对所述多个区域特征中的第i-1区域特征进行过滤处理，得到所述多个区域特征中的第i区域特征，其中，所述第i-1区域特征是基于所述拼接特征得到的，i>1。

[0202] 在一种可选方式中，所述权重得到子单元5022具体用于：对所述第i-1区域特征进行信息过滤，得到第一过滤特征；对所述第i-1区域特征进行信息备份，得到备份特征；基于所述第一过滤特征和所述备份特征，得到所述第i区域特征。

[0203] 在一种可选方式中，所述权重得到子单元5022具体用于：基于所述拼接特征和所述第i-1区域特征，得到过滤参数；基于所述过滤参数对所述第i-1区域特征进行信息过滤，得到所述第一过滤特征。

[0204] 在一种可选方式中，所述权重得到子单元5022具体用于：基于所述拼接特征和所述第i-1区域特征，得到第二过滤特征；基于所述过滤参数对所述第二过滤特征进行备份，得到所述备份特征。

[0205] 在一种可选方式中，所述权重得到子单元5022具体用于：将所述第一过滤特征和所述备份特征进行合并，得到所述第i区域特征。

[0206] 在一种可选方式中，所述融合单元505具体用于：基于所述深度特征权重，将深度特征及所述RGB特征进行深度残差连接，得到融合特征。

[0207] 在一种可选方式中，所述融合单元503包括：

[0208] 特征加权子单元5031，用于将所述深度特征权重与所述深度特征相乘，得到加权深度特征；

[0209] 连接子单元5032，用于对所述加权深度特征和所述RGB特征进行连接，得到融合特征。

[0210] 在一种可选方式中，所述特征确定单元501具体用于：利用深度神经网络，对图像对应的RGB图像和深度图像分别进行特征提取，得到所述图像的RGB特征和深度特征。

[0211] 在一种可选方式中，所述特征确定单元501包括：

[0212] 特征提取子单元5011，用于利用所述深度神经网络中具有相同结构的神经网络单元分别对所述图像对应的RGB图像和深度图像分别进行特征提取；

[0213] 特征得到子单元5012，用于得到所述图像的RGB特征和深度特征。

[0214] 在一些实施例中，本公开实施例提供的图像处理装置500可以用于执行上述任一方法实施例中的图像处理方法，为了简洁，这里不再赘述。

[0215] 本公开实施例还提供了一种电子设备，例如可以是移动终端、个人计算机(PC)、平板电脑、服务器等。下面参考图6，其示出了适于用来实现本申请实施例的终端设备或服务器的电子设备600的结构示意图：如图6所示，计算机系统600包括一个或多个处理器、通信部等，所述一个或多个处理器例如：一个或多个中央处理单元(CPU)601，和/或一个或多个图像处理器(GPU)613等，处理器可以根据存储在只读存储器(ROM)602中的可执行指令或者从存储部分608加载到随机访问存储器(RAM)603中的可执行指令而执行各种适当的动作和处理。通信部612可包括但不限于网卡，所述网卡可包括但不限于IB(Infiniband)网卡。

[0216] 处理器可与只读存储器602和/或随机访问存储器630中通信以执行可执行指令，通过总线604与通信部612相连、并经通信部612与其他目标设备通信，从而完成本申请实施例提供的任一项方法对应的操作，例如，确定图像的RGB特征和深度特征；基于所述深度特征，得到深度特征权重；基于所述深度特征权重，将所述深度特征及所述RGB特征进行融合，得到融合特征；基于所述融合特征，得到所述图像的处理结果。

[0217] 此外，在RAM 603中，还可存储有装置操作所需的各种程序和数据。CPU601、ROM602以及RAM603通过总线604彼此相连。在有RAM603的情况下，ROM602为可选模块。RAM603存储可执行指令，或在运行时向ROM602中写入可执行指令，可执行指令使处理器601执行上述通信方法对应的操作。输入/输出(I/O)接口605也连接至总线604。通信部612可以集成设置，也可以设置为具有多个子模块(例如多个IB网卡)，并在总线链接上。

[0218] 以下部件连接至I/O接口605：包括键盘、鼠标等的输入部分606；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607；包括硬盘等的存储部分608；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器610上，以便于从其上读出的计算机程序根据需要被安装入存储部分608。

[0219] 需要说明的，如图6所示的架构仅为一种可选实现方式，在具体实践过程中，可根据实际需要对上述图6的部件数量和类型进行选择、删减、增加或替换；在不同功能部件设置上，也可采用分离设置或集成设置等实现方式，例如GPU和CPU可分离设置或者可将GPU集成在CPU上，通信部可分离设置，也可集成设置在CPU或GPU上，等等。这些可替换的实施方式均落入本公开公开的保护范围。

[0220] 在一些实施例中，本公开实施例提供的电子设备600可以用于执行上述任一方法实施例中的图像处理方法，为了简洁，这里不再赘述。

[0221] 特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，计算机程序包含用于执行流程图所示的方法的程序代码，程序代码可包括对应执行本申请实施例提供的方法步骤对应的指令，例如，确定图像的RGB特征和深度特征；基于所述深度特征，得到深度特征权重；基于所述深度特征权重，将所述深度特征及所述RGB特征进行融合，得到融合特征；基于所述融合特征，得到所述图像的处理结果。在这样的实施例中，该计算机程序可以通过通信部分609从网络上被下载和安装，和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时，执行本申请的方法中限定的上述功能。

[0222] 本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

[0223] 可能以许多方式来实现本公开的方法和装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。本公开的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本公开限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本公开的原理和实际应用，并且使本领域的普通技术人员能够理解本公开从而设计适于特定用途的带有各种修改的各种实施例。

有效性	有效专利	专利类型	发明专利
申请号	CN201810159732.3	申请日	2018-02-26
公开/公告号	CN108389224B	公开/公告日	2020-11-27
授权日	2020-11-27	预估到期日	2038-02-26
申请年	2018年	公开/公告年	2020年
缴费截止日
分类号	G06T7/50 、G06T7/33	主分类号	G06T7/50
是否联合申请	独立申请	文献类型号	B
独权数量	1	从权数量	22
权利要求数量	23	非专利引证数量	1
引用专利数量	0	被引证专利数量	0
非专利引证	1、CN 105550687 A,2016.05.04Yanhua Cheng等.Locality-SensitiveDeconvolution Networks with Gated Fusionfor RGB-D Indoor Semantic Segmentation. 《2017 IEEE Conference on Computer Visionand Pattern Recognition (CVPR)》.2017,Seong-Jin Park等.RDFNet: RGB-D Multi-level Residual Feature Fusion for IndoorSemantic Segmentation《.2017 IEEEInternational Conference on ComputerVision (ICCV)》.2017,刘帆等.基于双流卷积神经网络的RGB-D图像联合检测《.激光与光电子学进展》.2017,;
引用专利		被引证专利
专利权维持	4	专利申请国编码	CN
专利事件		事务标签	公开、实质审查、授权

申请人	北京市商汤科技开发有限公司	第一申请人	北京市商汤科技开发有限公司
专利权人	北京市商汤科技开发有限公司	当前专利权人	北京市商汤科技开发有限公司
发明人	徐正天、刘枢、石建萍、卢策吾	第一发明人	徐正天
地址	北京市海淀区中关村东路1号院3号楼7层710-712房间	邮编	100084
申请人数量	1	发明人数量	4
申请人所在省	北京市	申请人所在市	北京市海淀区

首页 > 专利 > 北京市商汤科技开发有限公司 > 图像处理方法及装置、电子设备和存储介质专利详情

图像处理方法及装置、电子设备和存储介质 0 0

技术领域

背景技术

发明内容

实施方案

附图说明