首页 > 专利 > 上海商汤临港智能科技有限公司 > 图像处理方法及装置、电子设备、计算机可读存储介质专利详情

图像处理方法及装置、电子设备、计算机可读存储介质   0    0

有效专利 查看PDF
专利申请流程有哪些步骤?
专利申请流程图
申请
申请号:指国家知识产权局受理一件专利申请时给予该专利申请的一个标示号码。唯一性原则。
申请日:提出专利申请之日。
2020-01-19
申请公布
申请公布指发明专利申请经初步审查合格后,自申请日(或优先权日)起18个月期满时的公布或根据申请人的请求提前进行的公布。
申请公布号:专利申请过程中,在尚未取得专利授权之前,国家专利局《专利公报》公开专利时的编号。
申请公布日:申请公开的日期,即在专利公报上予以公开的日期。
2020-07-03
授权
授权指对发明专利申请经实质审查没有发现驳回理由,授予发明专利权;或对实用新型或外观设计专利申请经初步审查没有发现驳回理由,授予实用新型专利权或外观设计专利权。
2022-05-24
预估到期
发明专利权的期限为二十年,实用新型专利权期限为十年,外观设计专利权期限为十五年,均自申请日起计算。专利届满后法律终止保护。
2040-01-19
基本信息
有效性 有效专利 专利类型 发明专利
申请号 CN202010062779.5 申请日 2020-01-19
公开/公告号 CN111260666B 公开/公告日 2022-05-24
授权日 2022-05-24 预估到期日 2040-01-19
申请年 2020年 公开/公告年 2022年
缴费截止日
分类号 G06T7/11G06T7/194G06T3/40G06T5/50 主分类号 G06T7/11
是否联合申请 独立申请 文献类型号 B
独权数量 1 从权数量 19
权利要求数量 20 非专利引证数量 0
引用专利数量 6 被引证专利数量 0
非专利引证
引用专利 CN109544560A、CN110490878A、CN110298298A、CN110322495A、CN110675403A、US2019096125A1 被引证专利
专利权维持 2 专利申请国编码 CN
专利事件 事务标签 公开、实质审查、授权
申请人信息
申请人 第一申请人
专利权人 上海商汤临港智能科技有限公司 当前专利权人 上海商汤临港智能科技有限公司
发明人 王炣文、程光亮 第一发明人 王炣文
地址 上海市浦东新区自由贸易试验区临港新片区泥城镇秋山路1775弄29、30号2楼01室 邮编 200232
申请人数量 1 发明人数量 2
申请人所在省 上海市 申请人所在市 上海市浦东新区
代理人信息
代理机构
专利代理机构是经省专利管理局审核,国家知识产权局批准设立,可以接受委托人的委托,在委托权限范围内以委托人的名义办理专利申请或其他专利事务的服务机构。
北京中知恒瑞知识产权代理事务所 代理人
专利代理师是代理他人进行专利申请和办理其他专利事务,取得一定资格的人。
王文红
摘要
本公开提供了一种图像处理方法及装置、电子设备、计算机可读存储介质,其中,本公开基于目标图像对应于不同的预设尺度的图像特征图,确定了目标图像中每个像素点属于前景的第一概率和属于背景的第二概率,利用确定的上述第一概率和第二概率,基于实际分割需求对图像特征图中的像素点进行加强或减弱处理,从而突出目标图像中的背景或者前景,进而实现对目标图像中不同对象以及对象与背景的精准分割,即有利于提高全景分割的准确度。
  • 摘要附图
    图像处理方法及装置、电子设备、计算机可读存储介质
  • 说明书附图:图1
    图像处理方法及装置、电子设备、计算机可读存储介质
  • 说明书附图:图2
    图像处理方法及装置、电子设备、计算机可读存储介质
  • 说明书附图:图3
    图像处理方法及装置、电子设备、计算机可读存储介质
  • 说明书附图:图4
    图像处理方法及装置、电子设备、计算机可读存储介质
  • 说明书附图:图5
    图像处理方法及装置、电子设备、计算机可读存储介质
  • 说明书附图:图6
    图像处理方法及装置、电子设备、计算机可读存储介质
  • 说明书附图:图7
    图像处理方法及装置、电子设备、计算机可读存储介质
  • 说明书附图:图8
    图像处理方法及装置、电子设备、计算机可读存储介质
  • 说明书附图:图9
    图像处理方法及装置、电子设备、计算机可读存储介质
法律状态
序号 法律状态公告日 法律状态 法律状态信息
1 2022-05-24 授权
2 2020-07-03 实质审查的生效 IPC(主分类): G06T 7/11 专利申请号: 202010062779.5 申请日: 2020.01.19
3 2020-06-09 公开
权利要求
权利要求书是申请文件最核心的部分,是申请人向国家申请保护他的发明创造及划定保护范围的文件。
1.一种图像处理方法,其特征在于,包括:
确定目标图像对应于不同的预设尺度的图像特征图;
基于多个所述图像特征图,确定所述目标图像中每个像素点属于前景的第一概率和属于背景的第二概率;
根据由多个所述图像特征图拼接得到的第二拼接特征图和所述目标图像中每个像素点属于背景的第二概率,确定语义分割分对数;
根据多个所述图像特征图和所述目标图像中每个像素点属于前景的第一概率,确定所述目标图像中各个对象的初始边界框、各个对象的实例类别以及各个对象的实例分割分对数;
根据所述语义分割分对数、各个对象的初始边界框、各个对象的实例类别和所述实例分割分对数,确定所述目标图像中的背景以及前景中的对象的边界框和实例类别。

2.根据权利要求1所述的图像处理方法,其特征在于,所述确定目标图像对应于不同的预设尺度的图像特征图,包括:
对目标图像进行特征提取,得到每个预设尺度的第一特征图;
将多个所述第一特征图进行拼接,并从拼接得到的第一拼接特征图中提取图像特征,得到所述目标图像对应于最大预设尺度的第二特征图;
基于多个所述第一特征图和所述目标图像对应于最大预设尺度的第二特征图,确定目标图像对应于不同的预设尺度的图像特征图。

3.根据权利要求2所述的图像处理方法,其特征在于,所述基于多个所述第一特征图和所述目标图像对应于最大预设尺度的第二特征图,确定目标图像对应于不同的预设尺度的图像特征图,包括:
针对除最大预设尺度以外的每个预设尺度,基于与该预设尺度相邻的、大于该预设尺度的预设尺度的第一特征图和第二特征图,确定该预设尺度对应的第二特征图;
针对每个预设尺度,基于该预设尺度对应的第一特征图和该预设尺度对应第二特征图,确定目标图像对应于该预设尺度的图像特征图。

4.根据权利要求2所述的图像处理方法,其特征在于,所述将多个所述第一特征图进行拼接,包括:
对除最大预设尺度对应的第一特征图以外的每个不同预设尺度的第一特征图分别进行上采样处理,得到上采样处理后的各个第一特征图;其中,上采样处理后的各个第一特征图的尺度均为最大预设尺度;
将最大预设尺度对应的第一特征图和上采样处理后的各个第一特征图进行拼接。

5.根据权利要求1至4任一项所述的图像处理方法,其特征在于,所述基于多个所述图像特征图,确定所述目标图像中每个像素点属于前景的第一概率和属于背景的第二概率,包括:
对除最大预设尺度对应的图像特征图以外的每个图像特征图分别进行上采样处理,得到上采样处理后的各个图像特征图;其中,上采样处理后的各个图像特征图的尺度均为最大预设尺度;
将最大预设尺度对应的图像特征图和上采样处理后的各个图像特征图进行拼接,得到第二拼接特征图;
基于拼接得到的第二拼接特征图,确定所述目标图像中每个像素点属于前景的第一概率和属于背景的第二概率。

6.根据权利要求5所述的图像处理方法,其特征在于,所述目标图像中一个像素点属于背景的第二概率越大,该像素点对应的第一缩放比值就越大;所述目标图像中一个像素点对应的第一缩放比值为该像素点在所述语义分割分对数中对应的值与该像素点在所述第二拼接特征图中对应的值之比;所述目标图像中一个像素点属于前景的第一概率越大,该像素点对应的第二缩放比值越大;所述目标图像中一个像素点对应的第二缩放比值为该像素点在所述实例分割分对数中对应的值与该像素点在多个所述图像特征图中对应的值之比;
所述根据所述语义分割分对数、各个对象的初始边界框、各个对象的实例类别和所述实例分割分对数,确定所述目标图像中的背景以及前景中的对象的边界框和实例类别,包括:
根据各个对象初始边界框以及实例类别从所述语义分割分对数中确定出各个对象对应的语义分割分对数;
根据各个对象对应的语义分割分对数以及所述实例分割分对数,确定所述目标图像的全景分割分对数;
根据所述目标的全景分割分对数确定所述目标图像中的背景以及前景中的对象的边界框和实例类别。

7.根据权利要求1‑4任一所述的图像处理方法,其特征在于,所述图像处理方法由神经网络执行,所述神经网络采用样本图像训练得到,所述样本图像中包括对象的标注的实例类别及其标注的掩膜信息。

8.根据权利要求7所述的图像处理方法,其特征在于,所述神经网络采用以下步骤训练得到:
利用所述神经网络确定样本图像对应于不同的预设尺度的样本图像特征图、所述样本图像中每个像素点属于前景的第一样本概率和属于背景的第二样本概率;
所述神经网络根据多个所述样本图像特征图、多个所述第一样本概率和多个所述第二样本概率对所述样本图像进行全景分割,输出所述样本图像中各个对象的实例类别及其掩膜信息;
基于所述神经网络输出的所述样本图像中各个对象的掩膜信息和各个对象标注的掩膜信息,确定网络损失函数;
利用确定的所述网络损失函数调整所述神经网络中的网络参数。

9.根据权利要求8所述的图像处理方法,其特征在于,所述基于所述神经网络输出的所述样本图像中各个对象的掩膜信息和各个对象标注的掩膜信息,确定网络损失函数,包括:
确定所述神经网络输出的所述样本图像中各个对象的掩膜信息和各个对象标注的掩膜信息之间相同的信息,得到掩膜交集信息;
确定所述神经网络输出的所述样本图像中各个对象的掩膜信息和各个对象标注的掩膜信息合并后的信息,得到掩膜并集信息;
基于确定的所述掩膜交集信息和所述掩膜并集信息,确定所述网络损失函数。

10.一种图像处理装置,其特征在于,包括:
特征图确定模块,用于确定目标图像对应于不同的预设尺度的图像特征图;
前背景处理模块,用于基于多个所述图像特征图,确定所述目标图像中每个像素点属于前景的第一概率和属于背景的第二概率;
全景分析模块,用于根据由多个所述图像特征图拼接得到的第二拼接特征图和所述目标图像中每个像素点属于背景的第二概率,确定语义分割分对数;
根据多个所述图像特征图和所述目标图像中每个像素点属于前景的第一概率,确定所述目标图像中各个对象的初始边界框、各个对象的实例类别以及各个对象的实例分割分对数;
根据所述语义分割分对数、各个对象的初始边界框、各个对象的实例类别和所述实例分割分对数,确定所述目标图像中的背景以及前景中的对象的边界框和实例类别。

11.根据权利要求10所述的图像处理装置,其特征在于,所述特征图确定模块用于:
对目标图像进行特征提取,得到每个预设尺度的第一特征图;
将多个所述第一特征图进行拼接,并从拼接得到的第一拼接特征图中提取图像特征,得到所述目标图像对应于最大预设尺度的第二特征图;
基于多个所述第一特征图和所述目标图像对应于最大预设尺度的第二特征图,确定目标图像对应于不同的预设尺度的图像特征图。

12.根据权利要求11所述的图像处理装置,其特征在于,所述特征图确定模块在基于多个所述第一特征图和所述目标图像对应于最大预设尺度的第二特征图,确定目标图像对应于不同的预设尺度的图像特征图时,用于:
针对除最大预设尺度以外的每个预设尺度,基于与该预设尺度相邻的、大于该预设尺度的预设尺度的第一特征图和第二特征图,确定该预设尺度对应的第二特征图;
针对每个预设尺度,基于该预设尺度对应的第一特征图和该预设尺度对应第二特征图,确定目标图像对应于该预设尺度的图像特征图。

13.根据权利要求11所述的图像处理装置,其特征在于,所述特征图确定模块在将多个所述第一特征图进行拼接时,用于:
对除最大预设尺度对应的第一特征图以外的每个不同预设尺度的第一特征图分别进行上采样处理,得到上采样处理后的各个第一特征图;其中,上采样处理后的各个第一特征图的尺度均为最大预设尺度;
将最大预设尺度对应的第一特征图和上采样处理后的各个第一特征图进行拼接。

14.根据权利要求10至13任一项所述的图像处理装置,其特征在于,所述前背景处理模块用于:
对除最大预设尺度对应的图像特征图以外的每个图像特征图分别进行上采样处理,得到上采样处理后的各个图像特征图;其中,上采样处理后的各个图像特征图的尺度均为最大预设尺度;
将最大预设尺度对应的图像特征图和上采样处理后的各个图像特征图进行拼接,得到第二拼接特征图;
基于拼接得到的第二拼接特征图,确定所述目标图像中每个像素点属于前景的第一概率和属于背景的第二概率。

15.根据权利要求14所述的图像处理装置,其特征在于,所述目标图像中一个像素点属于背景的第二概率越大,该像素点对应的第一缩放比值就越大;所述目标图像中一个像素点对应的第一缩放比值为该像素点在所述语义分割分对数中对应的值与该像素点在所述第二拼接特征图中对应的值之比;所述目标图像中一个像素点属于前景的第一概率越大,该像素点对应的第二缩放比值越大;所述目标图像中一个像素点对应的第二缩放比值为该像素点在所述实例分割分对数中对应的值与该像素点在多个所述图像特征图中对应的值之比;
所述全景分析模块用于:根据各个对象初始边界框以及实例类别从所述语义分割分对数中确定出各个对象对应的语义分割分对数;
根据各个对象对应的语义分割分对数以及所述实例分割分对数,确定所述目标图像的全景分割分对数;
根据所述目标的全景分割分对数确定所述目标图像中的背景以及前景中的对象的边界框和实例类别。

16.根据权利要求10‑13任一所述的图像处理装置,其特征在于,所述图像处理装置利用神经网络对所述目标图像进行全景分割,所述神经网络采用样本图像训练得到,所述样本图像中包括对象的标注的实例类别及其标注的掩膜信息。

17.根据权利要求16所述的图像处理装置,其特征在于,还包括神经网络训练模块,所述神经网络训练模块采用以下步骤训练所述神经网络:
利用所述神经网络确定样本图像对应于不同的预设尺度的样本图像特征图、所述样本图像中每个像素点属于前景的第一样本概率和属于背景的第二样本概率;
所述神经网络根据多个所述样本图像特征图、多个所述第一样本概率和多个所述第二样本概率对所述样本图像进行全景分割,输出所述样本图像中各个对象的实例类别及其掩膜信息;
基于所述神经网络输出的所述样本图像中各个对象的掩膜信息和各个对象标注的掩膜信息,确定网络损失函数;
利用确定的所述网络损失函数调整所述神经网络中的网络参数。

18.根据权利要求17所述的图像处理装置,其特征在于,所述神经网络训练模块在基于所述神经网络输出的所述样本图像中各个对象的掩膜信息和各个对象标注的掩膜信息,确定网络损失函数时,用于:
确定所述神经网络输出的所述样本图像中各个对象的掩膜信息和各个对象标注的掩膜信息之间相同的信息,得到掩膜交集信息;
确定所述神经网络输出的所述样本图像中各个对象的掩膜信息和各个对象标注的掩膜信息合并后的信息,得到掩膜并集信息;
基于确定的所述掩膜交集信息和所述掩膜并集信息,确定所述网络损失函数。

19.一种电子设备,其特征在于,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行如权利要求1~9任一所述的图像处理方法。

20.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1~9任一所述的图像处理方法。
说明书

技术领域

[0001] 本公开涉及计算机技术、图像处理领域,具体而言,涉及一种图像处理方法及装置、电子设备、计算机可读存储介质。

背景技术

[0002] 自动驾驶作为新兴的前沿技术被很多科研单位和机构研究。其中,场景感知是自动驾驶技术的基础,精确的场景感知有利于为自动驾驶提供准确的控制信号,以提高自动驾驶控制的精确度和安全性。
[0003] 场景感知具体用来对图像进行全景分割,预测图像中每个对象的实例类别以及确定每个对象的边界框,之后,自动驾驶技术基于预测的实例类别和边界框,生成控制自动驾驶部件行驶的控制信号。目前的场景感知中存在预测精确度低的缺陷。

发明内容

[0004] 有鉴于此,本公开至少提供一种图像处理方法及装置。
[0005] 第一方面,本公开提供了一种图像处理方法,包括:
[0006] 确定目标图像对应于不同的预设尺度(scale)的图像特征图;
[0007] 基于多个所述图像特征图,确定所述目标图像中每个像素点属于前景的第一概率和属于背景的第二概率;
[0008] 基于多个所述图像特征图、多个所述第一概率和多个所述第二概率,对所述目标图像进行全景分割。
[0009] 上述实施方式基于目标图像对应于不同的预设尺度的图像特征图,确定了目标图像中每个像素点属于前景的第一概率和属于背景的第二概率,利用确定的上述第一概率和第二概率,基于实际分割需求对图像特征图中的像素点进行加强或减弱处理,从而突出目标图像中的背景或者前景,进而实现对目标图像中不同对象以及对象与背景的精准分割,即有利于提高全景分割的准确度。
[0010] 在一种可能的实施方式中,所述确定目标图像对应于不同的预设尺度的图像特征图,包括:
[0011] 对目标图像进行特征提取,得到每个预设尺度的第一特征图;
[0012] 将多个所述第一特征图进行拼接,并从拼接得到的第一拼接特征图中提取图像特征,得到所述目标图像对应于最大预设尺度的第二特征图;
[0013] 基于多个所述第一特征图和所述目标图像对应于最大预设尺度的第二特征图,确定目标图像对应于不同的预设尺度的图像特征图。
[0014] 上述实施方式对目标图像对应于每个预设尺度的初始特征图,即第一特征图进行拼接融合,之后利用拼接融合后得到的第二特征图,重新确定目标图像对应于每个预设尺度的特征图,即上述图像特征图,能够更加充分的挖掘目标图像中的图像特征信息,有利于提高全景分割的准确度。
[0015] 在一种可能的实施方式中,所述基于多个所述第一特征图和所述目标图像对应于最大预设尺度的第二特征图,确定目标图像对应于不同的预设尺度的图像特征图,包括:
[0016] 针对除最大预设尺度以外的每个预设尺度,基于与该预设尺度相邻的、大于该预设尺度的预设尺度的第一特征图和第二特征图,确定该预设尺度对应的第二特征图;
[0017] 针对每个预设尺度,基于该预设尺度对应的第一特征图和该预设尺度对应第二特征图,确定目标图像对应于该预设尺度的图像特征图。
[0018] 上述实施方式按照预设尺度从高到低的顺序,结合前一个预设尺度的第一特征图和第二特征图来确定当前预设尺度的第二特征图,再基于当前预设尺度的第二特征图和第一特征图最终确定当前预设尺度的图像特征图,实现了在确定每个预设尺度对应的图像特征图时,充分融合其他预设尺度对应的特征图的信息,能够更加充分的挖掘目标图像中的图像特征信息,从而提高了确定的各预设尺度对应的图像特征图的准确性和完整性。
[0019] 在一种可能的实施方式中,所述将多个所述第一特征图进行拼接,包括:
[0020] 对除最大预设尺度对应的第一特征图以外的每个不同预设尺度的第一特征图分别进行上采样处理,得到上采样处理后的各个第一特征图;其中,上采样处理后的各个第一特征图的尺度均为最大预设尺度;
[0021] 将最大预设尺度对应的第一特征图和上采样处理后的各个第一特征图进行拼接。
[0022] 上述实施方式将低于最高预设尺度的第一特征图进行上采样处理,使得全部的第一特征图具有相同的尺度之后,才进行拼接,能够保证特征图拼接的准确性,从而有利于提高全景分割的准确度。
[0023] 在一种可能的实施方式中,所述基于多个所述图像特征图,确定所述目标图像中每个像素点属于前景的第一概率和属于背景的第二概率,包括:
[0024] 对除最大预设尺度对应的图像特征图以外的每个图像特征图分别进行上采样处理,得到上采样处理后的各个图像特征图;其中,上采样处理后的各个图像特征图的尺度均为最大预设尺度;
[0025] 将最大预设尺度对应的图像特征图和上采样处理后的各个图像特征图进行拼接,得到第二拼接特征图;
[0026] 基于拼接得到的第二拼接特征图,确定所述目标图像中每个像素点属于前景的第一概率和属于背景的第二概率。
[0027] 上述实施方式将低于最高预设尺度的图像特征图进行上采样处理,使得全部的图像特征图具有相同的尺度之后,才进行拼接,能够保证特征图拼接的准确性,从而有利于提高全景分割的准确度。
[0028] 在一种可能的实施方式中,所述基于多个所述图像特征图、多个所述第一概率和多个所述第二概率,对所述目标图像进行全景分割,包括:
[0029] 根据由所述多个图像特征图拼接得到的第二拼接特征图和所述目标图像中每个像素点属于背景的第二概率,确定语义分割分对数(logits);其中,所述目标图像中一个像素点属于背景的第二概率越大,该像素点对应的第一缩放比值就越大;所述目标图像中一个像素点对应的第一缩放比值为该像素点在所述语义分割分对数中对应的值与该像素点在所述第二拼接特征图中对应的值之比;
[0030] 根据所述多个图像特征图和所述目标图像中每个像素点属于前景的第一概率,确定所述目标图像中各个对象的初始边界框、各个对象的实例类别以及各个对象的实例分割分对数;其中,所述目标图像中一个像素点属于前景的第一概率越大,该像素点对应的第二缩放比值就越大;所述目标图像中一个像素点对应的第二缩放比值为该像素点在所述实例分割分对数中对应的值与该像素点在所述多个图像特征图中对应的值之比;
[0031] 根据各个对象初始边界框以及实例类别从所述语义分割分对数中确定出各个对象对应的语义分割分对数;
[0032] 根据各个对象对应的语义分割分对数以及所述实例分割分对数,确定所述目标图像的全景分割分对数;
[0033] 根据所述目标的全景分割分对数确定所述目标图像中的背景以及前景中的对象的边界框和实例类别。
[0034] 上述实施方式基于目标图像中像素点属于背景的第二概率对背景图像像素点对应的特征像素点进行增强,基于目标图像中像素点属于前景的第一概率对前景图像像素点对应的特征像素点进行增强,利用增强处理后的特征图来确定全景分割分对数,以利用全景分割分对数对目标图像进行全景分割,能够提高全景分割的准确度。
[0035] 在一种可能的实施方式中,上述图像处理方法由神经网络执行,所述神经网络采用样本图像训练得到,所述样本图像中包括对象的标注的实例类别及其标注的掩膜信息。
[0036] 在一种可能的实施方式中,所述神经网络采用以下步骤训练得到:
[0037] 利用所述神经网络确定样本图像对应于不同的预设尺度的样本图像特征图、所述样本图像中每个像素点属于前景的第一样本概率和属于背景的第二样本概率;
[0038] 所述神经网络根据所述多个样本图像特征图、多个所述第一样本概率和多个所述第二样本概率对所述样本图像进行全景分割,输出所述样本图像中各个对象的实例类别及其掩膜信息;
[0039] 基于所述神经网络输出的所述样本图像中各个对象的掩膜信息和各个对象标注的掩膜信息,确定网络损失函数;
[0040] 利用确定的所述网络损失函数调整所述神经网络中的网络参数。
[0041] 上述方式利用标注的掩膜信息和神经网络预测的掩膜信息确定网络损失函数,以利用确定的网络损失函数来进行神经网络的训练,能够提高训练得到的神经网络进行全景分割的准确性。
[0042] 在一种可能的实施方式中,所述基于所述神经网络输出的所述样本图像中各个对象的掩膜信息和各个对象标注的掩膜信息,确定网络损失函数,包括:
[0043] 确定所述神经网络输出的所述样本图像中各个对象的掩膜信息和各个对象标注的掩膜信息之间相同的信息,得到掩膜交集信息;
[0044] 确定所述神经网络输出的所述样本图像中各个对象的掩膜信息和各个对象标注的掩膜信息合并后的信息,得到掩膜并集信息;
[0045] 基于确定的所述掩膜交集信息和所述掩膜并集信息,确定所述网络损失函数。
[0046] 上述实施方式中,利用标注的掩膜信息和神经网络预测的掩膜信息确定网络损失函数之间的交集和并集,确定网络损失函数,即确定了交并比iou损失函数,利用iou损失函数能够提高训练得到的神经网络进行全景分割的准确性。
[0047] 第二方面,本公开提供了一种图像处理装置,包括:
[0048] 特征图确定模块,用于确定目标图像对应于不同的预设尺度的图像特征图;
[0049] 前背景处理模块,用于基于多个所述图像特征图,确定所述目标图像中每个像素点属于前景的第一概率和属于背景的第二概率;
[0050] 全景分析模块,用于基于多个所述图像特征图、多个所述第一概率和多个所述第二概率,对所述目标图像进行全景分割。
[0051] 在一种可能的实施方式中,所述特征图确定模块用于:
[0052] 对目标图像进行特征提取,得到每个预设尺度的第一特征图;
[0053] 将多个所述第一特征图进行拼接,并从拼接得到的第一拼接特征图中提取图像特征,得到所述目标图像对应于最大预设尺度的第二特征图;
[0054] 基于多个所述第一特征图和所述目标图像对应于最大预设尺度的第二特征图,确定目标图像对应于不同的预设尺度的图像特征图。
[0055] 在一种可能的实施方式中,所述特征图确定模块在基于多个所述第一特征图和所述目标图像对应于最大预设尺度的第二特征图,确定目标图像对应于不同的预设尺度的图像特征图时,用于:
[0056] 针对除最大预设尺度以外的每个预设尺度,基于与该预设尺度相邻的、大于该预设尺度的预设尺度的第一特征图和第二特征图,确定该预设尺度对应的第二特征图;
[0057] 针对每个预设尺度,基于该预设尺度对应的第一特征图和该预设尺度对应第二特征图,确定目标图像对应于该预设尺度的图像特征图。
[0058] 在一种可能的实施方式中,所述特征图确定模块在将多个所述第一特征图进行拼接时,用于:
[0059] 对除最大预设尺度对应的第一特征图以外的每个不同预设尺度的第一特征图分别进行上采样处理,得到上采样处理后的各个第一特征图;其中,上采样处理后的各个第一特征图的尺度均为最大预设尺度;
[0060] 将最大预设尺度对应的第一特征图和上采样处理后的各个第一特征图进行拼接。
[0061] 在一种可能的实施方式中,所述前背景处理模块用于:
[0062] 对除最大预设尺度对应的图像特征图以外的每个图像特征图分别进行上采样处理,得到上采样处理后的各个图像特征图;其中,上采样处理后的各个图像特征图的尺度均为最大预设尺度;
[0063] 将最大预设尺度对应的图像特征图和上采样处理后的各个图像特征图进行拼接,得到第二拼接特征图;
[0064] 基于拼接得到的第二拼接特征图,确定所述目标图像中每个像素点属于前景的第一概率和属于背景的第二概率。
[0065] 在一种可能的实施方式中,所述全景分析模块用于:
[0066] 根据由所述多个图像特征图拼接得到的第二拼接特征图和所述目标图像中每个像素点属于背景的第二概率,确定语义分割分对数;其中,所述目标图像中一个像素点属于背景的第二概率越大,该像素点对应的第一缩放比值就越大;所述目标图像中一个像素点对应的第一缩放比值为该像素点在所述语义分割分对数中对应的值与该像素点在所述第二拼接特征图中对应的值之比;
[0067] 根据所述多个图像特征图和所述目标图像中每个像素点属于前景的第一概率,确定所述目标图像中各个对象的初始边界框、各个对象的实例类别以及各个对象的实例分割分对数;其中,所述目标图像中一个像素点属于前景的第一概率越大,该像素点对应的第二缩放比值就越大;所述目标图像中一个像素点对应的第二缩放比值为该像素点在所述实例分割分对数中对应的值与该像素点在所述多个图像特征图中对应的值之比;
[0068] 根据各个对象初始边界框以及实例类别从所述语义分割分对数中确定出各个对象对应的语义分割分对数;
[0069] 根据各个对象对应的语义分割分对数以及所述实例分割分对数,确定所述目标图像的全景分割分对数;
[0070] 根据所述目标的全景分割分对数确定所述目标图像中的背景以及前景中的对象的边界框和实例类别。
[0071] 在一种可能的实施方式中,所述图像处理装置利用神经网络对所述目标图像进行全景分割,所述神经网络采用样本图像训练得到,所述样本图像中包括对象的标注的实例类别及其标注的掩膜信息。
[0072] 在一种可能的实施方式中,上述装置还包括神经网络训练模块,所述神经网络训练模块络采用以下步骤训练所述神经网络:
[0073] 利用所述神经网络确定样本图像对应于不同的预设尺度的样本图像特征图、所述样本图像中每个像素点属于前景的第一样本概率和属于背景的第二样本概率;
[0074] 所述神经网络根据所述多个样本图像特征图、多个所述第一样本概率和多个所述第二样本概率对所述样本图像进行全景分割,输出所述样本图像中各个对象的实例类别及其掩膜信息;
[0075] 基于所述神经网络输出的所述样本图像中各个对象的掩膜信息和各个对象标注的掩膜信息,确定网络损失函数;
[0076] 利用确定的所述网络损失函数调整所述神经网络中的网络参数。
[0077] 在一种可能的实施方式中,所述神经网络训练模块在基于所述神经网络输出的所述样本图像中各个对象的掩膜信息和各个对象标注的掩膜信息,确定网络损失函数时,用于:
[0078] 确定所述神经网络输出的所述样本图像中各个对象的掩膜信息和各个对象标注的掩膜信息之间相同的信息,得到掩膜交集信息;
[0079] 确定所述神经网络输出的所述样本图像中各个对象的掩膜信息和各个对象标注的掩膜信息合并后的信息,得到掩膜并集信息;
[0080] 基于确定的所述掩膜交集信息和所述掩膜并集信息,确定所述网络损失函数。
[0081] 第三方面,本公开提供了一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如上述图像处理方法的步骤。
[0082] 第四方面,本公开还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上述图像处理方法的步骤。
[0083] 本公开上述装置、电子设备、和计算机可读存储介质,至少包含与本公开上述方法的任一方面或任一方面的任一实施方式的技术特征实质相同或相似的技术特征,因此关于上述装置、电子设备、和计算机可读存储介质的效果描述,可以参见上述方法内容的效果描述,这里不再赘述。

实施方案

[0094] 为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,应当理解,本公开中附图仅起到说明和描述的目的,并不用于限定本公开的保护范围。另外,应当理解,示意性的附图并未按实物比例绘制。本公开中使用的流程图示出了根据本公开的一些实施例实现的操作。应该理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外,本领域技术人员在本公开内容的指引下,可以向流程图添加一个或多个其他操作,也可以从流程图中移除一个或多个操作。
[0095] 另外,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围,而是仅仅表示本公开的选定实施例。基于本公开的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
[0096] 为了使得本领域技术人员能够使用本公开内容,结合特定应用场景“自动驾驶技术中使用的场景感知”,给出以下实施方式。对于本领域技术人员来说,在不脱离本公开的精神和范围的情况下,可以将这里定义的一般原理应用于其他需要进行场景感知的实施例和应用场景。虽然本公开主要围绕自动驾驶技术中使用的场景感知进行描述,但是应该理解,这仅是一个示例性实施例。
[0097] 需要说明的是,本公开实施例中将会用到术语“包括”,用于指出其后所声明的特征的存在,但并不排除增加其它的特征。
[0098] 针对如何提高场景感知中全景分割的准确度,本公开提供了一种图像处理方法及装置、电子设备、计算机可读存储介质。本公开基于目标图像对应于不同的预设尺度的图像特征图,确定了目标图像中每个像素点属于前景的第一概率和属于背景的第二概率,利用确定的上述第一概率和第二概率,基于实际分割需求对图像特征图中的像素点进行加强或减弱处理,从而突出目标图像中的背景或者前景,进而实现对目标图像中不同对象以及对象与背景的精准分割,即有利于提高全景分割的准确度。
[0099] 下面通过具体的实施例对本公开的图像处理方法及装置、电子设备、计算机可读存储介质进行说明。
[0100] 本公开实施例提供了一种图像处理方法,该方法应用于进行场景感知,即对图像进行全景分割的终端设备。具体地,如图1所示,本公开实施例提供的图像处理方法包括如下步骤:
[0101] S110、确定目标图像对应于不同的预设尺度的图像特征图。
[0102] 这里目标图像可以是自动驾驶设备在驾驶过程中利用摄像头拍摄的图像。
[0103] 这里,不同的预设尺度的图像特征图可以是由具有预设尺度对应的数量的卷积核的卷积神经网络对输入的图像或特征图进行处理后得到的。如图2所示,特征图l2和特征图p2拼接后,经过一个卷积神经网络的处理,可以输出该卷积神经网络对应的预设尺度的图像特征图。
[0104] S120、基于多个所述图像特征图,确定所述目标图像中每个像素点属于前景的第一概率和属于背景的第二概率。
[0105] 这里,可以先对多个图像特征图进行采样处理,使不同预设尺度的图像特征图具有相同的尺度后,将各个图像特征图进行拼接,再基于拼接后的特征图,确定目标图像中每个像素点属于前景的第一概率和属于背景的第二概率。
[0106] S130、基于多个所述图像特征图、多个所述第一概率和多个所述第二概率,对所述目标图像进行全景分割。
[0107] 这里,对目标图像进行全景分割,能够确定目标图像中的背景以及前景中的对象的边界框和实例类别。
[0108] 这里,可以基于第一概率和第二概率对图像特征图中的对应于目标图像中的前景的特征像素点和对应于目标图像中的背景的特征像素点进行加强处理,从而有利于实现对目标图像中像素点的精准分割,即有利于提高对目标图像进行全景分割的准确度。
[0109] 在一些实施例中,如图3所示,上述确定目标图像对应于不同的预设尺度的图像特征图,具体可以利用如下步骤实现:
[0110] S310、对目标图像进行特征提取,得到每个预设尺度的第一特征图。
[0111] 这里,可以利用具有预设尺度对应数量的卷积核的卷积神经网络对输入的图像或特征图进行特征提取,得到每个预设尺度对应的第一特征图。例如,可以利用如图2中的多尺度目标检测算法FPN(feature pyramid networks)部分来确定每个预设尺度对应的第一特征图,即卷积神经网络输出的特征图p2、p3、p4和p5。
[0112] 图2中,c2、c3、c4、c5、p2、p3、p4和p5均是利用卷积神经网络进行特征提取得到的特征图;其中,c2和p2具有相同的预设尺度,c3和p3具有相同的预设尺度,c4和p4具有相同的预设尺度,c5和p5具有相同的预设尺度。特征图c2是利用卷积神经网络直接对目标图像进行特征提取得到的特征图,其他特征图均是利用卷积神经网络对前一个特征图进行特征提取得到的特征图。
[0113] S320、将多个所述第一特征图进行拼接,并从拼接得到的第一拼接特征图中提取图像特征,得到所述目标图像对应于最大预设尺度的第二特征图。
[0114] 这里,在对不同预设尺度的第一特征图进行拼接之前,还需要按照所述不同的预设尺度中的最大预设尺度,对除最大预设尺度对应的第一特征图以外的每个第一特征图分别进行上采样处理。上采样处理后,所有的第一特征图均为具有最大预设尺度的特征图。之后,将所有的第一特征图进行拼接。
[0115] 此步骤,将低于最大预设尺度的第一特征图进行上采样处理,使得全部的第一特征图具有相同的尺度之后,才进行拼接,能够保证特征图拼接的准确性,从而有利于提高对目标图像进行全景分割的准确度。
[0116] 这里,可以利用卷积神经网络对拼接后的特征图进行特征提取,得到第二特征图。这里使用的卷积神经网络可以具有上述最大预设尺度对应数量的卷积核,得到的第二图像特征图为具有最大预设尺度的特征图,如图2中的特征图l2。
[0117] S330、基于多个所述第一特征图和所述目标图像对应于最大预设尺度的第二特征图,确定目标图像对应于不同的预设尺度的图像特征图。
[0118] 这里,可以按照预设尺度从大到小的顺序,结合每个预设尺度对应的第一特征图,依次为每个预设尺度生成第二特征图,再结合第一特征图和第二特征图确定每个预设尺度最终的图像特征图。这样,通过多次、多方向的特征提取和融合能够更加充分的挖掘目标图像中的图像特征信息,得到更加完整和精确的特征图,从而能够提高对目标图像进行全景分割的准确度。
[0119] 在具体实施时,步骤330可以利用如下子步骤实现:
[0120] 步骤一、针对除最大预设尺度以外的每个预设尺度,基于与该预设尺度相邻的、大于该预设尺度的预设尺度的第一特征图和第二特征图,确定该预设尺度对应的第二特征图。
[0121] 这里,具体的是将与该预设尺度相邻的、大于该预设尺度的预设尺度对应的第一特征图和第二特征图进行拼接,之后利用卷积神经网络提取特征,得到该预设尺度对应的第二特征图,如图2中的第二特征图l3、l4、l5。
[0122] 步骤二、针对每个预设尺度,基于该预设尺度对应的第一特征图和该预设尺度对应第二特征图,确定目标图像对应于该预设尺度的图像特征图。
[0123] 这里,具体的是将每个预设尺度对应的第一特征图和第二特征图进行拼接,之后利用卷积神经网络提取特征,得到每个预设尺度对应的图像特征图。
[0124] 上述实施例按照预设尺度从大到小的顺序,结合前一个预设尺度的第一特征图和第二特征图来确定当前预设尺度的第二特征图,再基于当前预设尺度的第二特征图和第一特征图最终确定当前预设尺度的图像特征图,实现了在确定每个预设尺度对应的图像特征图时,充分融合其他预设尺度对应的特征图的信息,能够更加充分的挖掘目标图像中的图像特征信息,从而提高了确定的各预设尺度对应的图像特征图的准确性和完整性。
[0125] 在一些实施例中,如图4所示,上述基于多个所述图像特征图,确定所述目标图像中每个像素点属于前景的第一概率和属于背景的第二概率,具体可以利用如下步骤实现:
[0126] S410、对除最大预设尺度对应的图像特征图以外的每个图像特征图分别进行上采样处理,得到上采样处理后的各个图像特征图;其中,上采样处理后的各个图像特征图的尺度均为最大预设尺度。
[0127] 这里,对每个低于最大预设尺度的图像特征图进行上采样处理,上采样处理后,所有的图像特征图均为具有最大预设尺度的特征图。
[0128] S420、将最大预设尺度对应的图像特征图和上采样处理后的各个图像特征图进行拼接,得到第二拼接特征图。
[0129] 这里,是将所有具有最大预设尺度的特征图进行拼接,得到第二拼接特征图。
[0130] S430、基于拼接得到的第二拼接特征图,确定所述目标图像中每个像素点属于前景的第一概率和属于背景的第二概率。
[0131] 这里,具体可以利用神经网络层对第二拼接特征图进行处理,以基于第二拼接特征图中的特征像素点包括的图像特征信息,确定目标图像中对应于特征像素点的像素点属于前景的第一概率和属于背景的第二概率。
[0132] 上述实施例将低于最大预设尺度的图像特征图进行上采样处理,使得全部的图像特征图具有相同的尺度之后,才进行拼接,能够保证特征图拼接的准确性,从而有利于提高对目标图像进行全景分割的准确度。
[0133] 在一些实施例中,上述基于多个所述图像特征图、多个所述第一概率和多个所述第二概率,对所述目标图像进行全景分割,具体可以利用如下步骤实现:
[0134] S510、根据由所述多个图像特征图拼接得到的第二拼接特征图和所述目标图像中每个像素点属于背景的第二概率,确定语义分割分对数(logits);其中,所述目标图像中一个像素点属于背景的第二概率越大,该像素点对应的第一缩放比值越大;所述目标图像中一个像素点对应的第一缩放比值为该像素点在所述语义分割分对数中对应的值与该像素点在所述第二拼接特征图中对应的值之比。
[0135] 这里,可以利用第二概率对第二拼接特征图中的与背景对应的特征像素点进行增强,之后,可以利用增强后的特征图生成语义分割分对数。
[0136] 另外,在具体实施时,第一概率和第二概率是对上述第二拼接特征图进行特征提取后确定的,第一概率和第二概率可以对应一个前背景分类特征图,即前背景分类特征图中包括上述第一概率和第二概率。此步骤中,基于第二概率确定语义分割分对数,具体可以是利用包括多个卷积神经网络层、隐含层的神经网络提取上述前背景分类特征图中的图像特征,得到一个特征图。该特征图中的对应于目标图像中背景的特征像素点得到增强,对应于目标图像中前景的特征像素点得到减弱,利用该特征图与第二拼接特征图进行融合,能够使第二拼接特征图中对应于目标图像中背景的特征像素点得到增强,对应于目标图像中前景的特征像素点得到减弱。因此,基于该特征图与第二拼接特征图进行融合得到的语义分割分对数中对应于目标图像中背景的特征像素点得到增强,对应于目标图像中前景的特征像素点得到减弱,从而有利于提高基于语义分割分对数对目标图像进行全景分割的准确度。
[0137] S520、根据所述多个图像特征图和所述目标图像中每个像素点属于前景的第一概率,确定所述目标图像中各个对象的初始边界框、各个对象的实例类别以及各个对象的实例分割分对数;其中,所述目标图像中一个像素点属于前景的第一概率越大,该像素点对应的第二缩放比值就越大;所述目标图像中一个像素点对应的第二缩放比值为该像素点在所述实例分割分对数中对应的值与该像素点在所述多个图像特征图中对应的值之比。
[0138] 这里,可以利用第一概率对第二拼接特征图中的与前景对应的特征像素点进行增强,之后,可以利用增强后的特征图生成实例分割分对数,以及确定目标图像中各个对象的初始边界框、各个对象的实例类别。
[0139] 另外,在具体实施时,第一概率和第二概率是对上述第二拼接特征图进行特征提取后确定的,第一概率和第二概率可以对应一个前背景分类特征图,即前背景分类特征图中包括上述第一概率和第二概率。此步骤中,基于第一概率确定所述目标图像中各个对象的初始边界框、各个对象的实例类别以及各个对象的实例分割分对数,如图6所示,具体可以是利用包括多个卷积神经网络层conv layer、隐含层Sigmoid layer的神经网络提取上述前背景分类特征图中的图像特征,得到一个特征图。该特征图中的对应于目标图像中前景的特征像素点得到增强,对应于目标图像中背景的特征像素点得到减弱,利用该特征图与各个对象对应的图像特征图中的兴趣区域进行融合,能够使图像特征图中对应于目标图像中前景的特征像素点得到增强,对应于目标图像中背景的特征像素点得到减弱。因此,基于该特征图与各个对象对应的图像特征图中的兴趣区域进行融合确定的上述各个对象的初始边界框、各个对象的实例类别以及各个对象的实例分割分对数的准确度得到提高,从而有利于提高基于上述各个对象的初始边界框、各个对象的实例类别以及各个对象的实例分割分对数对目标图像进行全景分割的准确度。
[0140] 应当说明的是,在基于各个图像特征图和第一概率确定上述各个对象的初始边界框、各个对象的实例类别以及各个对象的实例分割分对数时,首先,确定各个对象在图像特征图中的特征区域,之后基于各个对象在图像特征图中的特征区域和所述目标图像中每个像素点属于前景的第一概率,分别确定所述目标图像中各个对象的初始边界框、各个对象的实例类别以及各个对象的实例分割分对数。
[0141] S530、根据各个对象初始边界框以及实例类别从所述语义分割分对数中确定出各个对象对应的语义分割分对数。
[0142] 这里,从语义分割分对数中截取与对象的初始边界框以及实例类别对应的区域的语义分割分对数。
[0143] S540、根据各个对象对应的语义分割分对数以及所述实例分割分对数,确定所述目标图像的全景分割分对数。
[0144] 这里,根据各个对象对应的语义分割分对数以及所述实例分割分对数能够生成对目标图像进行全景分割的全景分割分对数。
[0145] S550、根据所述目标的全景分割分对数确定所述目标图像中的背景以及前景中的对象的边界框和实例类别。
[0146] 在一些实施例中,上述图像处理方法由神经网络执行,所述神经网络采用样本图像训练得到,所述样本图像中包括对象的标注的实例类别及其标注的掩膜信息。这里的掩膜信息包括对象对应的初始边界框中各个像素点是否为该对象的像素点的信息。
[0147] 本公开还提供了对上述神经网络进行训练的步骤,具体地,可以包括如下步骤:
[0148] 步骤一、利用所述神经网络确定样本图像对应于不同的预设尺度的样本图像特征图、所述样本图像中每个像素点属于前景的第一样本概率和属于背景的第二样本概率。
[0149] 这里神经网络可以利用与上述实施例相同的方法确定样本图像对于不同预设尺度的特征图,即上述样本图像特征图。可以利用与上述实施例相同的方法确定样本图像中每个像素点属于前景的第一样本概率和属于背景的第二样本概率。
[0150] 步骤二、所述神经网络根据所述多个样本图像特征图、多个所述第一样本概率和多个所述第二样本概率对所述样本图像进行全景分割,输出所述样本图像中各个对象的实例类别及其掩膜信息。
[0151] 这里的神经网络输出的样本图像中的一个对象的掩膜信息是神经网络预测到的该对象的掩膜信息,神经网络预测到的该对象的掩模信息可以由神经网络预测到的该对象的边界框中的图像确定。也就是说,神经网络预测到的一个对象的掩模信息可以由神经网络预测到的该对象的边界框以及样本图像确定。
[0152] 步骤三、基于所述神经网络输出的所述样本图像中各个对象的掩膜信息和各个对象标注的掩膜信息,确定网络损失函数。一个对象标注的掩模信息可以由标注的该对象的边界框中的图像确定,即一个对象标注的掩模信息可以由标注的该对象的边界框以及样本图像确定。
[0153] 这里,具体可以利用如下子步骤确定网络损失函数:
[0154] 子步骤一、确定所述神经网络输出的所述样本图像中各个对象的掩膜信息和各个对象标注的掩膜信息之间相同的信息,得到掩膜交集信息;
[0155] 子步骤二、确定所述神经网络输出的所述样本图像中各个对象的掩膜信息和各个对象标注的掩膜信息合并后的信息,得到掩膜并集信息;
[0156] 子步骤三、基于确定的所述掩膜交集信息和所述掩膜并集信息,确定所述网络损失函数。
[0157] 利用标注的掩膜信息和神经网络预测的掩膜信息确定网络损失函数之间的交集和并集,确定网络损失函数,即确定了交并比iou损失函数,利用iou损失函数能够提高训练得到的神经网络进行全景分割的准确性。
[0158] 子步骤四、利用确定的所述网络损失函数调整所述神经网络中的网络参数。
[0159] 本实施例利用标注的掩膜信息和神经网络预测的掩膜信息确定网络损失函数,以利用确定的网络损失函数来进行神经网络的训练,能够提高训练得到的神经网络进行全景分割的准确性。
[0160] 下面再通过一个具体的实施例对本公开的图像处理方法进行说明。
[0161] 如图7所示,本实施例的图像处理方法包括如下步骤:
[0162] 步骤一、获取目标图像,并确定目标图像对应于不同的预设尺度的第一特征图p2、p3、p4、p5;
[0163] 步骤二、将第一特征图p2、p3、p4、p5进行拼接,并基于拼接得到的第五拼接特征图K1,确定目标图像对应于最大预设尺度的第二特征图l2;
[0164] 步骤三、针对除最大预设尺度以外的每个预设尺度,基于与该预设尺度相邻的、大于该预设尺度的预设尺度对应的第一特征图和第二特征图,确定该预设尺度对应的第二特征图,即图8中的l3、l4、l5。
[0165] 步骤四、针对每个预设尺度,基于该预设尺度对应的第一特征图和该预设尺度对应第二特征图,确定目标图像对应于该预设尺度的图像特征图q2、q3、q4、q5。
[0166] 步骤五、按照不同的预设尺度中的最大预设尺度,对除最大预设尺度对应的图像特征图以外的每个图像特征图分别进行上采样处理,上采样后,各个图像特征图均具有最大预设尺度。之后将最大高预设尺度对应的所有图像特征图进行拼接,得到第六拼接特征图K2。
[0167] 步骤六、基于拼接得到的第六拼接特征图K2,生成前背景分类特征图K3,前背景分类特征图K3中包括所述目标图像中每个像素点属于前景的第一概率和属于背景的第二概率。
[0168] 步骤七、基于前背景分类特征图K3中的每个像素点属于背景的第二概率和由所述多个图像特征图拼接得到的第六拼接特征图K2,确定语义分割分对数K4。
[0169] 步骤八、基于前背景分类特征图K3中的每个像素点属于前景的第一概率和所述多个图像特征图,确定所述目标图像中各个对象的初始边界框box、各个对象的实例类别class以及各个对象的实例分割分对数K6。
[0170] 步骤九、基于各个对象初始边界框box以及实例类别class从所述语义分割分对数中确定出各个对象对应的语义分割分对数,并根据各个对象对应的语义分割分对数以及所述实例分割分对数K6,确定所述目标图像的全景分割分对数K7。
[0171] 步骤十、根据所述目标的全景分割分对数确定所述目标图像中的背景以及前景中的对象的边界框和实例类别。
[0172] 上述实施例通过多次、多向地图像特征提取和融合,得到目标图像对应于不同的预设尺度的图像特征图,实现了目标图像的图像特征的充分挖掘,得到的图像特征图包括了更加完整和精确的图像特征。该更加精确和完整的图像特征图有利于提高对目标图像进行全景分割的准确度。上述实施例基于目标图像中每个像素点属于前景的第一概率和属于背景的第二概率将图像特征图中的对应于背景或前景的特征像素点进行增强处理,同样有利于对目标图像进行全景分割的准确度。
[0173] 对应于上述图像处理方法,本公开实施例还提供了一种图像处理装置,该装置应用于场景感知,即对目标图像进行全景分割的终端设备上,并且该装置及其各个模块能够执行与上述图像处理方法相同的方法步骤,并且能够达到相同或相似的有益效果,因此对于重复的部分不再赘述。
[0174] 如图8所示,本公开提供的图像处理装置,包括:
[0175] 特征图确定模块810,用于确定目标图像对应于不同的预设尺度的图像特征图。
[0176] 前背景处理模块820,用于基于多个所述图像特征图,确定所述目标图像中每个像素点属于前景的第一概率和属于背景的第二概率。
[0177] 全景分析模块830,用于基于多个所述图像特征图、多个所述第一概率和多个所述第二概率,对所述目标图像进行全景分割。
[0178] 在一些实施例中,所述特征图确定模块810用于:
[0179] 对目标图像进行特征提取,得到每个预设尺度的第一特征图;
[0180] 将多个所述第一特征图进行拼接,并从拼接得到的第一拼接特征图中提取图像特征,得到所述目标图像对应于最大预设尺度的第二特征图;
[0181] 基于多个所述第一特征图和所述目标图像对应于最大预设尺度的第二特征图,确定目标图像对应于不同的预设尺度的图像特征图。
[0182] 在一些实施例中,所述特征图确定模块810在基于多个所述第一特征图和所述目标图像对应于最大预设尺度的第二特征图,确定目标图像对应于不同的预设尺度的图像特征图时,用于:
[0183] 针对除最大预设尺度以外的每个预设尺度,基于与该预设尺度相邻的、大于该预设尺度的预设尺度的第一特征图和第二特征图,确定该预设尺度对应的第二特征图;
[0184] 针对每个预设尺度,基于该预设尺度对应的第一特征图和该预设尺度对应第二特征图,确定目标图像对应于该预设尺度的图像特征图。
[0185] 在一些实施例中,所述特征图确定模块810在将多个所述第一特征图进行拼接时,用于:
[0186] 对除最大预设尺度对应的第一特征图以外的每个不同预设尺度的第一特征图分别进行上采样处理,得到上采样处理后的各个第一特征图;其中,上采样处理后的各个第一特征图的尺度均为最大预设尺度;
[0187] 将最大预设尺度对应的第一特征图和上采样处理后的各个第一特征图进行拼接。
[0188] 在一些实施例中,所述前背景处理模块820用于:
[0189] 对除最大预设尺度对应的图像特征图以外的每个图像特征图分别进行上采样处理,得到上采样处理后的各个图像特征图;其中,上采样处理后的各个图像特征图的尺度均为最大预设尺度;
[0190] 将最大预设尺度对应的图像特征图和上采样处理后的各个图像特征图进行拼接,得到第二拼接特征图;
[0191] 基于拼接得到的第二拼接特征图,确定所述目标图像中每个像素点属于前景的第一概率和属于背景的第二概率。
[0192] 在一些实施例中,所述全景分析模块830用于:
[0193] 根据由所述多个图像特征图拼接得到的第二拼接特征图和所述目标图像中每个像素点属于背景的第二概率,确定语义分割分对数;其中,所述目标图像中一个像素点属于背景的第二概率越大,该像素点对应的第一缩放比值就越大;所述目标图像中一个像素点对应的第一缩放比值为该像素点在所述语义分割分对数中对应的值与该像素点在所述第二拼接特征图中对应的值之比;
[0194] 根据所述多个图像特征图和所述目标图像中每个像素点属于前景的第一概率,确定所述目标图像中各个对象的初始边界框、各个对象的实例类别以及各个对象的实例分割分对数;其中,所述目标图像中一个像素点属于前景的第一概率越大,该像素点对应的第二缩放比值就越大;所述目标图像中一个像素点对应的第二缩放比值为该像素点在所述实例分割分对数中对应的值与该像素点在所述多个图像特征图中对应的值之比;
[0195] 根据各个对象初始边界框以及实例类别从所述语义分割分对数中确定出各个对象对应的语义分割分对数;
[0196] 根据各个对象对应的语义分割分对数以及所述实例分割分对数,确定所述目标图像的全景分割分对数;
[0197] 根据所述目标的全景分割分对数确定所述目标图像中的背景以及前景中的对象的边界框和实例类别。
[0198] 在一些实施例中,所述图像处理装置利用神经网络对所述目标图像进行全景分割,所述神经网络采用样本图像训练得到,所述样本图像中包括对象的标注的实例类别及其标注的掩膜信息。
[0199] 在一些实施例中,上述装置还包括神经网络训练模块840,所述神经网络训练模块840采用以下步骤训练所述神经网络:
[0200] 利用所述神经网络确定样本图像对应于不同的预设尺度的样本图像特征图、所述样本图像中每个像素点属于前景的第一样本概率和属于背景的第二样本概率;
[0201] 所述神经网络根据所述多个样本图像特征图、多个所述第一样本概率和多个所述第二样本概率对所述样本图像进行全景分割,输出所述样本图像中各个对象的实例类别及其掩膜信息;
[0202] 基于所述神经网络输出的所述样本图像中各个对象的掩膜信息和各个对象标注的掩膜信息,确定网络损失函数;
[0203] 利用确定的所述网络损失函数调整所述神经网络中的网络参数。
[0204] 在一些实施例中,所述神经网络训练模块840在基于所述神经网络输出的所述样本图像中各个对象的掩膜信息和各个对象标注的掩膜信息,确定网络损失函数时,用于:
[0205] 确定所述神经网络输出的所述样本图像中各个对象的掩膜信息和各个对象标注的掩膜信息之间相同的信息,得到掩膜交集信息;
[0206] 确定所述神经网络输出的所述样本图像中各个对象的掩膜信息和各个对象标注的掩膜信息合并后的信息,得到掩膜并集信息;
[0207] 基于确定的所述掩膜交集信息和所述掩膜并集信息,确定所述网络损失函数。
[0208] 本公开实施例公开了一种电子设备,如图9所示,包括:处理器901、存储器902和总线903,所述存储器902存储有所述处理器901可执行的机器可读指令,当电子设备运行时,所述处理器901与所述存储器902之间通过总线903通信。
[0209] 所述机器可读指令被所述处理器901执行时执行以下图像处理方法的步骤:
[0210] 确定目标图像对应于不同的预设尺度的图像特征图;
[0211] 基于多个所述图像特征图,确定所述目标图像中每个像素点属于前景的第一概率和属于背景的第二概率;
[0212] 基于多个所述图像特征图、多个所述第一概率和多个所述第二概率,对所述目标图像进行全景分割。
[0213] 除此之外,机器可读指令被处理器901执行时,还可以执行上述方法部分描述的任一实施方式中的方法内容,这里不再赘述。
[0214] 本公开实施例还提供的一种对应于上述方法及装置的计算机程序产品,包括存储了程序代码的计算机可读存储介质,程序代码包括的指令可用于执行前面方法实施例中的方法,具体实现可参见方法实施例,在此不再赘述。
[0215] 上文对各个实施例的描述倾向于强调各个实施例之间的不同之处,其相同或相似之处可以相互参考,为了简洁,本文不再赘述。
[0216] 所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考方法实施例中的对应过程,本公开中不再赘述。在本公开所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
[0217] 所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0218] 另外,在本公开各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
[0219] 所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
[0220] 以上仅为本公开的具体实施方式,但本公开的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应以权利要求的保护范围为准。

附图说明

[0084] 为了更清楚地说明本公开实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本公开的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
[0085] 图1示出了本公开实施例提供的一种图像处理方法的流程图;
[0086] 图2示出了本公开实施例中生成图像特征图的神经网络示意图;
[0087] 图3示出了本公开实施例提供的另一种图像处理方法中确定目标图像对应于不同的预设尺度的图像特征图的流程图;
[0088] 图4示出了本公开实施例提供的再一种图像处理方法中基于多个图像特征图,确定目标图像中每个像素点属于前景的第一概率和属于背景的第二概率的流程图;
[0089] 图5示出了本公开实施例提供的再一种图像处理方法中基于多个图像特征图、多个第一概率和多个第二概率,对所述目标图像进行全景分割的流程图;
[0090] 图6示出了本公开实施例中生成实例分割分对数的神经网络的结构示意图;
[0091] 图7示出了本公开实施例提供的再一种图像处理方法的流程图;
[0092] 图8示出了本公开实施例提供的一种图像处理的装置的结构示意图;
[0093] 图9示出了本公开实施例提供的一种电子设备的结构示意图。
版权所有:盲专网 ©2023 zlpt.xyz  蜀ICP备2023003576号