首页 > 专利 > 杭州电子科技大学 > 一种基于人工神经网络的实时场景布局识别及重建的方法专利详情

一种基于人工神经网络的实时场景布局识别及重建的方法   0    0

有效专利 查看PDF
专利申请流程有哪些步骤?
专利申请流程图
申请
申请号:指国家知识产权局受理一件专利申请时给予该专利申请的一个标示号码。唯一性原则。
申请日:提出专利申请之日。
2018-05-18
申请公布
申请公布指发明专利申请经初步审查合格后,自申请日(或优先权日)起18个月期满时的公布或根据申请人的请求提前进行的公布。
申请公布号:专利申请过程中,在尚未取得专利授权之前,国家专利局《专利公报》公开专利时的编号。
申请公布日:申请公开的日期,即在专利公报上予以公开的日期。
2018-11-06
授权
授权指对发明专利申请经实质审查没有发现驳回理由,授予发明专利权;或对实用新型或外观设计专利申请经初步审查没有发现驳回理由,授予实用新型专利权或外观设计专利权。
2021-07-13
预估到期
发明专利权的期限为二十年,实用新型专利权期限为十年,外观设计专利权期限为十五年,均自申请日起计算。专利届满后法律终止保护。
2038-05-18
基本信息
有效性 有效专利 专利类型 发明专利
申请号 CN201810481159.8 申请日 2018-05-18
公开/公告号 CN108648224B 公开/公告日 2021-07-13
授权日 2021-07-13 预估到期日 2038-05-18
申请年 2018年 公开/公告年 2021年
缴费截止日
分类号 G06T7/55G06T15/00G06K9/00 主分类号 G06T7/55
是否联合申请 独立申请 文献类型号 B
独权数量 1 从权数量 3
权利要求数量 4 非专利引证数量 1
引用专利数量 1 被引证专利数量 0
非专利引证 1、2017.07.20Hao Zhao等.“Physics InspiredOptimization on Semantic TransferFeatures: An Alternative Method for RoomLayout Estimation”《.arXiv》.2017,Hengshuang Zhao“.Pyramid SceneParsing Network”《.arXiv》.2017,朱博等.“机器人室内语义建图中的场所感知方法综述”《.自动化学报》.2017,第43卷(第1期),;
引用专利 US2017206434A 被引证专利
专利权维持 4 专利申请国编码 CN
专利事件 事务标签 公开、实质审查、授权
申请人信息
申请人 第一申请人
专利权人 杭州电子科技大学 当前专利权人 杭州电子科技大学
发明人 颜成钢、邵碧尧、徐枫、丁贵广、张勇东 第一发明人 颜成钢
地址 浙江省杭州市下沙高教园区2号大街 邮编 310018
申请人数量 1 发明人数量 5
申请人所在省 浙江省 申请人所在市 浙江省杭州市
代理人信息
代理机构
专利代理机构是经省专利管理局审核,国家知识产权局批准设立,可以接受委托人的委托,在委托权限范围内以委托人的名义办理专利申请或其他专利事务的服务机构。
杭州君度专利代理事务所 代理人
专利代理师是代理他人进行专利申请和办理其他专利事务,取得一定资格的人。
朱月芬
摘要
本发明公开了一种基于人工神经网络的实时场景布局识别及重建方。本发明用人工神经网络模型对输入序列进行处理,并通过寻找单帧之间的相关性,得到室内场景的布局识别后,在曼哈顿世界假设下,利用空间中一点在像素坐标系下存在唯一投影的原理,迭代优化,得到场景中每个平面的单位法向量和该平面到相机中心的距离,并在OpenGL下渲染平面。本发明利用人工神经网络,并寻找帧与帧间的联系,使得网络输出结果和三维重建结果更为精确;使用单目的RGB信息还原三维信息,减少硬件成本,同时利用每帧得到的布局信息,使用优化算法求解得到场景中每个平面的法向量和到相机中心距离。
  • 摘要附图
    一种基于人工神经网络的实时场景布局识别及重建的方法
  • 说明书附图:图1
    一种基于人工神经网络的实时场景布局识别及重建的方法
  • 说明书附图:图2
    一种基于人工神经网络的实时场景布局识别及重建的方法
法律状态
序号 法律状态公告日 法律状态 法律状态信息
1 2021-07-13 授权
2 2018-11-06 实质审查的生效 IPC(主分类): G06T 7/55 专利申请号: 201810481159.8 申请日: 2018.05.18
3 2018-10-12 公开
权利要求
权利要求书是申请文件最核心的部分,是申请人向国家申请保护他的发明创造及划定保护范围的文件。
1.一种基于人工神经网络的实时场景布局识别及重建方法,其特征在于:
步骤
1.训练阶段;
训练分为三个阶段:
第一阶段:实现对室内场景的语义分割;
第二阶段:将第一阶段的输出结果用作训练数据,训练一个全连接层实现对室内场景布局的识别;
第三阶段:为整合前面两个阶段,并将继承得到的权值用于第三阶段的权值初始化,在原有权值的基础上进行权值的微调;
使用的网络根据卷积残差网络修改,搭建全卷积神经网络,在ground truth的监督下进行网络训练,得到可以对室内场景进行布局识别的模型;所述的ground truth为场景中三类交线,即墙与地面,墙与天花板,墙与墙之间的交线和背景的分类结果;
步骤
2.用步骤1中得到的模型对输入的视频帧序列进行处理,由于视频帧序列存在连续性,因此相邻帧之间的图像存在相关性,对单帧图像进行特征点检测,并与之前一帧图像进行特征点匹配,若相同特征点的位置预测标签不一致,取概率较大的一方作为该特征点位置的预测标签,用于得到每帧图像中的场景布局识别结果;
步骤
3.基于相关约束对实时场景进行重建,相关约束条件如下:
I.相机光轴方向平行于地面;
II.拍摄的场景为曼哈顿世界,相邻平面两两垂直;
III.该视频帧序列通过透视投影获得,使用具有固有矩阵K的拍摄设备;相机坐标系下Q和像素坐标系下q满足如下公式
‑1
Qi=λK qi
其中,K,q和Q分别如下
平面法向量和平面到相机中心距离满足
‑1
dp=npQi=npλK qi;
单帧图像得到布局识别结果后进行平面三维重建,利用曼哈顿世界相邻平面两两垂直,利用空间中一点在像素坐标系下存在唯一投影进行约束,优化得到单帧图像中平面的单位法向量和到相机中心距离,经OpenGL渲染后即为该帧图像对应的三维平面。

2.根据权利要求1所述的一种基于人工神经网络的实时场景布局识别及重建方法,其特征在于步骤1中第一阶段所述的实现对室内场景的语义分割,具体如下:
通过训练网络实现对复杂室内场景的语义分割,所述的训练网络是在ResNet101的基础上修改得到的,输入数据为普通RGB图片,对应的ground truth为输入图片中的场景人工语义分割的结果,网络输出结果与ground truth之间进行比较,运用梯度下降的方法求得较好的网络权值,得到的模型能够对室内场景中的物体进行37类的分类,网络输出结果为w*h*37的矩阵,每个通道对应一类物体在该场景中存在概率,取每个像素对应的37维概率向量中最大值所在通道作为汇总结果中该像素的类别,最终得到该场景的语义分割结果,该结果为最终得到场景布局识别提供一个有用的先验条件。

3.根据权利要求2所述的一种基于人工神经网络的实时场景布局识别及重建方法,其特征在于步骤1所述的第二阶段:将第一阶段的输出结果用作训练数据,训练一个全连接层实现对室内场景布局的识别,具体如下:
第二阶段中用的训练数据为若干室内场景的RGB图片经过第一阶段的网络后,得到若干对应语义分割的37通道的特征图,ground truth为场景中三类交线和背景的分类结果;
将每个像素点作为训练数据;第二阶段使用一个全连接层,实现37类语义分割的概率到4类布局的映射,训练得到的模型实现输入37维概率分布,输出4类布局的概率分布。

4.根据权利要求3所述的一种基于人工神经网络的实时场景布局识别及重建方法,其特征在于所述的第三阶段具体实现录如下:
将第二阶段的全连接层改为卷积层,两个阶段的网络结构合并为一个完整网络,第二阶段中得到的权值改变其形状,37*4的改为1*1*37*4,用于初始化最顶端的卷积层权值,同时继承第一阶段得到权值,作为初始权值;训练数据为RGB图片和对应的场景布局人工标记结果,进行端对端训练,对权值进行微调,最终得到的模型可以实现输入RGB图片,输出RGB图片对应场景的布局识别结果。
说明书

技术领域

[0001] 本发明属于计算机视觉、计算机图形学技术领域,特别地,本发明涉及一种基于人工神经网络的实时场景布局识别及重建方法。

背景技术

[0002] 计算机视觉的终极目标是达到人眼和人脑对图像的理解能力,在信息爆炸的时代为人类分担图像信息相关的处理与分析工作,也使更多智能化设备能更好地完成更多的任务。
[0003] 室内场景布局识别和三维重建是计算机视觉与计算机图像学领域中一个重要且基础的问题,可以为其他室内场景的任务提供强有力的先验条件,主要包括安防领域的行人检测、目标追踪、人脸识别等,互联网信息领域的图像内容检索,智能机器人领域的目标找寻、场景理解、障碍物检测等,给人类日常生活和工作的很多方面提供了便利,具有重要的理论研究意义和工程应用价值。在智能机器人领域,场景布局的识别和重建为机器人的定位起到重要作用;在增强现实中,虚拟物体要在镜头下实现较好地定位也需要对场景实现较好的感知。目前处理复杂室内场景的布局识别和三维重建仍存在较大问题,因此该问题具有极高的科研和应用价值。
[0004] 在计算机视觉领域,对复杂室内场景进行较好的布局识别和三维重建一直是一个重要但具有挑战性的问题。因此,本发明中的方法利用人工神经网络模型对室内场景进行布局识别,克服传统方法在处理复杂场景时存在的不足,为三维重建提供较好的输入信息,使得重建后得到平面更为精确。

发明内容

[0005] 本发明的目的是解决复杂室内场景下实时布局识别和平面三维重建的问题,其输入是一段视频帧序列,发明中的方法用人工神经网络模型对输入序列进行处理,并通过寻找单帧之间的相关性,提高网络判断的准确性,得到室内场景的布局识别(地面与墙面,天花板与墙面,墙面与墙面之间的交线)后,在曼哈顿世界假设下,利用空间中一点在像素坐标系下存在唯一投影的原理,迭代优化,得到场景中每个平面的单位法向量和该平面到相机中心的距离,并在OpenGL下渲染平面。该方法利用人工神经网络,并寻找帧与帧间的联系,使得网络输出结果和三维重建结果更为精确。
[0006] 本发明提出的一种基于人工神经网络的实时场景布局识别及重建方法,其主要步骤如下所示:
[0007] 步骤1.训练阶段;
[0008] 训练分为三个阶段:
[0009] 第一阶段:实现对室内场景的语义分割;
[0010] 第二阶段:将第一阶段的输出结果用作训练数据,训练一个全连接层实现对室内场景布局的识别;
[0011] 第三阶段:为整合前面两个阶段,并将继承得到的权值用于第三阶段的权值初始化,在第一、第二阶段得到模型的基础上进行模型的微调。
[0012] 使用的网络根据卷积残差网络修改,搭建全卷积神经网络,在ground truth的监督下进行网络训练,得到可以对室内场景进行布局识别的模型;
[0013] 步骤2.用步骤1中得到的模型对输入的视频帧序列进行处理,由于视频帧序列存在连续性,因此相邻帧之间的图像存在相关性,算法对单帧图像进行特征点检测,并对相邻帧的图像进行特征点匹配,用于得到每帧图像中的场景布局识别结果,添加帧与帧之间的图像特征点匹配可以使得得到的场景布局识别结果更为准确;
[0014] 步骤3.基于相关约束对实时场景进行重建,相关约束条件如下:
[0015] I.相机光轴方向平行于地面;
[0016] II.拍摄的场景为曼哈顿世界,相邻平面两两垂直;
[0017] III.该视频帧序列通过透视投影获得,使用具有固有矩阵K的拍摄设备。相机坐标系下Q和像素坐标系下q满足如下公式
[0018] Qi=λK‑1qi
[0019] 其中,K,q和Q分别如下
[0020]
[0021] 平面法向量和平面到相机中心距离满足
[0022] dp=npQi=npλK‑1qi;
[0023] 单帧图像得到布局识别结果后进行平面三维重建,利用曼哈顿世界相邻平面两两垂直,利用空间中一点在像素坐标系下存在唯一投影进行约束,优化得到单帧图像中平面的单位法向量和到相机中心距离,经OpenGL渲染后即为该帧图像对应的三维平面。
[0024] 本发明的特点及有益效果:
[0025] 本发明实现了一种基于人工神经网络的实时场景布局识别及重建方法,对室内场景下作的任务有重大意义。本发明中的方法优势如下
[0026] 1.利用人工神经网络模型完成室内场景下的布局识别任务,提高系统对复杂场景的处理能力
[0027] 2.利用视频帧序列的特性,寻找到帧与帧之间的相关性,优化每帧的布局识别[0028] 3.使用单目的RGB信息还原三维信息,减少硬件成本,同时利用每帧得到的布局信息,使用优化算法求解得到场景中每个平面的法向量和到相机中心距离。
[0029] 此技术可以在普通PC机或工作站等硬件系统上实现。

实施方案

[0032] 为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
[0033] 本发明提出的基于人工神经网络的实时场景布局识别及重建方法,如图1所示,包括以下三个步骤:
[0034] 1)搭建人工神经网络模型,方法中选择了卷积残差神经网络作为网络的基本结构,为了使得网络可以输出矩阵,在网络的顶端用若干卷积层代替一般的全连接层。为了克服训练数据的不均衡和更好地处理场景中存在较为严重遮挡的情况,网络训练分为三个阶段:
[0035] I.第一阶段:训练网络实现对复杂室内场景的语义分割。此处用到的网络是在ResNet101的基础上修改得到的,输入数据为普通RGB图片,对应的ground truth为输入图片中的场景人工语义分割的结果,网络输出结果与ground truth之间进行比较,运用梯度下降的方法求得较好的网络权值,得到的模型可以对室内场景中的物体进行37类的分类,网络输出结果为w*h*37的矩阵,每个通道对应一类物体在该场景中存在概率,取每个像素对应的37维概率向量中最大值所在通道作为汇总结果中该像素的类别,最终可以得到该场景的语义分割结果,该结果为最终得到场景布局识别提供一个有用的先验条件。
[0036] II.第二阶段:训练网络实现场景布局分割。第二阶段中用的训练数据为若干室内场景的RGB图片经过第一阶段的网络后得到若干对应语义分割的37通道的特征图,ground truth为场景中三类交线(墙与地面,墙与天花板,墙与墙)和背景的分类结果。将每个像素点作为训练数据。该阶段使用一个全连接层,实现37类语义分割的概率到4类布局(三种交线加背景)的映射,训练得到的模型实现输入37维概率分布,输出该种情况下4类布局的概率分布。
[0037] III.第三阶段:该阶段为前两个阶段的综合,将第二阶段的全连接层改为卷积层,两个阶段的网络结构合并为一个完整网络,第二阶段中得到的权值改变其形状,37*4的改为1*1*37*4,用于初始化最顶端的卷积层权值,同时继承第一阶段得到权值,作为初始权值。训练数据为RGB图片和对应的场景布局人工标记结果,进行端对端训练,对权值进行微调,最终得到的模型可以实现输入RGB图片,输出RGB图片对应场景的布局识别结果。
[0038] 2)方法中处理的数据为视频帧序列,由于视频帧是连续的,因此视频帧之间存在一定的相关性,这部分检测帧与帧之间特征点,并将特征点进行匹配,配合第一部分得到的室内场景布局识别模型,一起对视频帧中的场景进行布局识别,将帧间的相关性作为又一约束,使得布局识别更为准确。
[0039] 3)本发明中的方法基于以下假设下进行
[0040] I.相机光轴方向平行于地面
[0041] II.所拍摄的场景为曼哈顿世界,相邻平面两两垂直
[0042] III.该视频帧序列通过透视投影获得,使用具有固有矩阵K的拍摄设备。相机坐标系下Q和像素坐标系下q满足如下公式
[0043] Qi=λK‑1qi
[0044] 这里的K,q和Q分别如下
[0045]
[0046] 平面法向量和平面到相机中心距离满足
[0047] dp=npQi=npλK‑1qi
[0048] 目标输出是场景中平面的法向量和平面到相机中心的距离。主要原理为:相机坐标系下空间中一点映射回像素坐标系下有且仅有一个点,像素坐标系中两个平面交线上的点同时属于两个平面,根据两个平面的法向量和到相机中心的距离分别可以还原得到两个相机坐标系下的三维坐标,理想情况下得到的两个三维坐标应当重合,因此约束两个三维坐标之间的距离越小,求得的法向量和距离越理想。利用前两步得到的场景布局识别信息做一步初始化,得到更为理想的交线信息,利用场景中交线的端点列出约束条件,用fmincon函数进行求解该非线性规划问题,输出结果为平面的单位法向量和平面到相机中心的距离。
[0049] 得到平面的信息后,为了实现更好的显示效果,输入得到的平面信息,使用OpenGL进行平面渲染,可以得到视频帧序列中每帧场景对应的布局的三维平面重建结果。
[0050] 本发明的一个实施例包含一段视频帧序列,实施例中的每一帧都会重建出与场景对应的三维平面。图2展示了其中一帧的输入和部分结果。处理一帧图像的过程具体包括以下步骤:
[0051] 1)根据之前部分提到的三个阶段训练得到实现室内场景布局识别的模型,取视频帧序列中一帧,调用模型进行处理,输出得到w*h*4的特征图,单个通道对应于该类标签的概率热图。取每个像素对应的4维概率向量,该向量中最大值所在位置,作为该像素点的预测标签,最终得到一张场景布局识别的灰度图。
[0052] 2)对该帧图像进行特征点检测,并与之间一帧图像进行特征点匹配,若相同特征点的位置预测标签不一致,取概率较大的一方作为该特征点位置的预测标签。
[0053] 3)对得到的场景布局识别结果进行进一步处理,一般来说该结果中的交线较为粗糙,处理后得到细长的直线来表示布局结果,作为重建部分的初始化。取得到直线的端点坐标,根据如下公式列出约束条件:
[0054] Qi=λK‑1qi
[0055]
[0056] dp=npQi=npλK‑1qi
[0057] 使用fmincon函数进行非线性规划求解,得到该帧图像中场景平面对应的单位法向量和平面到相机中心的距离。用得到的平面信息使用OpenGL进行平面渲染,得到最终显示结果。

附图说明

[0030] 图1为本发明方法总体流程图。
[0031] 图2为一段视频中的一帧的原图,络实现场景布局识别的结果和重建得到三维模型;
版权所有:盲专网 ©2023 zlpt.xyz  蜀ICP备2023003576号