首页 > 专利 > 杭州电子科技大学 > 一种基于语义分割的道路置信估计模糊帧方法专利详情

一种基于语义分割的道路置信估计模糊帧方法 0 0

有效专利查看PDF

申请进展

基本信息

申请人信息

代理人信息

摘要

法律状态

权利要求

说明书

专利申请流程有哪些步骤？

申请

申请号：指国家知识产权局受理一件专利申请时给予该专利申请的一个标示号码。唯一性原则。

申请日：提出专利申请之日。

2019-08-02

申请公布

申请公布指发明专利申请经初步审查合格后，自申请日（或优先权日）起18个月期满时的公布或根据申请人的请求提前进行的公布。

申请公布号：专利申请过程中，在尚未取得专利授权之前，国家专利局《专利公报》公开专利时的编号。

申请公布日：申请公开的日期，即在专利公报上予以公开的日期。

2020-02-11

授权

授权指对发明专利申请经实质审查没有发现驳回理由，授予发明专利权；或对实用新型或外观设计专利申请经初步审查没有发现驳回理由，授予实用新型专利权或外观设计专利权。

2022-03-29

预估到期

发明专利权的期限为二十年，实用新型专利权期限为十年，外观设计专利权期限为十五年，均自申请日起计算。专利届满后法律终止保护。

2039-08-02

基本信息

有效性	有效专利	专利类型	发明专利
申请号	CN201910711591.6	申请日	2019-08-02
公开/公告号	CN110674676B	公开/公告日	2022-03-29
授权日	2022-03-29	预估到期日	2039-08-02
申请年	2019年	公开/公告年	2022年
缴费截止日
分类号	G06V20/58 、G06V10/26 、G06V10/764 、G06V10/82 、G06K9/62 、G06N3/04 、G06N3/08	主分类号	G06V20/58
是否联合申请	独立申请	文献类型号	B
独权数量	1	从权数量	3
权利要求数量	4	非专利引证数量	1
引用专利数量	0	被引证专利数量	0
非专利引证	1、CN 109409240 A,2019.03.01CN 101599175 A,2009.12.09Vijay Badrinarayanan等.SegNet:A DeepConvolutional Encoder-DecoderArchitecture for Image Segmentation. 《arXiv》.2016,第1-14页.;
引用专利		被引证专利
专利权维持	3	专利申请国编码	CN
专利事件		事务标签	公开、实质审查、授权

申请人信息

申请人	杭州电子科技大学	第一申请人	杭州电子科技大学
专利权人	杭州电子科技大学	当前专利权人	杭州电子科技大学
发明人	颜成钢、叶宇晨、周铁生、孙垚棋、张继勇、张勇东	第一发明人	颜成钢
地址	浙江省杭州市下沙高教园区2号大街	邮编	310018
申请人数量	1	发明人数量	6
申请人所在省	浙江省	申请人所在市	浙江省杭州市

代理人信息

代理机构

专利代理机构是经省专利管理局审核，国家知识产权局批准设立，可以接受委托人的委托，在委托权限范围内以委托人的名义办理专利申请或其他专利事务的服务机构。

杭州君度专利代理事务所

代理人

专利代理师是代理他人进行专利申请和办理其他专利事务，取得一定资格的人。

朱月芬

摘要

本发明公开了一种基于语义分割的道路置信估计模糊帧方法。本发明包括如下步骤：步骤1、搭建SegNet语义网络，用于输入检测道路的图像；步骤2、获取检测道路的图像数据集；步骤3、对数据集中的基础图像进行训练；步骤4、道路帧模糊性判断。本发明实现了一种基于语义分割的道路置信估计模糊帧，对智能驾驶中检测模糊图像有较大意义。本发明中的方法利用图片的语义特性将，道路驾驶的图像经过语义分割处理输出图像特征图，并通过时间差分法实现对图像进行置信估计，找出模糊、不稳定帧。排除这些干扰图像对智能图像识别的成功具有较高的提升。

摘要附图
说明书附图：图1

法律状态

序号	法律状态公告日	法律状态	法律状态信息
1	2022-03-29	授权
2	2020-02-11	实质审查的生效	IPC(主分类): G06K 9/00 专利申请号: 201910711591.6 申请日: 2019.08.02
3	2020-01-10	公开

权利要求

权利要求书是申请文件最核心的部分，是申请人向国家申请保护他的发明创造及划定保护范围的文件。

1.一种基于语义分割的道路置信估计模糊帧方法，其特征在于包括如下步骤：
步骤1、搭建SegNet语义网络，用于输入检测道路的图像；
步骤2、获取检测道路的图像数据集：
步骤3、对数据集中的基础图像进行训练；
步骤4、道路帧模糊性判断；
步骤1具体实现如下：
SegNet是一种用于图像分割的深度卷积编码解码结构，采用核心的可训练的分割引擎，包含一个编码网络和一个对应的解码网络，并跟随着一个像素级别的分类层，编码器网络的架构在拓扑上与VGG16网络中的13个卷积层相同都采用了same卷积，不改变图像的大小；在每个卷积层前会有一个批量标准化层和ReLU激活层，批量标准化层将特征值进行标准化处理用于计算当前的学习率和其他参数，激活层采用ReLU作为非线性激活函数使训练网络收敛速度更快，最后使用最大池化采样来缩小图片；解码网络借助采样得到最大池化指标将映射低分辨率的编码后的特征图扩展到输入分辨率的特征图，最后由soft‑max分类器计算每个像素占所有类别的概率，实现图像到图像的训练的过程，也称端到端的训练过程；
步骤4所述的道路帧模糊性判断通过两帧差分法实现，具体如下：
记视频序列中第n帧和第n‑1帧图像为fn和fn‑1，两帧对应像素点的灰度值记为fn(x,y)和fn‑1(x，y)，将两帧图像对应像素点的灰度值进行相减，并取其绝对值，得到差分图像Dn；
Dn(x,y)＝|fn(x,y)‑fn‑1(x,y)|
设定阈值T，逐个对像素点进行二值化处理，得到二值化图像Rn；其中，灰度值为255的点即为前景点，灰度值为0的点即为背景点；对二值化图像Rn进行连通性分析，最终可得到含有完整运动目标的二值化图像Rn；
根据二值化图像Rn判断运动目标，由于车辆行驶过程中，如果两车速度相近，在道路上得到的结果是类似与对静止目标的检测；同时根据道路两侧场景的变换速度，二值化图像Rn会有较大的变化进而推算出道路车辆的行驶速度；
当二值化图像Rn的区域值拟合性较高，超出预设值，则代表该二值化图像对应时刻的图像拟合度太高不够准确，不能作为识别图像；当二值化图像Rn(x,y,t)与Rn(x,y,t‑1)变化较大，即图像的当前帧与前一帧相差较大，超出变化阈值，作为识别图像可信度不高。

2.根据权利要求1所述的一种基于语义分割的道路置信估计模糊帧方法，其特征在于步骤2具体实现如下：
利用车载摄影仪进行录像，然后获取检测道路的图像；采用单一车种在光线充足且连续行驶的视频中的图像作为基础图像输入数据集；同时采用其他多设备指导图象识别：采用道路固定的监测设备图像作为辅助人工判断，要求在同一时间下，车载摄影图像与监测设备图像保持一致，如果相差超过预设，则该车载摄影仪的检测道路的图像可信度低，不能作为训练数据集。

3.根据权利要求2所述的一种基于语义分割的道路置信估计模糊帧方法，其特征在于步骤3具体实现如下：
解码器和编码器采用SegNet的方法，使用计算速度更快Adam自适应梯度法优化SegNet语义网络中的参数；使用交叉熵损失作为训练SegNet语义网络的目标函数，同时采用max—pool的采样方法对网络特征值进行提取；训练数据集中的每个类别中，若像素数量的变化超过预设阈值时，则需要根据图像真实类别进行不同地加权，或该图像超出所需范围，不可取。

4.根据权利要求3所述的一种基于语义分割的道路置信估计模糊帧方法，其特征在于所述的Adam自适应梯度法，具体实现如下：
Adam更新公式：
其中(2)对移动均值的更新，(3)对平方梯度的更新：
mt＝β1mt‑1+(1‑β1)gt (2)
其中，θt—当前参数；θt+1—下一时间参数；η—学习率；ε—非常小的参数；mt—指数移动均值；vt—平方梯度；gt—在时间跨度上的梯度值；β1，β2∈(0,1]—衰减率；
和分别是梯度一阶矩和二阶矩；
通过计算偏差校正的一阶矩和二阶矩估计量，从而抵消偏差：
所述的采用max—pool的采样方法对网络特征值进行提取网络特征值的提取优化，具体实现如下：
首先将整个图片的图像特征矩阵不重叠的分割成多个大小相同的区域，然后对每个区域提取该区域的最大值，并将其余数值舍弃。

说明书

技术领域

[0001] 本发明属于计算机视觉技术领域，涉及无人车辆和图像信息处理，具体为一种基于语义分割的道路置信估计模糊帧方法。

背景技术

[0002] 智能驾驶车辆道路环境感知问题一直以来是研究的热点，基于语义分割的道路环境感知方法是其研究重点之一，这类方法主要利用车载摄像机拍摄车辆行驶前方道路图像，利用图像处理和模式识别方法实现道路图像分割，图像语义分割就是机器自动从图像中分割出对象区域，并识别其中的内容，确定图像中各种障碍物的位置大小。

[0003] 传统机器学习的流程往往由多个独立的模块组成，比如在一个典型的自然语言处理(Natural Language Processing)问题中，包括分词、词性标注、句法分析、语义分析等多个独立步骤，每个步骤是一个独立的任务，其结果的好坏会影响到下一步骤，从而影响整个训练的结果。基于全卷积网络(Fully Convolutional Networks，FCN)的语义分割方法大多是端到端，过程繁琐，训练参数比较多，训练难度大。近年来，深度卷积神经网络对图像特征的提取具有很大的优势，如反卷积网络提出的输出等分辨率可视化，但针对特殊场景缺少适当优化，识别结果常出现误判。

发明内容

[0004] 本发明的目的是针对现有技术的不足，提供一种基于语义分割的道路置信估计模糊帧方法。本发明包括如下步骤：

[0005] 步骤1、搭建SegNet语义网络，用于输入检测道路的图像；

[0006] 步骤2、获取检测道路的图像数据集：

[0007] 步骤3、对数据集中的基础图像进行训练；

[0008] 步骤4、道路帧模糊性判断。

[0009] 步骤1具体实现如下：

[0010] SegNet是一种用于图像分割的深度卷积编码解码结构，采用核心的可训练的分割引擎，包含一个编码网络和一个对应的解码网络，并跟随着一个像素级别的分类层，编码器网络的架构在拓扑上与VGG16网络中的13个卷积层相同都采用了same卷积，不改变图像的大小；在每个卷积层前会有一个批量标准化层和ReLU激活层，批量标准化层将特征值进行标准化处理用于计算当前的学习率和其他参数，激活层采用ReLU作为非线性激活函数使训练网络收敛速度更快，最后使用最大池化(max‑Pooling)采样来缩小图片；解码网络借助采样得到最大池化指标(max‑pooling indices)将映射低分辨率的编码后的特征图扩展到输入分辨率的特征图，最后由soft‑max分类器计算每个像素占所有类别的概率，实现图像到图像的训练的过程，也称端到端的训练过程。

[0011] 步骤2具体实现如下：

[0012] 利用车载摄影仪进行录像，然后获取检测道路的图像；采用单一车种在光线充足且连续行驶的视频中的图像作为基础图像输入数据集；同时采用其他多设备指导图象识别：采用道路固定的监测设备图像作为辅助人工判断，要求在同一时间下，车载摄影图像与监测设备图像保持一致，如果相差超过预设，则该车载摄影仪的检测道路的图像可信度低，不能作为训练数据集。

[0013] 步骤3具体实现如下：

[0014] 解码器和编码器采用SegNet的方法，使用计算速度更快Adam自适应梯度法优化SegNet语义网络中的参数；使用交叉熵损失作为训练SegNet语义网络的目标函数，同时采用max—pool的采样方法对网络特征值进行提取；训练数据集中的每个类别中，若像素数量的变化超过预设阈值时，则需要根据图像真实类别进行不同地加权，或该图像超出所需范围，不可取。

[0015] 所述的Adam自适应梯度法，具体实现如下：

[0016] Adam更新公式：

[0017]

[0018] 其中(2)对移动均值的更新，(3)对平方梯度的更新：

[0019] mt＝β1mt‑1+(1‑β1)gt (2)

[0020]

[0021] 其中，θt—当前参数；θt+1—下一时间参数；η—学习率；ε—非常小的参数；mt—指数移动均值；vt—平方梯度；gt—在时间跨度上的梯度值；β1，β2∈(0，1]—衰减率；

[0022] 和分别是梯度一阶矩和二阶矩；

[0023] 通过计算偏差校正的一阶矩和二阶矩估计量，从而抵消偏差：

[0024]

[0025]

[0026] 所述的采用max—pool的采样方法对网络特征值进行提取网络特征值的提取优化，具体实现如下：

[0027] 首先将整个图片的图像特征矩阵不重叠的分割成多个大小相同的区域，然后对每个区域提取该区域的最大值，并将其余数值舍弃。

[0028] 步骤4所述的道路帧模糊性判断通过两帧差分法实现，具体如下：

[0029] 记视频序列中第n帧和第n‑1帧图像为fn和fn‑1，两帧对应像素点的灰度值记为fn(x,y)和fn‑1(x，y)，将两帧图像对应像素点的灰度值进行相减，并取其绝对值，得到差分图像Dn；

[0030] Dn(x，y)＝|fn(x，y)‑fn‑1(x，y)|

[0031] 设定阈值T，逐个对像素点进行二值化处理，得到二值化图像Rn；其中，灰度值为255的点即为前景点，灰度值为0的点即为背景点；对二值化图像Rn进行连通性分析，最终可得到含有完整运动目标的二值化图像Rn；

[0032]

[0033] 根据二值化图像Rn判断运动目标，由于车辆行驶过程中，如果两车速度相近，在道路上得到的结果是类似与对静止目标的检测；同时根据道路两侧场景的变换速度，二值化图像Rn会有较大的变化进而推算出道路车辆的行驶速度；

[0034] 当二值化图像Rn的区域值拟合性较高，超出预设值，则代表该时刻的图像拟合度太高不够准确，不能作为识别图像；当二值化图像Rn(x,y,t)与Rn(x,y,t‑1)变化较大，即图像的当前帧与前一帧相差较大，超出变化阈值，作为识别图像可信度不高。

[0035] 本发明的特点及有益效果：

[0036] 本发明实现了一种基于语义分割的道路置信估计模糊帧，对智能驾驶中检测模糊图像有较大意义。本发明中的方法利用图片的语义特性将，道路驾驶的图像经过语义分割处理输出图像特征图，并通过时间差分法实现对图像进行置信估计，找出模糊、不稳定帧。排除这些干扰图像对智能图像识别的成功具有较高的提升。

[0037] 对研究智能驾驶的准确性具有较高的科研价值和应用价值。

[0038] 本发明由多个汽车的摄影仪器实时拍摄采集汽车行驶时道路的图像实时传输给计算系统，进行图像的预处理；对图像进行语义分析；根据前几帧的图像信息进行置信估计；分辨道路情况；指导计算机系统协助驾驶，本发明充分利用了行驶过程钟的图像信息和图像帧的先后性，在统计数据的支持下，对道路进行区域的状况进行比较准确的划分，提升了图像识别结果的鲁棒性，使得驾驶更加安全。

[0039] 此技术可以在计算机，摄像机等硬件系统上实现。

实施方案

[0041] 下面结合附图和实施例对本发明作进一步说明；

[0042] 本文采用模型简单训练时间短，运行时间短的神经网络SegNet(A Deep Convolutional Encoder‑Decoder Architecture for Image Segmentation)其具有训练准确率高、规格小、可视化的特点，并采用训练速度比较快的优化器Adam更新权值，并利用图像连续性快速更新网络模型中的Max‑pooling indeices，并将可视化图像结果进行置信估计，优化输出结果，提高准确率。

[0043] 本发明具体实现步骤如下：

[0044] 步骤1、搭建SegNet语义网络，用于输入检测道路的图像。

[0045] 如图1所示，SegNet是一种用于图像分割的深度卷积编码解码结构，采用核心的可训练的分割引擎包含一个编码网络和一个对应的解码网络，并跟随着一个像素级别的分类层，编码器网络的架构在拓扑上与VGG16网络中的13个卷积层相同都采用了same卷积，不改变图像的大小。在每个卷积层前会有一个bn(Batch Normalisation批量标准化)层和ReLU激活层，bn层将特征值进行标准化处理用于计算当前的学习率和其他参数，激活层采用ReLU作为非线性激活函数使训练网络收敛速度更快，最后使用max‑Pooling(最大池化)采样来缩小图片。解码网络借助采样得到max‑pooling indices(最大池化指标)将映射低分辨率的编码后的特征图扩展到输入分辨率的特征图，最后由soft‑max分类器计算每个像素占所有类别的概率，实现图像到图像的训练的过程，也称端到端的训练过程。

[0046] 步骤2、图像获取：

[0047] 利用车载摄影仪进行录像，然后获取检测道路的图像；由于每个车型的拍摄角度、像素度不相同，因此需要采用单一车种(例如均为轿车或均为suv车型或均为卡车等)在光线充足且连续行驶的视频中的图像作为基础图像输入数据集。

[0048] 同时采用多设备指导图象识别可以提高数据集的可信度，如采用道路固定的监测设备图像作为辅助人工判断，在同一时间下，车载摄影图像与监测设备图像应保持一致，如果相差过大，则该车载图像的可信度较低，不能作为训练数据集

[0049] 步骤3、对数据集中的基础图像进行训练

[0050] 解码器和编码器采用SegNet的方法，使用计算速度更快Adam自适应梯度法优化SegNet语义网络中的参数。使用交叉熵损失作为训练SegNet语义网络的目标函数，同时采用max—pool的采样方法对网络特征值进行提取；训练集(数据集)中的每个类别(例如：道路、天空和建筑像素占主导地位的数据集)中像素数量的变化超过预设阈值时，则需要根据图像真实类别进行不同地加权，或该图像超出所需范围，不可取。

[0051] 所述的Adam自适应梯度法，解决了SGD中学习率不能自适应的问题,同时具有较快的训练速度，协助网络更快的完成训练，具体实现如下：

[0052] Adam更新公式：

[0053]

[0054] 其中(2)对移动均值的更新，(3)对平方梯度的更新：

[0055] mt＝β1mt‑1+(1‑β1)gt (2)

[0056]

[0057] 其中，θt—当前参数；θt+1—下一时间参数；η—学习率(步长因子)；ε—非常小的参数(防止分母出现0)；mt—指数移动均值(有偏一阶矩估计值)；vt—平方梯度(有偏二阶矩估计值)；gt—在时间跨度上的梯度值；β1，β2∈(0，1]—衰减率。

[0058] 和分别是梯度一阶矩(均值)和二阶矩(方差)。当和初始化为0向量时，adam的作者发现他们都偏向于0，尤其是在初始化的时候和衰减率很小的时候(例如，β1和β2趋近于1时)。

[0059] 通过计算偏差校正的一阶矩和二阶矩估计量，从而抵消偏差：

[0060]

[0061]

[0062] 所述的采用max—pool的采样方法对网络特征值进行提取网络特征值的提取优化，具体实现如下：

[0063] 基于视频序列具有连续性的特点，在去模糊去不稳定后，图像的特征基本保证连续变化。因此训练网络时，采用层值相似化比较的方法，如SegNet中的解码器使用从相应的编码器接受的max‑pooling indices(最大池化指标)来进行输入特征图的非线性upsampling(上采样)；这个想法来自设计用于无监督功能学习的架构；在解码网络中重用max‑pooling indics有多个实践好处：(1)它改进了边界划分；(2)减少了实现端到端训练的参数数量；(3)这种upsampling的形式可以仅需要少量的修改而合并到任何编码－解码形式的架构。

[0064] 所述的Max‑pooling indices提取操作如下：

[0065] 首先将整个图片的feature map(图像特征矩阵)不重叠的分割成若干个大小相同的区域，然后对每个区域提取该区域的最大值，并将其余数值舍弃。

[0066] Max‑pooling indeices是提取圈定区域的特征最大值，在图像连续的特点中可以采用图像圈定的偏移性值，对图像下一帧的indeices更新，进而加快下一帧的训练速度。

[0067] 步骤4、道路帧模糊性判断

[0068] 由于摄像机采集的视频序列具有连续性的特点。如果场景内没有运动目标，则连续帧的变化很微弱，如果存在运动目标，则连续的帧和帧之间会有明显地变化。

[0069] 帧间差分法(Temporal Difference)就是借鉴了上述思想。由于场景中的目标在运动，目标的影像在不同图像帧中的位置不同。该类算法对时间上连续的两帧或三帧图像进行差分运算，不同帧对应的像素点相减，判断灰度差的绝对值，当绝对值超过一定阈值时，即可判断为运动目标，从而实现目标的检测功能。

[0070] 两帧差分法的运算过程如下：

[0071] 记视频序列中第n帧和第n‑1帧图像为fn和fn‑1，两帧对应像素点的灰度值记为fn(x,y)和fn‑1(x，y)，将两帧图像对应像素点的灰度值进行相减，并取其绝对值，得到差分图像Dn。

[0072] Dn(x，y)＝|fn(x，y)‑fn‑1(x，y)|

[0073] 设定阈值T，逐个对像素点进行二值化处理，得到二值化图像Rn。其中，灰度值为255的点即为前景(运动目标)点，灰度值为0的点即为背景点；对二值化图像Rn进行连通性分析，最终可得到含有完整运动目标的二值化图像Rn。

[0074]

[0075] 根据二值化图像Rn可以判断运动目标，由于车辆行驶过程中，如果两车速度相近，在道路上得到的结果是类似与对静止目标的检测。同时根据道路两侧场景的变换速度，二值化图像Rn会有较大的变化进而推算出道路车辆的行驶速度。

[0076] 当二值化图像Rn的区域值拟合性较高，超出预设值，则代表该时刻的图像拟合度太高不够准确，不能作为识别图像。当二值化图像Rn(x，y，t)与Rn(x，y，t‑1)变化较大，即图像的当前帧与前一帧相差较大，超出变化阈值，作为识别图像可信度不高。

[0077] 另外还可采用背景差法、光流场法的推算针对运动目标检测的高效方法。

附图说明

[0040] 图1为SegNet网络的基本结构组成。

1一种基于计算机视觉的pH试纸检测方法 2基于计算机视觉的齿轮缺陷检测方法和系统 3基于计算机视觉的高速公路数据高效存储系统 4一种基于计算机视觉的叶片面积测量装置和方法 5基于计算机视觉的铜排冷隔缺陷检测方法及系统 6一种基于计算机视觉的铁炉表面裂纹生长预测方法及系统