[0034] 以下结合附图实施例对本发明作进一步详细描述。
[0035] 本发明提出的一种虚拟视点视频质量预测方法,其总体实现框图如图1所示,其包括以下步骤:
[0036] ①将原始彩色视频记为ICo,将与ICo对应的原始深度视频记为IVo;使用HTM平台,并采用设定的编码量化参数对IVo进行压缩,得到设定的编码量化参数下的失真深度视频,记为IVd;将ICo中的第m帧彩色图像记为 将IVo中的第m帧深度图像记为 将IVd中的第m帧失真深度图像记为 其中,设定的编码量化参数的取值范围为[0,51],在本实施例中设定的编码量化参数如可取25、30、35或40,ICo中的每帧彩色图像的宽度、IVo中的每帧深度图像的宽度、IVd中的每帧失真深度图像的宽度均为W,ICo中的每帧彩色图像的高度、IVo中的每帧深度图像的高度、IVd中的每帧失真深度图像的高度均为H,在本实施例中取W=1024且H=768,1≤m≤M,M表示ICo中包含的彩色图像的总帧数,亦表示IVo中包含的深度图像的总帧数,亦表示IVd中包含的失真深度图像的总帧数。
[0037] 图2a给出了“balloons”彩色视频序列第3视点第1帧原始彩色图像;图2b给出了“balloons”深度视频序列第3视点第1帧原始深度图像;图2c给出了图2b所示的原始深度图经压缩后得到的失真深度图像(编码量化参数为40)。
[0038] ②利用Sobel算子,获取ICo中的每帧彩色图像的梯度图像,将 的梯度图像记为同样,利用Sobel算子,获取IVo中的每帧深度图像的梯度图像,将 的梯度图像记为其中, 和 的宽度均为W, 和 的高度均为H。
[0039] ③计算IVo中的每帧深度图像与IVd中对应的失真深度图像的深度差值图像,将与 的深度差值图像记为 将 中坐标位置为(x,y)的像素点的像素值记为其中, 的宽度为W, 的高度为H,1≤x≤W,1≤y≤H。
[0040] 在此具体实施例中,步骤③中 其中, 表示中坐标位置为(x,y)的像素点的像素值即深度值, 表示 中坐标位置为(x,y)的像素点的像素值即深度值,符号“||”为取绝对值符号。
[0041] 图2d给出了图2b所示的原始深度图像与图2c所示的失真深度图像的深度差值图像。
[0042] ④获取IVo中的每帧深度图像的视差图像,将 的视差图像记为 将 中坐标位置为(x,y)的像素点的像素值记为 然后对IVo中的每帧深度图像的视差图像中的所有像素点的像素值进行四舍五入运算,得到IVo中的每帧深度图像的整型视差图像,将的整型视差图像记为 将 中坐标位置为(x,y)的像素点的像素值记为其中, 和 的宽度均为W, 和 的高度均为H。
[0043] 同样,获取IVd中的每帧失真深度图像的视差图像,将 的视差图像记为 将中坐标位置为(x,y)的像素点的像素值记为 然后对IVd中的每帧失真深度图像的视差图像中的所有像素点的像素值进行四舍五入运算,得到IVd中的每帧失真深度图像的整型视差图像,将 的整型视差图像记为 将 中坐标位置为(x,y)的像素点的像素值记为 其中, 和 的宽度均为W, 和 的高度均为H。
[0044] 在此具体实施例中,步骤④中其中,b表示相机间的基线距离,f表示相
机的焦距,Znear为最近实际景深,Zfar为最远实际景深, 表示 中坐标位置为(x,y)的像素点的像素值即深度值, 表示 中坐标位置为(x,y)的像素点的像素值即深度值。
[0045] ⑤根据IVd中的每帧失真深度图像的整型视差图像,对ICo中的每帧彩色图像进行投影,获取IVd中的每帧失真深度图像对应的失真虚拟视点图像,令 表示 对应的失真虚拟视点图像,将 中的每个像素点的像素值初始化为0,将 中坐标位置为(x',y)的像素点的像素值记为 且满足1≤x'≤W时 其中, 的宽度为W, 的高度为H, 表示 中坐标位置为(x,y)的像素点的像素值;
且x'<1或x'>W时则丢弃 中坐标位置为(x,y)的像素点的像素值
[0046] ⑥获取IVd中的每帧失真深度图像对应的掩模图像,将 对应的掩模图像记为将 中坐标位置为(x,y)的像素点的像素值记为其中, 的
宽度为W, 的高度为H,符号 为向下取整运算符号,符号 为向上取整运算符号。
[0047] 图2e给出了图2c所示的失真深度图像对应的掩模图像。
[0048] ⑦根据IVd中的每帧失真深度图像对应的失真虚拟视点图像,及IVd中的每帧失真深度图像对应的掩模图像,获取IVd中的每帧失真深度图像对应的失真虚拟视点图像中的每个像素点的虚拟视点失真大小,将 中坐标位置为(x,y)的像素点的虚拟视点失真大小记为 然后对IVd中的每帧失真深度图像对应的失真虚拟视点图像中的每个像素点的虚拟视点失真大小进行平方运算,得到IVd中的每帧失真深度图像对应的失真虚拟视点图像的标签图像,将 的标签图像记为将 中坐标位置为(x,y)的像素点的像素值记为 其中,
的宽度为W, 的高度为H, 表示 中坐标位置为(x”,y)的像素点的像素值,且满足1≤x"≤W, 表示 中坐标位置为(x,y)的像素点的像素
值。
[0049] 图2f给出了图2c所示的失真深度图像对应的失真虚拟视点图像中的所有像素点的虚拟视点失真大小构成的图像。
[0050] ⑧将ICo中的每帧彩色图像、IVo中的每帧深度图像、ICo中的每帧彩色图像的梯度图像、IVo中的每帧深度图像的梯度图像、IVo中的每帧深度图像与IVd中对应的失真深度图像的深度差值图像、IVd中的每帧失真深度图像对应的失真虚拟视点图像的标签图像分别划分为U×V个互不重叠的分割块;然后计算ICo中的每帧彩色图像中的每个分割块中的所有像素点的像素值的均值和方差,计算IVo中的每帧深度图像中的每个分割块中的所有像素点的像素值的均值和方差,计算ICo中的每帧彩色图像的梯度图像中的每个分割块中的所有像素点的像素值的均值,计算IVo中的每帧深度图像的梯度图像中的每个分割块中的所有像素点的像素值的均值,计算IVo中的每帧深度图像与IVd中对应的失真深度图像的深度差值图像中的每个分割块中的所有像素点的像素值的均值,计算 中的每个分割块中的所有像素点的像素值的均值;其中,如果W能被n整除,则 如果W不能被n整除,则 如果H能被n整除,则 如果H不能被n整除,则 n的取值为8或16或32或64,在本实施例中取n=64,当W能被n整除且H也能被n整除时,每个分割块的尺寸大小为n×n;当W能被n整除而H不能被n整除时,除最后一行分割块外的所有分割块的尺寸大小为n×n;当W不能被n整除而H能被n整除时,除最后一列分割块外的所有分割块的尺寸大小为n×n;当W不能被n整除且H也不能被n整除时,除最后一行和最后一列分割块外的所有分割块的尺寸大小为n×n,即当图像不能整数分割时将边界剩余部分也作为一个分割块。
[0051] ⑨将ICo中的第1帧彩色图像 中的各个分割块对应的均值和方差、IVo中的第1帧深度图像 中的各个分割块对应的均值和方差、ICo中的第1帧彩色图像 的梯度图像中的各个分割块对应的均值、IVo中的第1帧深度图像 的梯度图像 中的各个分割块对应的均值、IVo中的第1帧深度图像 与IVd中对应的失真深度图像 的深度差值图像 中的各个分割块对应的均值作为训练特征,将 中的各个分割块对应的均值作为训练标签,将训练特征和训练标签组合成训练样本;然后使用SVM对训练样本进行训练,得到SVM回归模型,描述为: 其中,f()为函数表示形式,Ch为训练特征,f(Ch)为训练标签,W为f()的权重矢量,WT为W的转置,b为偏置项, 为核函数,在本实施例中采用径向基核。
[0052] ⑩将ICo中的第m'帧彩色图像 中的各个分割块对应的均值和方差、IVo中的第m'帧深度图像 中的各个分割块对应的均值和方差、ICo中的第m'帧彩色图像 的梯度图像中的各个分割块对应的均值、IVo中的第m'帧深度图像 的梯度图像 中的各个分割块对应的均值、IVo中的第m'帧深度图像 与IVd中对应的失真深度图像 的深度差值图像中的各个分割块对应的均值作为测试特征;然后利用SVM回归模型对测试特征进行测试,得到U×V个输出值,U×V个输出值一一对应为IVd中的第m'帧失真深度图像 对应的失真虚拟视点图像 的标签图像 中的每个分割块对应的测试均值;接着计算IVd中的第m'帧失真深度图像 对应的失真虚拟视点图像 的PSNR值,记为最后计算由所有失真虚拟视点图像构成的失真虚拟视点视频的质量值,记为Q,其中,2≤m'≤M, 表示 中坐标位置为(u,v)的分割块对应的测
试均值。
[0053] 为了验证本发明方法的性能,本发明采用如下测试序列验证本发明方法的性能:Nagoya提供的Balloons序列、Kendo序列;ETRI/MPEG Korea Forum提供的Lovebird1序列;
GIST提供的Newspaper序列;HHI提供的Alt Moabit序列、Book Arrival序列、Door Flowers序列和Leave Laptop序列。表1给出了上述测试序列的详细信息,表1中视点8,10→9表示第
9视点是由第8视点和第10视点两视点绘制得到。为了模拟压缩失真,分别使用HTM平台对上述测试序列的深度视频进行压缩,深度编码单元的最大分割深度为0,编码量化参数(QP)分别选为25、30、35和40。
[0054] 表1测试序列详细信息
[0055]
[0056] 为了验证本发明方法的性能,分别比较了预测结果一致性、准确性和预测速度。
[0057] 表2给出了分别利用本发明方法和背景技术中的虚拟视点视频质量预测算法,对采用25、30、35和40四个不同编码量化参数压缩后的失真深度视频估计得到的失真虚拟视点视频的质量值(PSNR值),原始未压缩的深度图绘制的虚拟视点图像作为参考图像。从表2中可以看出,利用本发明方法得到的失真虚拟视点视频的PSNR值与原始PSNR值较为接近,且增长幅度较为一致。
[0058] 表2分别利用本发明方法和背景技术中的虚拟视点视频质量预测算法,对采用25、30、35和40四个不同编码量化参数压缩后的失真深度视频估计得到的失真虚拟视点视频的质量值(PSNR值)
[0059]
[0060]
[0061] 表3给出了本发明方法和背景技术中的虚拟视点视频质量预测算法的均方根误差、斯皮尔曼相关系数和皮尔逊相关系数。从表3中可以看出,本发明方法的斯皮尔曼相关系数和皮尔逊相关系数分别为0.8865和0.8659,而背景技术中的虚拟视点视频质量预测算法的斯皮尔曼相关系数和皮尔逊相关系数为0.8032和0.8549,都低于本发明方法,说明本发明方法预测的PSNR和原始PSNR的相关性强。本发明方法的均方根误差为0.7097,而背景技术中的虚拟视点视频质量预测算法的均方根误差为0.7264,误差比本发明方法大,可以看出本发明方法预测的PSNR值和原始PSNR误差较小,更加准确。同时本发明方法预测PSNR时所用的时间远远小于背景技术中的虚拟视点视频质量预测算法,时间复杂度低。
[0062] 表3本发明方法和背景技术中的虚拟视点视频质量预测算法的均方根误差、斯皮尔曼相关系数和皮尔逊相关系数
[0063]