视频质量评判标准
压缩,⼀共有两种,⼀种是有损压缩(lossy compression),⼀种是⽆损压缩(lossless compression)。有损压缩是指把编码后的⽐特流重新正确还原后跟原始⽂件存在差异,这个差异就是“损失”;⽽⽆损压缩指的是把编码后的⽐特流正确还原后能得到完整的原始⽂件,恢复⽂件与原始⽂件中不存在差异/损失。⽆损压缩⼀般应⽤在重要⽂件传输,例如医疗资料,军事⽂件,这类⽂件不允许任何传输或者存储错误,复原后的⽂件必须保证100%的正确还原。⽽我们⽇常⽣活中⼀般都是有损压缩,⽐如⽹上观看的视频,收听的⾳乐等都是有损压缩的。
在视频压缩编码领域,绝⼤部分情况都是采⽤有损编码,⽐⼈眼感觉不到的,很难感觉到的部分索性去除,在保证画质的前提下,同时减少需要传输的数据,缩减需要⽤于存储的空间。但是,对于有损压缩⽽⾔,压缩率越⾼,压缩后的⽂件虽然越⼩,但是损失就越多,与此同时,视频的画质也随之下降。对于⼀个优秀的编解码器,当然是压缩率越⾼越好,压缩后的视频的画质越⾼越好。所以,对于视频压缩的评判准则就少不了。
视频的画质评价可以分为两类:以MOS测试进⾏评价的主观性评价和以计算PSNR的客观性评价。
客观评价 Objective
客观评价是以标准的数学公式计算原视频与解码出的视频之间的差异,当今被⼴泛使⽤的评判标准是PSNR,其全称为(Peak Signal to Noise Ratio)原理是利⽤原视频与有损压缩后产⽣的损失之间的⽐例来判断的。公式为:
其中,MAX为视频使⽤的信号的最⼤值,如视频是8⽐特的话,那MAX就为255。单位是分贝(dB),MSE为均⽅误差(Mean Squared Error)即原始图像与解码后的重建图像之间的误差,误差越⼩,则表⽰还原后的质量越好,那PSNR就越⼤。
PSNR的计算仅仅适⽤于有损压缩,对于⽆损压缩,因为MSE值将为0,则除式的值将为⽆穷⼤,所以对于⽆损压缩,PSNR是不适⽤的。
为了评价⼀个编解码器的性能,不能仅仅靠PSNR,也需要同时考虑压缩后得到的⽐特流的⽐特率(bitrate),这样,同时将PSNR和⽐特率都考虑到的率失真计算就可以但此重任。率失真的计算其实可以简单地理解为编码两个视频后得到的⽐特流,如果PSNR相同,那么⽐特少的编码器则更优,如果两者使⽤的⽐特数相同,那么PSNR⾼的编码器则更优。
Bit-rate matric
依据HEVC共同测试⽥间(CTC:Common Test Condition),在提交提案的时候,通常是测试22,27,32,37这4个QP,编码后,得到⽐特率,然后解码后,得到重建视频,与原视频相⽐,就可以得到PSNR,下⾯是⽤测试B影像 Kimono 进⾏测试得到的结果。
type Reference Bitrate Reference Y PSNR Test Bitrate Test Y PSNR 225896.1841.505234.5941.52
272674.0039.462354.2739.50
321270.5336.991150.4037.03
37616.1234.46580.8334.70
从上表看到,经过改动的编码器(Test)相应的Bitrate相⽐起Reference有所降低,⽽灰度PSNR有所上升。
主观评价 Subjective
视频质量不仅仅要靠客观的统计数字来进⾏评判,也要靠⼈的主观判断来进⾏评判,毕竟,视频最终是要给⼈看的,客观评价得到的结果再好,如果没有适⽤⼈类视觉系统,那么我们最终看视频的体验也是不好的。所以⼀个视频进⾏编码重建以后,组织实验员来进⾏⼈眼判断质量也是重要的。
MOS测试,Mean Opinion Score Test,组织⼀定数量的⼈,尽可能地组织不同类型的⼈,尽量给实验制造随机性,多样性,使实验更具有⼀般性,可信性。
进⾏客观性评价的时候,测试对象坐于显⽰器前,每位测试对象可以坐得有远近,⽅向⾓度有不同,尽量模仿实际⽣活中的⼈,操作者在前⽅显⽰器上播放影像,当然,播放也是有规矩的。
上图中,按时间顺序,⼀共分为两个阶段,⼀个是左边的前期测试阶段(没有任何标注),另⼀个是右边的投票阶段(标注有vote),其中,T1,T3时间段均是播放影像的时间,T2,T4均是休息的时候(显⽰器上显⽰灰⾊)。
在测试中,⼀共有两种影像,⼀个是原始影像,没有失真的,⼀个是测试影像,带有失真的,上图中第⼀个T1和第⼆个T1播放同⼀种影像,第⼀个T3和第⼆个T3播放同⼀种影像,到底是原始影像还是测试影像,随机!测试者⽆法提前得知。
等过完前⾯的前期测试阶段后,在Vote阶段,被测试者们就需要对影像进⾏打分了(即Vote),打分的图⼀般采⽤DSCQS⽅式评分图。
上⾯就是DSCQS打分图,27,28,29,30,31是视频编号,这⾥可以对五组(原图+测试)视频进⾏打分,针对每⼀对,当进⾏到Vote阶段的时候,Vote阶段第⼀个T1过完,在A栏打分,Vote阶段T3过完,给B栏打分。
打分栏分为五个级别,即Excellent⾮常好,Good好,Fair⼀般般,Poor差,Bad很差五个级别,打分的时候,在每个级别对应的区域划线或者打勾即可。实验完成后后由测试者收集进⾏统计作为主观评判结果。更详细的流程参考
当然,主观性测试也是有它的缺点的,⼀来是要组织这么⼀⼈,⼈⼯费少不了,⼆来,组织⼈来进⾏测试不能做到实时进⾏,只是⽤已经编码好的影像进⾏播放来进⾏测试。
附加⼏个评价指标计算式
MSE
Mean Square Error的缩写,表⽰参数估计值与参数真值之差平⽅的期望值,可以⽤来评价数据的变化程度,其值越⼩,说明预测模型描述实验数据就越贴近,越准确。
RMSE
Root Mean Square Error 均⽅根误差,是MSE的平⽅根。RMSE和MSE其实实质是⼀样的,只是为了更好的表达⽽已,⽐如⼀些数据⾮常⼤的时候,如⼈⼝数量统计,化学分⼦数⽬的计算的时候,对MSE开⽅以后能更明显地辨别结果。
MAE
Mean Absolute Error 的缩写,平均绝对误差是绝对误差的平均值,能更好地反映预测值误差的实际情况.。
SD
看不了视频
Standard Deviation 标准差的缩写,标准差是⽅差的算术平⽅根,能反映⼀个数据集的离散程度。平
均数相同的两组组数据,标准差未必相同。
x
其中, 为所有样本的平均值。