基于深度学习的快速QTMT划分
彭双1,王晓东1,彭宗举1,2,陈芬2
(1. 宁波大学信息科学与工程学院,浙江宁波 315211;2. 重庆理工大学电气与电子学院,重庆 400054)摘 要:与之前的编码标准相比,多功能视频编码(versatile video coding,VVC)进一步提高了压缩效率。
嵌套多类树的四叉树(quadtree with nested multi-type tree,QTMT)结构是提高编码增益的关键之一,同时极
大地增加了编码复杂度。为降低VVC编码复杂度,提出了一种基于深度学习的快速QTMT划分方法。首先,提出了注意力−非对称卷积结构来预测划分模式的概率。然后,基于阈值提出了快速划分模式决策。最后,提出了编码性能与时间的代价函数来求解最优阈值,提出了阈值决策方法。实验表明,算法在不同档次下的时
间节省分别为48.62%、52.93%、62.01%,BDBR分别为1.05%、1.33%、2.38%。结果表明,算法的时间节省
和率失真性能优于其他快速算法。
关键词:VVC;QTMT;快速划分决策;深度学习
中图分类号:TP393
文献标识码:A
doi: 10.11959/j.issn.1000−0801.2021062
Fast QTMT partition decision based on deep learning
PENG Shuang1, WANG Xiaodong1, PENG Zongju1, 2, CHEN Fen2
1. Faculty of Information Science and Engineering, Ningbo University, Ningbo 315211, China
2. Faculty of Electrical and Electronics, Chongqing University of Technology, Chongqing 400054, China
Abstract: Compared with the predecessor standards, versatile video coding (VVC) significantly improves compres-
sion efficiency by a quadtree with nested multi-type tree (QTMT) structure but at the expense of extre
mely high cod-
ing complexity. To reduce the coding complexity of VVC, a fast QTMT partition method was proposed based on deep learning. Firstly, an attention-asymmetric convolutional neural network was proposed to predict the probability of partition modes. Then, the fast decision of partition modes based on the threshold was proposed. Finally, the cost of coding performance and time was proposed to obtain the optimal threshold, and the threshold decision method was proposed. Experimental results at different levels show that the proposed method achieves an average time saving of
48.62%/52.93%/62.01% with the negligible BDBR of 1.05%/1.33%/2.38%. Such results demonstrate that the pro-
posed method significantly outperforms other state-of-the-art methods.
Key words: VVC, QTMT, fast partition decision, deep learning
收稿日期:2020−09−30;修回日期:2021−04−10
基金项目:国家自然科学基金资助项目(No.61771269,No.61620106012);浙江省自然科学基金资助项目(No.LY20F010005);宁波市自然科学基金资助项目(No.2019A610107);重庆理工大学
科研启动基金资助项目(No.2020ZDZ029,No.2020ZDZ030)Foundation Items: The National Natural Science Foundation of China (No.61771269, No.61620106012), The Natural Science Founda-tion of Zhejiang Province (No.LY20F010005), The Natural Science Foundation of Ningbo (No.2019A610107), The Scientific Research
Foundation of Chongqing University of Technology (No.2020ZDZ029, No.2020ZDZ030)
研究与开发·74·
1 引言
随着超高清、高动态、宽域和全景视频等技术的出现,高效视频编码(high efficiency video coding,HEVC)[1]的压缩效率明显不足,因而多功能视频编码(versatile video coding,VVC)[2]被提出。在相同客观质量条件下,VVC的比特率约为HEVC的50%。嵌套多类树的四叉树(quadtree with nested multi-type tree,QTMT)[3]划分结构是VVC编码增益提高的关键[4],但同时带来了编码复杂度的急剧上升。在帧内配置模式下,VVC编码复杂度约为HEVC的18倍[5]。此外,与之前编码标准中帧内编码复杂度远低于帧间编码不同,VVC中帧内编码复杂度却高于帧间编码,前者约为后者的1.3倍[6]。因此,降低VVC 帧内编码复杂度具有重要意义。
目前已有许多学者对HEVC和VVC低复杂度编码进行了研究。研究方法主要分为基于统计和基于学习的方法。在基于统计的快速编码算法中,姚英彪等[7]结合空域相关性和纹理信息提出了快速划分方法。Kuo等[8]提出一种基于时空域编码单元(coding unit,CU)的决策方法,利用已编码相邻编码树单元(coding tree unit,CTU)和同位CTU深度信息,加权预测当前CTU的深度范围。Jamali等[9]利用绝对变换残差和(sum of absolute transformed difference,SATD)代价对率失真代价(rate-distortion cost,RDC)进行估计,从而减少进行率失真优化(rate distortion optimi-zation,RDO)的模式,同时将预测的RDC建模为正态分布,通过置信区间进一步改进预测效果。Huang等[10]为平衡率失真(rate distortion,RD)性能与编码时间,通过优化率失真复杂度对编码模式进行决策,其中,RD性能和编码时间通过提取特征来估计。参考文献[8,10]虽然能有效降低编码复杂度,但仅针对HEVC中QT划分进行决策,对VVC编码中QTMT划分并不适用。Lei等[11]通过简化粗选模式决策估计不同划分方向的SATD代价,将子CU不同划分方向的RDC作为当前CU的估计代价,最后根据估计的SATD代价和RDC综合决定当前CU的最优划分方向。Chen等[12]和Fan等[13]通过提取方差和梯度特征,对特征设定阈值来决策提前终止和跳过不可能的模式,最终仅对一个模式进行RDO,极大降低了编码复杂度。Park等[14-15]利用中间编码信息对跳过模式和终止运动估计进行决策。在参考文献[14]中,通过对三叉树划分进行统计分析,提出将已编码CU代价作为概率决策特征,从而决定是否跳过三叉树划分。在参考文献[15]中,利用已编码CU的最佳模式对终止仿射运动估计进行决策,利用运动矢量方向缩减仿射运动参考帧的数量。参考文献[12-13]仅在单一的CU级实施决策,参考文献[14]仅跳过三叉树划分,而参考文献[15]仅对仿射运动估计进行决策,以上方法节省的时间都非常有限。
在基于学习的快速编码算法中,Liu等[16]改进了传统复杂度特征并作为分类器输入,通过两个支持向量机分类器将CU分为3类,并且利用惩罚因子平衡性能损失与时间复杂度。Chen等[17]引入非对称卷积核来提高特征提取能力,通过置信区间平衡复杂度与性能损失,极大降低了HEVC编码复杂度,同时,通过预测最小RDO候选模式数量来加速模式决策过程。Katayama等[18]充分利用了CU的空域相关性,将相邻CU亮度信息作为卷积神经网络(convolutional neural network,CNN)的输入,实现了HEVC低复杂度帧内编码,但不利于硬件编码。Kim等[19]建立了基于CNN的多级二分类模型来决策CU划分,将CU亮度信息作为模型的输入,并将编码的中间信息作为外部特征输入模型。Xu等[20]建立了分层CU划分映射来描述CTU的划分情况,提出了提前终止的分层CNN模型,在保证编码性能的前提下显著降低了HEVC帧内编码复杂度。Tang等[21]
·75·电信科学 2021年第4期
将可变池化CNN应用到VVC帧内编码中,使得CNN能适应不同形状的CU。然而,在池化层中丢失了特征信息,导致最终模型的预测结果较差。Yang等[22]通过人工方式提取特征,将特征输入决策树模型进行训练,最终决定CU是否划分。虽然决策树模型能充分挖掘出特征与划分之间的潜能,但特征选取受人为因素影响较大。Fu等[23]利用了贝叶斯分类器,将是否跳过垂直模式建模为二分类问题,以当前CU、子CU划分模式和角度模式作为分类器的输入。Amestoy等[24]提出一种可调节的机器学习方法,通过调整风险区间的大小来控制VVC的性能损失。参考文献[16,20]针对HEVC均提出了有效的快
速编码方案,对基于学习的VVC快速编码方法具有一定的启发意义。参考文献[16,22,24]均通过人为选取特征,不能充分挖掘CU的特征信息。
上述方法主要将划分决策建模为分类问题,而实际问题中分类边界通常不明确,因此本文将划分决策建模为回归问题。同时考虑到深度学习在编码各领域取得的突出效果[25],本文结合深度学习模型来预测划分模式的概率,提出了一种基于深度学习的快速VVC划分决策方法。实验结果表明,所提出算法在保证编码性能几乎不损失的同时极大地降低了编码复杂度。
2 快速QTMT划分方法
本文首先分析了QTMT的复杂度,然后提出注意力−非对称卷积网络(attention asymmetric CNN,AA-CNN)结构来预测划分模式的概率,最后提出了基于AA-CNN的快速模式决策模型。
2.1 QTMT复杂度分析
快速学习VVC中采用QTMT结构使得CU能适应不同图像内容。在VVC编码过程中,每个CU先按照四叉树(quad tree,QT)划分,再在QT叶节点处按多类树(multi-type tree,MT)递归划分。MT划分结构包括4种划分模式,分别为垂直二叉
树(vertical binary tree,VB)、水平二叉树(horizontal binary tree,HB)、垂直三叉树(vertical te
rnary tree,VT)和水平三叉树(horizontal ternary tree,HT)。除上述划分的模式以外,还有不划分的模式Intra,这些模式组成了QTMT的划分模式列表(partition mode list,PML)。最优模式m*为PML中RDC最小的模式,计算式如下:
PML
*min RDC
m
m
m
∈
=(1)
其中,PML={1,2,3,4,5,6},分别对应{Intra, QT, HB, VB, HT, VT},RDC m的计算式如下:
RDC
m m m
D R
λ
=+⋅(2)其中,D m和R m分别为编码模式m产生的失真和所需要的比特,λ为控制RD性能的拉格朗日乘子。实际码流中仅模式m*被编码,因此QTMT结构包括了大量冗余模式。虽然VVC快速划分策略[26]能跳过部分划分模式,但仅对纹理较为平坦的区域有效。
2.2 划分模式概率预测
2.2.1 数据集构建
不完全的PML会影响模式的真实分布,使得模型的预测准确率降低。本文建立训练数据集时,仅采用具有完整PML的CU。从A1、A2、B、C、D和E 6类标准测试序列中分别挑选了序列Campfire、ParkRunning3、Cactus、BQMall、BasketballPass和Johnny,每个序列选取60 000个数据样本,其中大小为32×32和16×16的CU各30 000个,并利用3次插值将16×16的CU上采样为32×32的CU。数据集中样本分别用4个量化参数(quatization parameter,QP) 22、27、32和37进行编码,总样本数量为60 000×6×4=1 440 000,每个样本包括CU亮度信息、CU大小和QP,样本标签为CU最优划分模式。
数据集被随机地划分为训练集(9/10)和校验集(1/10)。
2.2.2 AA-CNN结构
本文采用CNN来预测划分模式的概率,结合
研究与开发 ·76·
MT 划分非对称性和特征重要性,提出了AA-CNN 结构。MT 划分非对称性体现在子CU 形状非正方形,为提高非对称特征的提取能力,本文引入了非对称卷积核。注意力模块可实现特征通道[27]和卷积核[28]的权重分配,因此在本文中引入该模块。本文通过压缩原始图像来获取注意力,以便从全局控制特征权重的分配,如图1所示,首先将
32×32的CU 展开为1×1 024的向量,再通过 1 024×128和128×N 两个维度逐渐减小的全连接层进行压缩得到1×N 的注意力向量,其中N 为被控制的特征向量通道数,并且QP 作为外部特征被加入全连接层,最后通过Softmax 函数进行激活。此外,为了加快模型的收敛速度,激活函数引入了参考文献[28]中所使用的温度控制,即对
Softmax 函数的输入除以一个温度系数τ,τ随着训练次数发生改变。τ初始值为30,使得各特征权重相当,可有效加快收敛速度,随着训练次数的增加,τ
逐渐减小,当τ=1时激活函数退化为原始Softmax 函数。
图1 注意力模块
本文设计的AA-CNN 结构如图2所示,分为数据预处理、特征提取、特征拟合以及结果输出
4部分,具体如下。
(1)获取亮度CU 并将大小缩放至32×32,再进行归一化处理。
(2)该结构包括L1、L2和L3 3个非重叠卷积层,每层包含3个分支,第一层各分支的卷积
核大小分别为4×2、
4×4和2×4(滤波器数量为16),第二层和第三层各分支的卷积核大小均分别为
2×1、2×2和1×2(滤波器数量为24和32)。与对称卷积核相比,非对称卷积核可以提取不同方向的特征,更加适应MT 划分。此外,通过压缩输入CU 获得注意力向量,再根据注意力向量对每个特征通道进行权重分配。每个注意力模块对应一个卷积模块,共9个,分别为注意力1~9,该模块的引入可有效提高网络容量并消除特征冗余。 (3)将每个分支提取的特征展开并拼接为1×2 176的特征向量,然后通过3个大小分别为2 176×128、
128×96和96×6的全连接层L4、L5和L6进行特征拟合,并且在每个全连接层中将QP 作为外部特征加入特征向量。
(4)采用Softmax 函数激活预测值并输出1×6的预测概率向量,分别对应PML 中各模式为最优概率。
交叉熵用于度量两个概率分布间的差异性,差异越大交叉熵越大,反之越小。因此,本文采用交叉熵作为训练AA-CNN 的损失函数,计算式如下:
Loss (,)(1,1)H p q H p q =+−−
(3)
其中,H (.)为交叉熵运算符,p 和q 为预测和标签向量。 2.3 模式决策
2.3.1 快速模式决策
为有效平衡编码性能与时间,应在尽可能保
留最优模式的情况下保留最少模式数量,本文所提出的快速模式决策流程如图3所示。首先调用
AA-CNN 模型得到预测概率向量p ;再按概率对PML 进行降序排序,可表示为: (,)Sort(PML,)L p p ′
=
(4)
其中,L 和p ′分别为排序后的模式列表和预测向量;然后累加概率,并设定阈值φ确定最小保留模式数量n ,计算式如下:
{1,2,3,4,5,6}
1
arg min s.t.x
k
x k n x p ϕ∈=′=∑≥ (5)
·77·电信科学 2021年第4期
图3 快速模式决策流程
其中,x为可保留模式数量,p k′为p′中第k个元素;最后,根据n更新PML为L′,L′={L i|1≤i≤n},L i为L中第i个元素。因此,本文提出的快速编码方法仅对n个模式进行RDO,nÎ[1,6],极大地降低了编码复杂度,并可通过φ来控制性能的损失。
2.3.2 阈值决策
为选取最佳阈值φ*来平衡编码性能与时间,本文提出了性能与时间的代价函数。模型预测准确率α能表征编码性能,α越大则性能越高;L′的模式数量n能表征时间节省(time reduction,TR),n越小则时间节省越多。因此,定义代价函数如下:
Cost(,)n n
ααω
=−⋅(6)其中,ω为两者的平衡因子,当ω<1时,可以节省更多的时间;当ω>1时,性能更高。
α与φ直接相关,为建模二者的关系,本文在QP=32、CU大小为32×32的条件下对多个序列进行了统计分析。统计结果如图4所示,随着φ增加,α也增加,其中实线通过线性拟合获得。显然,对于所有序列两者均符合线性关系。因此,本文建模α为关于φ的线性函数,计算式如下:
αμϕν
=⋅+(7)其中,μ和ν是与训练模型和图像相关的参数。
同理,本文对n与φ进行了统计分析。统计结果如图5所示,随着φ增加,n的趋势呈现指数增长。因此,本文将n建模为关于φ的指数函数,指数函数有exp1和exp2两种类型,计算式
图2 AA-CNN结构
发布评论