课程网站建设特色,马鞍山建设工程监督站网站,aws使用wordpress,wordpress站外搜索时间#xff1a; 2015 年 级别#xff1a; APSIPA 机构#xff1a; 上海电力大学
摘要
新提出的视频编码标准HEVC (High Efficiency video coding)以其比H.264/AVC更好的编码效率#xff0c;被工业界和学术界广泛接受和采用。在HEVC实现了约40%的编码效率提升的同时…时间 2015 年 级别 APSIPA 机构 上海电力大学
摘要
新提出的视频编码标准HEVC (High Efficiency video coding)以其比H.264/AVC更好的编码效率被工业界和学术界广泛接受和采用。在HEVC实现了约40%的编码效率提升的同时其计算复杂度也显著增加。因此迫切需要一种高性能的AVC到HEVC转码器。本文提出了一种基于学习的快速转码算法可以加快CU的判定过程。该方法首先对视频流进行JM解码然后提取重要特征。这些特征被用作机器学习模型的输入从而得到特定的CU深度。在x265中我们跳过未选择的深度并使用早期剪枝提前终止拆分。实验结果表明与x265相比所提转码算法在码率平均下降0.078dB的情况下最多可节省41%的编码速度。该算法在性能和转码速度之间取得了较好的折中。
介绍
H.264 / AVC是2004年推出的视频压缩行业标准。在过去的十年中它已经逐渐被接受并应用于在线内容压缩领域。由于带宽、频谱和存储空间的不足迫切需要新一代视频压缩标准的提出。高效视频编码(HEVC)是由ISO和ITU-T共同制定的新一代视频压缩标准是H.264的后续标准。这让人们对即将需要将日益增长的超高清内容用于多平台交付产生了巨大的乐观情绪。该算法采用灵活的分块策略引入了编码树单元(CTU)但没有引入H.264中常用的宏块(MB)。实验结果表明与H.264相比HEVC在保证相近视频质量的前提下可以节省约40%的码率。HEVC帧内编码采用35个方向模式进行预测。采用并行处理架构加快编码速度提高性能。
H.264到H.265的转码可能面临平衡码率性能和转码速度的挑战。这两个因素之间的权衡是代码转换框架的关键。H.264采用宏块(MB)作为基本单位。运动估计采用宏块(MB)和子块(subMB)的灵活划分。而在HEVC中64x64 CTUs是进行进一步拆分的基本单位。HEVC编码器对CU四叉树进行递归遍历。当编码器检查当前深度上的所有候选模式时当前深度将被分割为子 CU直到最小CU大小。编码器比较所有RD代价选择RD代价最小的CU深度作为最终深度。转码框架首先对H.264码流进行解码提取大量信息并使用合适的特征对H.265码流进行重编码。
为了解决码率转换性能和转码速度之间的矛盾已有许多研究工作。CU的快速判定是一个有意义的研究课题。沈立权等人提出了一种HEVC帧内CU大小和模式选择的快速算法跳过了一些在空间邻近的CU中很少使用的特定深度级别。Dong Zhang等人提出了一种基于功率谱的率失真优化(PS-RDO)模型利用残差、模式和运动矢量来估计最佳CU。通过减少CU和PU分区候选个数可以降低转码复杂度。Fangshun Mu采用一种H.264/AVC编码器级联的HEVC概念编码器架构加速HEVC编码器的CTU拆分过程。收集H.264/AVC宏块(MBs)的细节信息减少CU和PU候选模式以加速CTU拆分过程。郑飞阳等人提出了一种基于H.264解码器残差信息和运动信息的快速转码算法提出了一种相对有效的CU模式和预测单元(PU)模式选择策略。
为了使预测更加精确使用机器学习来选择准确的CU深度。一些早期的工作是用这种方法完成的。Xiaolin Shen将CU分裂问题转化为基于支持向量机(SVM)的二分类问题Luong Pham Van等人提出了一种利用机器学习技术对P图划分分裂标志进行早期预测的快速算法。在每个深度上该方法帮助确定是否进行分割。
提出了一种基于学习的编码器框架。首先对输入流进行JM解码提取有价值的特征;然后使用基于学习的模型使用这些特征计算每个8x8 CU的特定深度。最后采用早跳、早剪枝的方法跳过无意义深度。
本文的其余部分组织如下。在第二节中我们简要介绍了CU的划分和我们的编码器框架。在第三节中我们将介绍详细的结构包括特征选择、MBs到CUs的映射以及CU深度的跳跃和修剪。第四节给出了实验结果第五节对本文进行了总结。
问题分析
高清和超高清视频的出现推动了H.265/HEVC的发展因为更高分辨率的帧需要在相对较大的编码单元中编码。HEVC采用CU代替AVC中的MB。在H.265中CUs的范围从64x64到8x8它们基本上替代了之前标准中的MBs和块。HEVC将帧划分为 CTU并引入了编码单元(coding unit, CU)、预测单元(prediction unit, PU)和变换单元(transform unit, TU) 3个概念以方便对块层次结构的语法表示。
编码结构可以分析为递归计算不同大小的CU和PU。图1显示了一个典型的CTU拆分方式。CU以递归的方式划分从64x64到8x8。对于每种尺寸的CU计算RD代价直到遍历所有尺寸的CU。然后采用具有最小RD代价的CU尺寸并放弃其他拆分方式。因此编码器必须尝试所有可能的CUs和PUs组合这大大增加了编码器的计算负担。 由于H.264的编码结构与HEVC类似因此可以重用H.264码流中的细节信息来帮助判断特定的CU和PU模式。图2说明了H.264和HEVC之间的相似性。 两种编码器都会在纹理特征重要的部分进行分割在信息较少的部分保持原始大小。通过这种方式我们可以使用从H.264流中提取的信息来确定CU是否需要拆分。在这个过程中我们可以通过机器学习显著提高我们的预测。
在帧间预测中同质区域更可能由较大的块表示。通过对H.264/AVC码流最终分割结果的观察粗分割通常应用在运动平滑的区域导致剩余能量较小。如图3所示HEVC为0到3的四种深度范围内的树单元编码开辟了一种新方法。深度值取决于编码单元的大小而64x64表示深度0。与H.264中固定大小的MBs进行了比较。该方法对兴趣内容具有较好的适应性。当深度为2时CU的大小为MB即16x16。这样就可以通过H.264和HEVC建立CU深度模式映射。直观地说如果在H.264中对16x16的MBs进行了划分那么相邻的MBs也进行了划分那么相应的CU至少要划分到深度2。反过来CU甚至可能不会被划分为深度1。
提出的算法
正如在第二节中简要介绍的x264和x265之间的模式映射非常有意义。H.264中16x16大小的MBs可以映射为同帧中x265编码器中对应位置的16x16单元。在H.265/HEVC中两种编码规则之间必须存在一定的相关性才能支持深度选择。因此由于有价值的映射转码框架可以以相对较快的速度工作良好。
系统结构 采用IPPP帧结构提出了一种基于JM解码器和x265编码器的H.264/AVC到H.265/HEVC转码框架。如图4所示我们在接收流时首先对流进行解码。在解码过程中所有需要的信息都从流中提取并存储在x265编码器中。然后对提取的特征进行常规计算并将其作为我们提出的基于学习的模型的输入。基于学习的模型就像一个黑盒输出精确的指定深度。然后x265精确计算指定深度的RD代价而不是递归计算所有深度的RD代价。传统上为特定的CTU计算最佳CU深度是复杂而繁琐的。我们需要遍历从8x8到64x64的所有大小的CTU计算RD成本并相互比较以找到最优的选择。 使用SVM作为CU深度映射的深度预测 该算法基于模式映射特别是H.264和HEVC之间的CU深度选择。
如图4所示所提算法的总体框架分为两部分:(i) H.264到HEVC的转码。(ii)训练最佳CU深度映射模型。首先使用JM解码器对输入流进行解码并在前期工作的基础上提取特征。Eduardo Peixoto提出MV相位方差和DCT系数也可以帮助预测深度。我们尝试将这些特征加入到SVM模型中以提高准确率。结果显示BDRATE增加了。由于特征与视频之间的相关性可能紧密或微弱视频与MV相位方差之间相对较弱的相关性可能会对CU深度决策产生负面影响。对于快速CU深度决策来说选择正确合适的特征并获得良好的结果比使用所有特征更合理。因此该算法使用分区和MB信息。
这些特征可以分为三类:(i) CTU的QP值CTU的QP值在22 ~ 37之间我们将其分为四类(22,27,32,37)。由于QP值对结果有很大影响。(ii)表示数据流中Skip或16x16 Mb大小的Mb类型(iii)表示具体Mb的详细信息的分区类型(16x8,8x16,8x8 Mb大小)。由于H.264需要16mb的数据流考虑到特定区域中相邻Mb的空间相关性并构成16x16 Mb到64x64 CTU之间的CU深度映射因此需要考虑MBs的相邻特征。如图5所示由于HEVC的CTU采用了表示深度1和0的两种尺寸因此我们使用32x32和64x64尺寸作为范围来计算不同相邻MBs之间的空间相关性。在32x32和64x64的情况下以16x16为基本单元计算两个特征的和和方差。因为和代表深度0到1的划分而方差更多地反映了深度2到3。当我们获得特征时首先预测QP并根据QP值进入不同的模型。对于不同的QP值求和和方差计算函数相同具体值不同。 图6给出了SVM训练和预测的具体过程。如上所述提取三类特征并进行分类。然后根据这些特征的空间相关性对其进行预处理计算不同尺度MBs的和和方差。在支持向量机(SVM)的基础上训练模型由支持向量机(SVM)训练特征得到CU深度预测映射模型。该模型根据不同特征的范围输出指定的深度。在训练过程中采集大量训练视频的特征作为SVM训练模型的输入。如图6所示的第二步预处理后的特征可能包括不同尺度的特征之和和方差。我们计算4个较小块在一定尺度下的值的总和以及一个较小块与其他3个较小块的方差作为我们的预处理。所有特征的组合可能有上万种每个特定特征的范围可能非常大每个特征的波动范围也很大。SVM训练模型首先给出所有特征的组合及其对应的深度。 但我们不会计算特征的所有组合因为在许多情况下输出深度可能会发生变化即使其中一个特征只有一点点变化。这可能会导致判断上的一些错误。因此当其中一两个特征在一定范围内发生变化而深度不变时将这些特征与其对应的深度进行组合。
提前跳过和提前剪枝 SVM训练模型将根据输入计算特征并获得指定的深度。然后将此深度设置为在x265中执行的深度以进行提前跳过和提前修剪。
深度范围从0到3深度0表示64x64的尺寸而深度3将尺寸缩小为8x8。当预测深度介于1到3之间时将执行早期跳跃。如果我们跳过不必要的深度可以节省大量不必要的计算。当深度小于预测深度时跳过所有PU模式的RD代价计算。
图7描述了所提算法的过程标志EP表示CU分裂提前结束。它表示早期剪枝预测深度首先计算所有PU模式我们假设最小RD成本模式必须存在于此深度。超过这个深度的可以放弃。x265采用递归四叉树编码策略对图像块进行划分。当EP等于1时递归停止这意味着进行剪枝。
该算法还采用了决策树的动态剪枝方法来降低预测误差。这意味着可能需要考虑一些特殊情况。图6列出了特征的预处理结果。其中一些组合可能导致模糊预测。当特征表明预测深度至少为2时如果16x16 CU的和和方差都超过一定的阈值。深度可以转到2或3。在这种情况下EP被赋值为0只会多计算一个深度。这意味着深度2和3将被计算。在保证编码速度的前提下大大降低了预测误差。
实验结果
由于之前的工作和分析所提算法没有在H.265/HEVC参考模型(HM)上实现该科学模型不适合实际应用。我们采用x265作为基准编码器而不是HM因为它在工业上的常用。x265是HEVC编码的开源实现目标是在基于通用多核CPU平台上进行实时编码。因此在现代多核计算机上x265的编码速度几乎是原始HM的数百倍。目前x265已经被FFMPEG、VLC等著名工具所使用。
对于转码框架首先使用JM对流进行解码提取信息因为JM可以获得更多的特征且解码速度较快。
为了测试算法的效果使用4个QPs(22,27,32,37)对所有测试用例进行编码和比较x265采用相同的QPs。我们定义了两个参数来比较性能和分析质量退化。他们是PSNR和Bits。定义如公式 1 和 2 为了使结果更加直观和令人信服我们计算了BD-PSNR。采用了应用最广泛的Bjontegaard失真度-psnr (BD-PSNR)[8]为了评估编码效率的提高时间节省如下公式 3 表示
利用B类和E类的所有标准测试序列每个类中只测试一个视频训练其他视频建立SVM训练模型。我们用这种方式交叉验证结果。在测试和验证算法的过程中通过检测原始深度和预测深度来修正算法以提高精度。我们可以从我们的方法中推断出深度0和1一定达到了真实的深度因为深度0和1占据了大部分的深度并且会显著地影响结果。显然要更准确地预测深度0和1要简单得多。实验结果为我们的代码转换架构提供了一个相对较好的映射表。
表1展示了算法的运行结果。在BD-PSNR仅下降0.078dB的情况下平均节省了x265 41%的编码速度。在所有测试序列中720p序列的编码时间节省较少BD-PSNR值增加较多。 分辨率在一定程度上影响了转码算法的性能可以作为转码算法的一个特征因为以往的实验大多是在速度非常慢的HM上进行的。基于x265的实验结果更具有参考价值和实用性。
图8展示了本文算法和x265全rdo预置的RD曲线。基于transcoding的CU映射算法的性能与x265相当。码率较低时码率失真性能略有下降。在节省编码速度和码率性能之间取得了很好的折中BD-PSNR平均损失不超过0.08dB。
结论
针对H.264到H.265的转码提出了一种基于学习的快速CU判决算法。该方法为基于机器学习的快速转码提供了一种新的途径。在转码框架中整个算法包括三个重要方面(1)首先经过JM解码的比特流;针对x264中每个特定的16x16 MB提取了几个重要的特征。(2) x265跳过了不必要的CU深度即深度小于上面提到的确定深度。这些深度的计算是不需要的。直接跳到确定的深度无需冗余计算。(3)如果确定的深度不是上一个深度可以放弃后续的深度计算。换句话说只计算选定的深度。跳过CU和提前剪枝可以在不影响编码性能的前提下降低x265编码的复杂度。实验结果表明在比特率损失很小的情况下该算法可以节省40%以上的编码时间。进一步的工作将集中在基于4k甚至8k视频的快速PU决策映射上以满足时代的需求。