- 核心技术
- 以原创技术体系为根基,SenseCore商汤AI大装置为核心基座,布局多领域、多方向前沿研究,
快速打通AI在各个垂直场景中的应用,向行业赋能。
NTIRE 2021 三冠一亚 | BasicVSR 加强版超分算法!
在 NTIRE 2021 上,商汤科技-南洋理工大学联合 AI 研究中心 S-Lab 对 BasicVSR 传播和对齐模块作出进一步设计,提出了 BasicVSR++。通过提出的二阶网格传播(second-order grid propagation) 和光流引导可变形对齐 (flow-guided deformable alignment),BasicVSR++ 在大约相同参数量下大幅度超过现有方法。更重要的是,BasicVSR ++ 可以扩展到不同的视频恢复任务中。在 NTIRE 2021 中,BasicVSR ++ 在视频超分和压缩视频增强任务中获得三冠一亚的优异成绩。
论文名称:BasicVSR++: Improving Video Super-Resolution with Enhanced Propagation and Alignment
Part 1 问题和挑战
视频超分辨率的其中一个难点是需要从高度相关但未对齐的视频帧中收集补充信息以进行恢复。循环 (Recurrent) 结构是用于视频超分辨率任务的流行框架选择。通常,在循环模型中跨帧传输长期信息和对齐特征的问题仍然是一个很艰巨的任务。在 CVPR 2021 提出的 BasicVSR [1] 采用具有特征对齐功能的双向传播,可以有效地利用整个输入视频中的信息。它能够充当简单但强大的 backbone,可以在其中轻松添加组件以提高性能。但是,它在传播和对齐方面的基本设计限制了信息聚合的功效。我们从不同的实验可以观察到,现有方法一般难以恢复精细的细节,尤其是在处理遮挡的复杂区域时。因此,我们有必要在传播和对准方面进行精细设计。
Part 2 方法介绍
为了更有效地传播和聚集信息,在这项工作中,我们通过设计二阶网格传播 (second-order grid propagation) 和光流引导可变形对齐 (flow-guided deformable alignment) 来改进 BasicVSR。下图是 BasicVSR ++ 的概述:
Second-Order Grid Propagation:二阶网格传播解决了 BasicVSR 中的两个局限性:i)我们利用如图所示的网格传播方式进行更有效的双向信息聚合,并且 ii)放松了在BasicVSR中一阶马尔可夫性质的假设,并将二阶连接整合到网络中,以便可以从不同的时空位置聚合信息。以上两方面的修改都改善了网络中的信息聚合能力,并提高了网络对遮挡区域和精细区域的鲁棒性。
为了计算特征,我们首先使用我们提出的的光流引导可变形对齐进行特征对齐:
然后把这些特征连接起来并输进残差模块中:
Flow-Guided Deformable Alignment:由于在可变形卷积 (DCN) 中引入了多样的偏移量,可变形对齐跟光流对齐相比有着显着改善。然而,可变形对齐模块可能很难训练。训练的不稳定性通常会导致偏移量溢出 (overflow),从而使最终性能下降。为了利用 DCN 偏移量的多样性且保证其训练的稳定性,我们提出了光流引导的可变形模块。这是由可变形对准和基于流的对准之间的紧密关系所激发的[3]。我们先讨论一阶设定,结构如下图所示:
给定从 LR 图像计算出的特征,为先前时间步计算出的特征以及到前一帧的光流,我们首先使用光流大致对齐特征:
然后将预对齐的功能用于计算 DCN offsets 和 modulation masks。这里值得留意的是,我们不直接计算 offsets, 而是计算光流的残差。
然后把 DCN 应用于未对齐的特征:
以上公式仅设计用于对齐单个特征,因此不适用于我们的二阶传播。适应二阶设置的最直观方法是将上述过程分别应用于两个特征。但是,这需要加倍的计算,从而导致效率降低。此外,单独的对齐方式可能会忽略来自特征的补充信息。因此,我们需要允许同时对齐两个特征。更具体地说,我们将扭曲的特征和光流连接起来来同时计算一阶和二阶的偏移量:
然后同样地把 DCN 应用于未对齐的特征:
与直接计算 DCN offsets 的现有方法不同,我们提出的光流引导可变形对齐采用光流作为初始偏移量。这个设计有两个好处。首先,由于 CNN 只具有局部感受野,因此可以通过使用光流对特征进行预对齐来辅助偏移量的学习。其次,通过仅学习残差,网络仅需要学习与光流的微小偏差,从而减少了之前可变形对齐模块的负担。此外, DCN 中的 modulation mask 可以用作一个注意机制以自适应地调节不同像素的权重,从而提供额外的灵活性。
Part 3 实验结果
上图的定量实验可以证实 BasicVSR ++ 的有效性。跟 sliding-window 方法相比, BasicVSR++ 能在更少参数量下达到更优秀的效果。例如,BasicVSR++ 只需要 EDVR 35% 的参数量便能大幅度超越 EDVR。另外,在大致相同的参数量下,BasicVSR++ 大幅超越 BasicVSR 和 IconVSR。这些都能证明 BasicVSR++ 的优越性。从下图两个较困难的例子我们可以看出, 通过我们提出的改进模块,BasicVSR++ 能跟有效的把视频的信息利用起来,相对之前的方法,可以恢复出更多的纹理细节。
Part 4 消融实验
接着,我们通过消融实验分析我们提出的部件。
从上图可以看出,我们提出的部件均对最终的效果有着明显的作用,我们的 BasicVSR++ 比起没有部件的 baseline 高出 0.91 dB,证明了部件的有效性。
Second-Order Grid Propagation:我们进一步提供一些定性比较,以了解所提出的传播方案的贡献。如上图所示,在包含精细细节和复杂纹理的区域中,二阶传播和网格传播的贡献更加明显。在那些区域中,来自当前帧的有限信息可用于重建。为了提高这些区域的输出质量,必须从其他视频帧进行有效的信息聚合。利用我们的二阶传播方案,可以通过可靠而有效的传播来传输信息。这些补充信息实质上有助于恢复精细的细节。如示例所示,加入我们设计组件的网络可以成功恢复细节纹理,而去掉这些组件的网络则输出相对模糊的结果。
Flow-Guided Deformable Alignment:在上图中,我们将偏移量 (DCN offsets) 与光流进行了比较。通过仅学习光流中的残差,网络可产生与光流高度相似但具有可观察差异的 offsets。当与仅从运动(光流)指示的一个空间位置聚合信息的基线进行比较时,我们提出的模块允许从周围的多个位置检索信息,从而提供更大的灵活性。这种灵活性能有效提升特征的质量。当使用光流执行变形时,由于空间变形中的插值操作,对齐的特征包含模糊的边缘。相反,通过从附近区域收集更多信息,我们提出的模块所对准的特征更加清晰,并保留了更多细节。
接着,为了展示我们设计的优越性,我们将对齐模块与两个变体进行了比较:(1)不使用光流。(2)补偿保真度损失 [2],即该光流仅用作损失函数中的监督(而不是像我们的方法那样用作基本 offset)。如下表所示,不使用光流作为指导,不稳定会导致训练崩溃,从而导致非常差的 PSNR 值。使用偏移保真度损失时,训练能稳定下来。但是,但 PSNR 跟 BasicVSR++ 比较下降了 2.17 dB。我们的改进对齐方式直接将光流合并到网络中,以提供更明确的导引,从而产生更好的结果。
Part 5 结语
在这项工作中,我们用两个新颖的组件改进了 BasicVSR,以增强其在视频超分辨率任务中的传播和对齐性能。我们的模型 BasicVSR ++ 在保持效率的同时,大大超越了现有的方法。这些设计可以很好地推广到其他视频还原任务,包括压缩视频增强。BasicVSR++ 在今年 NTIRE 2021 中不同视频复原任务中取得三冠一亚的优异成绩。该方法也许对其他视频增强或复原任务(如去模糊和去噪)也会有更好的效果,感兴趣的同学可以去尝试。
Part 6 作者介绍
陈焯杰 (Kelvin C.K. Chan) | 南洋理工大学 S-Lab 和 MMLab@NTU 三年级博士生。在顶级会议上发表过五篇论文,在 NTIRE 视频复原比赛中共获得七个冠军。导师是吕健勤 (Chen Change Loy) 副教授。当前主要研究兴趣为图像和视频复原,主要包括超分辨率和去模糊等。
个人主页:https://ckkelvinchan.github.io/
实验室主页:https://www.mmlab-ntu.com/
论文地址
https://arxiv.org/abs/2104.13371
Reference
[1] Kelvin C.K. Chan et al. "BasicVSR: The Search for Essential Components in Video Super-Resolution and Beyond." CVPR, 2021.
[2] Kelvin C.K. Chan et al. "Understanding Deformable Alignment in Video Super-Resolution." AAAI, 2021.