双目图像超分辨（Stereo Image SR）当前处于起步阶段，领域内算法数量不多，性能还有较大的提升空间。笔者将在本文中简述双目图像超分辨领域近年来的主要工作，并简要分析该领域存在的挑战与未来工作。

一、简介与相关工作

大家检查视力时经常会有这样的体验：有时左眼与右眼均无法单独看清视力表的某一行，但是双眼一起就能看清。其中所蕴含的原理让我们深思：左眼与右眼所成图像通常含有互补信息，其有利于对图像的重建与细节的恢复。

这便是双目图像超分辨的核心思想—— 利用左右图的互补信息提升图像的分辨率。随着双摄像头成像设备的发展，双目图像超分辨在手机摄像、遥感、侦察监视、智能机器人等领域具有光明的发展前景。

1. StereoSR （CVPR2018）

StereoSR 出自韩国科学技术院（KAIST），可以算作是双目图像超分辨领域的 “开山之作”（不是严格意义上的）。其设计思路相对比较简单，网络结构如下图：

StereoSR在解决双目图像视差方面的思路为：将右图水平移动不同像素，生成64张副本图像，将其与左图级联后送入网络进行重建。

对于图像中的任一区域（前提是视差不太大），左图总会和移动某个像素值之后的右图对应，从而对左右图的互补信息进行利用。其网络结构类似于单图超分辨网络VDSR，在生成高分辨率Y通道图像后，该算法又利用另外一个子网络去学习YCbCr到RGB的转换。

StereoSR是双目图像超分辨领域一个比较初级的奠基性的工作，实验结果也仅仅展示了其性能优于SISR网络SRCNN 与 VDSR。

PASSRnet 出自笔者所在课题组，前期已有公众号对该工作进行了报道，内容见链接。相比于StereoSR，PASSRnet的网络设计更加精巧，巧妙地将注意力机制引入到双目视觉中并提出“视差注意力机制”，其网络结构如下：

PASSRnet网络主要分为特征提取模块（包含残差ASPP与残差块）、视差注意力机制模块（PAM）以及图像重建模块。视差注意力机制模块能够沿双目图像视差方向融合互补信息，不受视差大小的限制，相比于StereoSR具有更强的灵活性与鲁棒性。

实验结果方面，PASSRnet的性能超越了单图超分辨算法SRCNN、VDSR、DRCN、LapSRN、DRRN，以及双目图像超分辨算法StereoSR。

数据集方面，双目视觉领域现有的数据集（例如KITTI数据集、Middlebury数据集以及ETH3D数据集）更多地针对深度估计与光流估计等任务，在场景数量、场景多样性以及图像质量等方面无法满足双目超分辨算法的需求。

因此，笔者在这个工作中收集了1024幅双目图像，构建并公开了一个大型双目图像超分辨数据集 Flickr1024 ，用于对双目超分辨算法进行训练和评估。

在数据集对应的论文中，笔者对在不同数据集上分别训练的StereoSR和PASSRnet算法进行了交叉数据集评测（cross-dataset evaluation），实验结果表明，算法在Flickr1024数据集上训练可以达到更高的性能。

值得一提的是，2019年有一个Parallax-based Spatial and Channel Attention Stereo SR network（PSCASSRnet）工作发表在 IEEE Access 期刊上。其沿用了PASSRnet的网络框架，提出的改进为：

1）在Parallax Attention的基础上增加了 Channel Attention；

2）给网络增加了全局残差连接。PSCASSRnet相比于PASSRnet能够取得更好的性能。

此处介绍笔者所在课题组的一个最新工作，相关论文 A Stereo Attention Module for Stereo Image Super-Resolution 已被 IEEE Signal Processing Letters 期刊录用。

该文首先分析了双目图像超分辨任务面临的挑战（见本文第三节），而后针对这些挑战提出了一个通用的模块 Stereo Attention Module（SAM）。

论文将多个SAM安插至现有的单图超分辨网络中，并在双目图像数据集上进行微调，从而实现在原有单图超分辨网络的基础上多次交互并利用左右图的信息，达到了很好的双目图像超分辨性能。SAM的结构图如下所示：

图中：

（a）为SAM安插到两个相同的单图超分辨网络，实现左右图信息交互的示意图；

（b）为SAM的结构图。

SAM相比于视差注意力模块（PAM），能够更加紧凑地实现左右图双向信息传递，为左右图的多次信息交互提供了基础。

实验结果表明，将SAM安插到单图超分辨网络SRCNN、VDSR、LapSRN、SRDenseNet、SRResNet中，均可相应提升其超分辨性能；

同时SRResNet+SAM的组合相比于PASSRnet可以取得更好的超分辨效果。

这是笔者关注到的Stereo Image SR领域的一个最新工作，出自韩国延世大学（Yonsei University），目前论文还未公开。从题目上看，该算法应该是利用了双目图像的特征一致性。

双目图像超分辨既要像单图超分辨一样充分利用一幅图内的信息，又要充分结合左右图的互补信息。设计高效的网络结构同时利用好这两种信息是具有挑战性的。当前最新的双目超分辨算法性能仍低于最新的单图超分辨算法，性能还有较大的提升空间；
双目图像中视差的巨大变化使得左右图互补信息难以被充分利用，遮挡问题造成的左右图信息不对称也给重建过程带来了挑战。
虽然Flickr1024数据集较大程度上丰富了双目图像超分辨算法的训练集，但是相比于单图超分辨算法的训练集（例如DIV2K）而言，双目图像数据集仍然在数量、质量、场景多样性方面存在弱势，从而限制了双目图像超分辨算法的性能。而受限于设备，获取双目图像数据集比获取单图数据集难度更大。

可以通过参考stereo matching等任务的网络框架，设计能够高效利用左右图信息的新的机制。
参考领域内最新的单图超分辨算法（例如RCAN、SAN、IMDN等），考虑如何在结合左右图互补信息的同时不丢失单图内部的信息，从而实现在单图超分辨的基础上提升性能。
考虑构建更高质量的双目图像数据集，或者考虑将单图超分辨算法学习到的先验知识利用到双目图像超分辨中（例如进行知识蒸馏等）。