HDR image reconstruction from a single exposure using deep CNNs阅读札记

时间：2022-12-02 22:30:01 weber传感器captor

HDR image reconstruction from a single exposure using deep CNNs阅读札记

??论文于2017年发表TOG。

1 Abstract

问题：
??低动态范围（LDR）设备捕获高动态范围（HDR）场景图像容易出现过曝光问题，过曝光区域会失去纹理细节，挑战图像观看或计算机视觉任务。

现状：
??现有的大部分HDR图像重建方法需要一组不同的曝光LDR图像作为输入。

本文方法：
?? 为了解决图像饱和区域中信息丢失的估计问题单次曝光LDR高质量的图像重建HDR图像。
??（1）LDR输入图像由编码器网络转换，表示图像空间上下文的紧凑特征。
??(2)将编码图像馈送到对数域运行HDR重建解码器网络HDR图像。
???配备了网络跳跃连接，可在LDR编码器和HDR为了充分利用高分辨率图像细节，解码器域之间传输数据。

??最终HDR重构像素 $\hat{H}_{(i,c)}$ ，使用混合值(blend value) $α_i$ 像素级混合(blending)计算得到的，
在这里插入图片描述
?? $i$ ：空间索引
?? $c$ ：颜色通道
?? $D_{(i,c)}$ ：输入LDR图像像素
$\hat{y} _{(i,c)}$ ：CNN输出（在对数域中）：
$f^{(-1)}$ ：逆相机曲线，将输入变换到线性域。
混合(blending)是一个线性斜坡，从阈值 $τ$ 的像素值开始，到最大像素值结束（混合意味着输入图像在非饱和区域保持不变），

本文使用 $τ = 0.95$ ，输入定义在 $[0, 1]$ 范围内。
线性混合(linear blending)防止了预测的高光与其周围环境之间的带状伪影（ $α$ 还用于定义训练中的损失函数，如第2.4节所述）。
混合分量的说明如下图所示（由于混合预测的重点是饱和区域周围的重建，因此其他图像区域可能会出现伪影(图(b))）：

2.2 混合动态范围自动编码器(Hybrid dynamic range autoencoder)

完整的自动编码器架构如图所示：

LDR encoder：对输入的LDR图像进行卷积和最大池化，最终生成 $W / 32 \times H / 32 \times 512$ 的低维潜像表示(latent image representation)（ $W$ 和 $H$ 分别为图像宽度和高度）。
HDR decoder：使用 $4 \times 4$ 的反卷积层实现双线性上采样，将上采样的结果与编码器对应层进行跳跃连接（更好的恢复图像细节），对跳跃连接结果进行卷积；重复以上操作，最终重建高维HDR图像。
⭐（1）由于本文目标是重建比训练中实际使用的图像更大的图像，因此潜在表示不是完全连接层，而是低分辨率多通道图像。这种全卷积网络 (FCN) 可以在任何分辨率下进行预测，该分辨率是自动编码器缩减因子的倍数。
⭐（2）因为编码器直接对LDR输入图像进行操作，解码器负责生成HDR数据，所以解码器在对数域中工作（这是通过使用损失函数来实现的，该函数将网络输出与HDR gt图像的对数进行比较）。
⭐（3）网络的所有层都使用ReLU激活函数，在解码器的每一层之后使用批量规一化层。

2.3 域变换与跳跃连接(Domain transformation and skip-connections)

输入图像的层层卷积池化会导致早期层种的许多高分辨率信息丢失，解码器可使用这些信息来重建饱和区域的高频细节，因此引入跳跃连接，用于在编码器和解码器中的高层和低层特征之间传输数据。
本文的自动编码器使用跳跃连接将编码器的每个层传输到解码器端的相应层。由于编码器和解码器处理不同类型的数据（见第2.2节），连接包括由逆相机曲线描述的域变换和对数变换，将LDR显示值映射到对数HDR表示。本文使用伽马函数 $f^{-1} (x)=x^γ$ 来完成跳跃连接的线性化，其中 $γ = 2$ 。
本文沿着特征维度连接两个层，即两个 $W \times H \times K$ 维层连接为 $W \times H \times 2 K$ 层。然后解码器将这些特征进行线性组合，相当于通过 $1 \times 1$ 的卷积层将 $2 K$ 特征数减少为 $K$ 。完整的LDR到HDR跳跃连接定义为：

$h_i^E,h_i^D$ ：编码器层和解码器层张量 $y^E,y^D∈R^(W×H×K)$ 的所有特征通道 $k∈{1,...,K}$ 上的切片
$\tilde{h} _i^D$ ：解码器特征向量，其具有从跳跃连接向量 $h_i^E$ 融合的信息
$b$ ：特征融合的偏差
$σ$ ：激活函数，本文使用ReLU函数
⭐（在域变换中使用小常数 $ϵ$ 以避免对数变换中的零值。）
给定 $K$ 个特征， $h^E和h^D$ 是 $1 \times K$ 个向量， $W$ 是一个 $2 K \times K$ 的权重矩阵，它将 $2 K$ 个串联的特征映射到 $K$ 维。它被初始化以执行编码器和解码器特征的添加，将权重设置为

添加跳跃连接可以更好地重建图像纹理细节，如图所示：

2.4 HDR损失函数(HDR loss function)

直接损失 $L(\hat{y},H)$ ：
在本文系统中，HDR解码器被设计为在对数域中运行。因此，在给定预测的对数HDR图像 $\hat{y}$ 和线性gt图像H的情况下，直接损失在对数HDR值上被公式化，

$N$ ：像素数
$H_{(i,c)}$ ： $H_{(i,c)}∈\mathbb{R}^+$
$ϵ$ ：小常数，消除零像素值处的奇异性
⭐Weber-Fechner定律暗示了物理亮度和感知亮度之间的对数关系，因此在对数域中制定的损失使感知误差在整个亮度范围内大致均匀分布。

I/R损失 $L_{IR}(\hat{y} ,H)$ ：
分开处理照度和反射率分量是有意义的，因此本文提出另一种损失函数，分别处理照度和反射率。照明分量 $I$ 描述全局变化，并且负责高动态范围；反射率 $R$ 存储关于细节和颜色的信息，这具有较低的动态范围， $H_{(i,c)}=I_iR_{(i,c)}$ 。通过对数亮度 $L^{\hat{y}}$ 的高斯低通滤波器 $G_σ$ 来近似对数照度，通过预测的对数HDR图像 $\hat{y}$ 和对数照度之间的差值来近似对数反射率，

$L^{\hat{y}}$ ：颜色通道的线性组合， $L^{\hat{y}}_i=log⁡(∑_cw_c exp⁡(\hat{y}_{i,c} ) )$ ，其中 $w=\{0.213,0.715,0.072\}$ 。
高斯滤波器的标准偏差设置为 $σ = 2$ 。
使用 $I$ 和 $R$ 得到的损失函数定义为：

$y$ ： $y = l o g (H + ϵ)$
$λ$ ：平衡参数，平衡照度和反射率的重要度。
本文使用 $λ = 0.5$ 。
使用不同 $λ$ 值进行优化的预测示例结果如图所示：

使用I/R损失，在大的饱和区域中，它往往会产生较少的伪影，如图所示（一种可能的解释是，损失函数中的高斯低通滤波器可能具有正则化效应，因为它使像素中的损失受到其邻域的影响）：

3 HDR Image Dataset

下图显示了两个典型LDR数据集以及125K图像的HDR数据集的平均直方图。LDR数据分别由约2.5M和200K的Places和Flickr图像组成，HDR数据由虚拟相机从HDR数据集中捕获得到。

LDR直方图显示出像素值的相对均匀分布，除了接近最大值的明显峰值，表示由于饱和而丢失的信息。HDR直方图中，像素没有饱和，而是由指数衰减的长尾表示。

虚拟相机：
使用随机选择的相机校准来捕获场景的多个随机区域。这些区域被选择为具有随机大小和位置的图像裁剪，然后随机翻转并重新采样到320×320像素。相机校准包括曝光、相机曲线、白平衡和噪声级等参数。这为本文方法提供了一组增广的LDR和相应的HDR图像，分别用作训练的输入和gt值。

4 Training

初始化网络中的权重，本文对网络的不同部分使用不同的策略。
（1）由于使用来自VGG16网络的卷积层，于是可以在Places数据库中使用可用于大规模图像分类的预训练权重来初始化编码器。
（2）使用解码器反卷积以进行双线性上采样，并使用跳跃连接层的融合以执行特征添加。
（3）对于潜在图像表示（网络结构图最右侧）和最终特征缩减（网络结构图左上角）中

锐单商城拥有海量元器件数据手册、IC替代型号，打造电子元器件IC百科大全！

HDR image reconstruction from a single exposure using deep CNNs阅读札记

相关文章