锐单电子商城 , 一站式电子元器件采购平台!
  • 电话:400-990-0325

看GAN如何一步步控制图像生成风格?详解StyleGAN进化过程

时间:2022-08-26 01:00:00 py2系列位移传感器py2

点击上方“小白学视觉”,选择加"星标"或“置顶

重磅干货,第一时间送达

来源:微信官方账号机器之心授权

GAN 它生成图像的风格能有序控制吗?

你知道自己的风格吗? GAN 不懂模型。GAN 它生成图像的风格能有序控制吗?

01ef0ae4c6b35b07750ba10be1333482.png

原版 GAN 基于潜在因素(latent factor)z 生成图像。通常,潜在因素 z 采样自正态或均匀分布,它们决定了生成内容的类型和风格。

基于此,我们需要解答以下两个重要问题:

  1. 为什么 z 均匀或正态分布?

  2. 既然 z 包含元信息,在每个卷积层生成数据的过程中是否应该发挥更重要的作用?(不仅仅是作为第一层的输入)

注:本文将使用「风格」(style)指包含类型信息和风格信息的代元信息。

下图是 StyleGAN2 生成的图像:

潜在因子 z

机器学习中的潜在因素通常是独立的,以简化模型训练过程。例如,身高与体重有很高的相关性(身高越高,体重越大)。因此,基于身高和体重计算的身体质量指数(body mass index,BMI)它通常用于测量人类肥胖,所需的训练模型复杂性较低。独立的因素使模型更容易解释。

在 GAN 中,z 如果我们从正态或均匀分布中采样,分布应与真实图像的潜在因素相似。 z,优化后的模型可能需要 z 嵌入类型和风格以外的信息。例如,我们为士兵生成图像,并根据两个潜在因素可视化训练数据集的数据分布,即男性化程度和头发长度。下图中缺失的左上角表示男士兵不允许留长发。

如果我们对这个空间进行均匀的采样,生成器将试图生成长发的男图像。因为我们没有相关的训练数据,所以不会成功。从另一个角度来看,当采样采用正态或均匀分布时,模型学习了哪些潜在因素?这似乎更复杂了。正如 StyleGAN 论文所写:「这在一定程度上导致了不可避免的纠缠(entanglement)」。

在 logistic 在回归中,我们利用基变换(change of basis)创建二分类的线性边界。 StyleGAN 使用一种叫做映射网络网络(mapping network)深度网络将潜在因素 z 转换为中间潜在空间 w。

从概念上看,StyleGAN 将可以均匀或正态分布的采样空间(下图)扭曲成潜在的特征空间(下图左侧),以轻松生成图像。映射网络旨在创建独立的特征,使生成器更容易渲染,避免训练数据集中的特征组合。

StyleGAN 引入映射网络 f,使用八个全连接层 z 转换为中间潜在空间。w 可视为新的 z (z』)。512通过该网络 维的潜在空间 z 可被转换为 512 维的中间潜在空间 w。

基于风格的生成器

在原版 GAN 中、潜在因素 z 仅作为深度网络的第一层输入。随着网络的深入,z 作用会逐渐消失。

基于风格的生成器使用单独学习的仿射运算 A 在每一层中转换 w。转换后的 w 空间数据将作为风格信息。

StyleGAN 论文最初使用的是 Progress GAN 包括网络在内的许多超参数并重用 Adam 优化器参数。然后研究人员对模型设计进行多次测试,以检查模型性能是否得到改进。

第一个改进版本 (B) 双线采样(bilinear sampling)替换判别器和生成器中最近邻上的采样/下采样。然后进一步调整参数,模型训练时间也会增加。

第二个改进版本 (C) 映射网射网和风格化(styling)。对于后者,AdaIN(自适应实例归一化)取代 PixelNorm 风格化处理空间数据。

AdaIN 定义如下:

在此过程中,首先将输入特征图应用实例归一化。然后,StyleGAN 利用风格信息缩放每个归一化空间特征图,添加偏置(μ 和 σ 输入特征图分别表示 x? 平均差和标准差)。StyleGAN 计算每层的风格值 (y(s, i), y(b, i)) 作为 w 缩放值和偏置值应用于空间特征图 i。空间位置的风格化程度受到归一化特征的影响。

在原版 GAN 第一层的输入是潜在因素 z。实验结果表明,方向 StyleGAN 在第一层添加可变输入是没有好处的,所以用常量输入代替可变输入。

至于改进版本 (D),第一层的输入被常数矩阵取代,矩阵维度为 4×4×512。

StyleGAN 论文中的「Style」指数据的主要属性,如姿势和身份。改进版本 (E) 中,SytleGAN 将噪声引入空间数据,创建随机变化(stochastic variation)。

例如,实验中添加的噪声可以为头发(见下图)、胡茬、雀斑或毛孔创建不同的随机变化。


例如,对于 8×8 创建一个空间层 8×8 矩阵包含不相关的高斯噪声(Gaussian noise)。所有特征图共享矩阵。 StyleGAN 为每个特征图学习一个单独的缩放因子,乘以噪声矩阵,然后添加到前一层的输出。

与不含噪声或噪声仅用于特定分辨率的情况相比,噪声创其优点如下图所示。StyleGAN 论文还表示其他论文缓解了 GAN 重复模式问题经常出现在方法中。

总之,当风格应用于特征图时,它覆盖了图像的关键属性。噪声引入像素级局部变化,并带来随机变化,从而产生局部变体的特征。

关于噪声如何导致不同的图像渲染结果,请参见以下视频:

最后一个改进版本 (E) 涉及混合正则化。

混合风格和混合规则

我们之前生成潜在因素 z,并作为生成风格的单一来源。使用混合正则化后,我们使用另一个潜在因素 z?,在达到特定空间分辨率后再生成风格。

如下图所示,我们使用生成图像「source B」粗糙空间分辨率(4×4 到 8×8的风格,使用「source A」的潜在因子得到精细空间分辨率的风格。因此,生成的图像具备 source B 的高级风格,如姿势、发型、脸型和眼镜,而生成图像中的所有颜色(眼睛、头发、光线)和更精细的人脸特征则来自 source A。

如下图所示,如果我们使用 source B 的中分辨率(16×16 到 32×32)风格,则生成图像从 source B 处继承到较小规模的人脸特征、发型和眼睛状态(睁开/闭上),而来自 source A 的姿势、脸型和眼镜则被保留。最后一列中,模型从 source B 中复制了高分辨率风格(64×64 到 1024×1024 分辨率),这主要影响图像的色调和微结构。

在训练过程中,一定比例的图像是使用两个随机潜码(latent code)生成的,而不是仅使用一个。

训练

与 CelebA-HQ 数据集相比,FFHQ(Flickr-Faces-HQ,高清人脸数据集)质量更高,覆盖范围更大,如年龄、种族、图像背景以及眼镜、帽子等配饰。在 StyleGAN 中,CelebA-HQ 数据集训练过程中使用 WGAN-GP 作为损失函数,而 FFHQ 数据集则使用非饱和 GAN 损失函数和 R₁正则化项,如下所示:

w 中的截断技巧

z 或 w 中的低概率密度区域可能不具备足以准确学习模型的训练数据。

因此,在生成图像时,我们可以避开这些区域,以变化为代价来换取图像质量的改进。这可以通过截断 z 或 w 来实现。在 StyleGAN 中,截断 w 即可实现此目标:

其中 ψ 表示风格缩放(style scale)。

但截断仅在低分辨率层上执行(比如 4×4 至 32×32 空间层,ψ = 0.7)。这可以确保不影响高分辨率细节。

当 ψ 为 0 时,它生成的平均人脸如下图所示。随着 ψ 值的调整,我们可以看到人物视线、眼镜、年龄、肤色、头发长度和性别等属性的变化,如从戴眼镜到不戴眼镜。

感知路径长度

StyleGAN 论文还提出一种度量 GAN 性能的新型指标——感知路径长度(perceptual path length)。GAN 逐步改变潜在因子 z 中的某个特定维度,进而可视化其语义。

此类潜在空间插值可以得到令人震惊的非线性视觉变化。例如,两端图像中均未出现的特征可能出现在中间图像中。这标志着潜在空间和变化因子具备高度相关性。因此,我们可以通过度量执行插值时的累积变化,来量化这些变化。

首先,我们使用 VGG16 嵌入来度量两个图像之间的感知差异。如果我们将潜在空间插值路径分割为线性片段,则可以对每个片段添加所有感知差异。差异值越低,则 GAN 图像的质量越高。详细数学定义参见 StyleGAN 论文。

StyleGAN 中存在的问题

StyleGAN 生成图像中存在类似水滴的斑状伪影,在生成器网络的中间特征图中此类伪影更加明显。这一问题似乎出现在所有 64×64 分辨率特征图中,且在分辨率更高的特征图中更为严重。

GAN 技术已经很成熟,现在我们可以很容易地放大图像,查看伪图像检测过程中异常图像模式出现的区域。

StyleGAN2 论文将这一问题归因于 AdaIN 中的实例归一化。AdaIN 原本用于风格迁移,迁移过程中输入的一些重要信息被丢失。

StyleGAN2 论文将这一发现表述如下:

我们认为问题出在 AdaIN 运算,它可以分别对每个特征图的均值和方差执行归一化,由此可能摧毁在特征的幅度中找到的任何彼此相关的信息。我们假设这种水滴状伪影出现的原因是生成器有意将信号强度信息传递通过实例归一化:通过创建主导统计数据的强局部尖峰,生成器可以像在其它地方一样有效缩放该信号。

此外,StyleGAN2 提出一种替代设计方案来解决渐进式增长导致的问题,以稳定高分辨率训练。

如上图所示,即使使用渐进式增长生成的人脸图像改变方向,其牙齿中缝(蓝线)没有发生变化。

在探讨 StyleGAN2 之前,我们先重新绘制 StyleGAN 设计图(下图右)。该设计的 AdaIN 模块同样分为两个模块,但此图添加了偏置,而原始设计图中省略了这一项。(注意,目前模型设计没有任何改变)

StyleGAN2

权重解调(weight demodulation)

在实验结果的支持下,StyleGAN2 做出了以下改变:

  • 移除(简化)初期处理常数的方式;

  • 归一化特征时无需求均值;

  • 将噪声模块从风格模块中移出。

然后,StyleGAN2 利用权重解调简化模型设计,如下图所示。它重新访问实例归一化设计 (Norm std),意图用另一种不会造成水滴状伪影的归一化方法取代它。下图右是使用权重解调得到的新设计。

权重解调增加了以下改变:

1. 调制 (mod std) 后是卷积 (Conv 3×3),二者组合起来可用于缩放卷积权重,并实现为上图右中的 Mod。(这并未改变模型设计)

其中 i 是输入特征图。

2. 然后用 Demod 对权重执行归一化:

归一化后的新权重是:

该公式添加较小值 ε,以避免数值不稳定问题。尽管从数学角度来看,这与实例归一化不同,但它对输出特征图执行归一化后得到标准差,并实现了与其它归一化方法类似的目标(即令训练过程更加稳定)。实验结果表明,水滴状伪影问题得到了解决。

StyleGAN2 做出的改进

现在,我们来看 StyleGAN2 的改进版本。下图总结了多种模型改动,以及对应的 FID 分数改进情况(FID 分数越小,模型性能越好)。

懒惰式正则化(Lazy regularization)

StyleGAN 对 FFHQ 数据集应用 R₁正则化。懒惰式正则化表明,在成本计算过程中忽略大部分正则化成本也不会带来什么坏处。事实上,即使每 16 个 mini-batch 仅执行一次正则化,模型性能也不会受到影响,同时计算成本有所降低。

路径长度正则化

如前所述,路径长度可用于度量 GAN 性能。一个可能的麻烦是,插值路径上不同片段之间的路径距离变动很大。简而言之,我们希望连续的线性插值点之间的图像距离类似。也就是说,潜在空间中的位移会导致图像空间中出现同样幅度的变化,而这与潜在因子的值无关。因此,我们添加一个正则化项,如下所示:

当图像空间中的变化与预计位移不同时,成本增加。图像空间中的变化基于梯度计算得到,预计位移则近似于目前的运行平均值。

此处不再详述,代码参见:https://github.com/NVlabs/stylegan2/blob/7d3145d23013607b987db30736f89fb1d3e10fad/training/loss.py,读者可以据此运行 debugger。

渐进式增长

StyleGAN 使用渐进式增长来稳定高分辨率图像的训练。上文我们提到了渐进式增长的问题,StyleGAN2 寻求一种替代设计,允许深度较大的网络也能具备良好的训练稳定性。ResNet 使用残差连接(skip connection)来实现这一目标。因此 StyleGAN2 探索了残差连接设计和其它与 ResNet 类似的残差概念。对于这些设计,我们使用双线性滤波器对前一层执行上采样/下采样,并尝试学习下一层的残差值。

下图展示了判别器和生成器之间存在残差连接的 MSG-GAN 模型。

下表展示了不同方法的性能提升情况。

大型网络

在这些改动之后,我们进一步分析了高分辨率层对图像生成的影响。StyleGAN2 论文度量了不同模型层输出图像的变化。下图左表示每个层对生成图像的贡献,横轴表示训练过程。

在训练初期,低分辨率层占主导地位。然而,随着更多训练迭代的完成,高分辨率层(尤其是 1024 × 1024 层)的贡献不如预计的多。研究者怀疑这些层的容量不够大。事实的确如此,当高分辨率层中的特征图数量翻倍时,其影响力显著上升(右图)。

原文链接:https://medium.com/@jonathan_hui/gan-stylegan-stylegan2-479bdf256299

 
     

好消息!

小白学视觉知识星球

开始面向外开放啦👇👇👇

 
     

下载1:OpenCV-Contrib扩展模块中文版教程

在「小白学视觉」公众号后台回复:扩展模块中文教程,即可下载全网第一份OpenCV扩展模块教程中文版,涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。


下载2:Python视觉实战项目52讲
在「小白学视觉」公众号后台回复:Python视觉实战项目,即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。


下载3:OpenCV实战项目20讲
在「小白学视觉」公众号后台回复:OpenCV实战项目20讲,即可下载含有20个基于OpenCV实现20个实战项目,实现OpenCV学习进阶。


交流群

欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~
锐单商城拥有海量元器件数据手册IC替代型号,打造电子元器件IC百科大全!

相关文章