风格迁移篇--CCPL：Contrastive Coherence Preserving Loss for Versatile Style Transfer多功能风格转换的...

时间：2023-10-17 12:37:01 gxa系列电容器

文章目录

Abstract
1 Introduction
2 Related Works
3 Methods
- 3.1 Contrastive Coherence Preserving Loss
- 3.2 Simple Covariance Transformation
- 3.3 Loss Function
4 Experiments
- 4.1 Experimental settings
- 4.2 Comparison with Former Methods
- 4.3 Ablation Studies
- 4.4 Applications
5 Conclusions
References

Abstract

在本文中，我们旨在设计一种可以联合实施艺术风格、照片真实性和视频风格转换的通用风格转换方法，而无需在训练期间观看视频。在许多情况下，以前的单帧方法假设对整个图像有很强的限制，以保持时间一致性。相反，我们提出了一个温和合理的假设，即整体不一致性由局部不一致性主导，并设计了一合局部补丁的一般比较一致性来保持损失（CCPL）。CCPL内容源的连贯性可以在不降低风格化的情况下保持。此外，它具有邻域调节机制，大大减少了局部失真，显着提高了视觉质量。除了在多功能风格转换方面表现出色外，它还可以很容易地扩展到其他任务，如图像到图像的翻译。此外，为了更好地整合内容和风格特征，我们提出了简单的方差变化（SCT）有效对齐内容特征的二阶统计和风格特征。实验证明，配备时CCPL多功能风格转换的有效性。

关键词： image style transfer, video style transfer, temporal consis-
tency, contrastive learning, image-to-image translation.

1 Introduction

在过去的几年里，风格转换取得了很大的进展，使结果特别令人愉快，具有艺术价值。在这项工作中，我们对多功能风格转换感兴趣。除了艺术风格转移和照片级真实风格转移外，我们推导的方法在实施视频风格转移时是通用的，不需要使用视频进行明确的培训。代码位于：https://github.com/JarrentWu1031/CCPL.

[图1。我们的算法可以改变各种风格。从左到右是艺术图像/视频风格转换、照片逼真图像/视频风格转换的示例。建议使用Adobe Acrobat Reader查看动画。

制作风格化视频的简单解决方案是使用相同的风格参考独立传输连续帧的风格。由于没有强制性的时间一致性，视频通常在两个连续帧之间有明显的闪烁伪影和非相关性。为了解决这个问题，以前的方法[4、20、23、28、52、53]使用光流作为恢复原始视频的指导。但估计光流需要大量计算，估计运动的准确性严格限制了风格化视频的质量。最近，一些算法[17、40、45]试图通过单帧正则化来提高视频输出的时间一致性。他们试图确保从内容特征到集成特征的线性转换。其基本思想是鼓励在内容源中保持密集的成对关系。然而，如果没有明确的指导，线性在很大程度上受到全球优化的影响。因此，他们的视频结果在时间上仍然不一致。我们注意到，大多数视频结果对其内容视频输入显示出良好的结构刚性，但局部噪声加剧了不一致的印象。因此，我们不考虑容易违反的整体约束，而是从更宽松的约束开始，定义为局部面片。

如图2所示，我们的想法很简单：风格图像中相同位置R′A和R′B面片之间的变化应该类似于两个相邻内容帧的面片RA和RB。如果在短时间内拍摄两个连续的内容帧，很可能会在相邻区域找到和RB类似的补丁由类似的补丁制成RC(在蓝框中)表示。换句话说，我们可以将相邻图像中的两个面片视为连续帧中相同位置的面片。因此，即使只有单帧图像，我们也可以应用约束。然而，强制这些补丁的差异是不可靠的，因为这将鼓励输出与内容图像相同。然后，样式转换效果不会出现在结果中。受比较学习[10、47、49]最新进展的启发，我们利用信息损失[47]正对(来自同一区域)和其他负对(来自不同区域)之间的相互信息来最大化面积差异。在远离负样本的同时，通过采样足够数量的负对接受损失鼓励。我们将导出的损失称为保持损失的比较（CCPL）。

在应用CCPL之后，我们注意到视频输出的时间一致性大大提高，风格化仍然令人满意（见图5）和选项卡。1). 此外，由于CCPL邻域调节策略，生成图像的局部面片受邻域面片的限制，从而显著减少局部失真，从而获得更好的视觉质量。我们提出的CCPL不需要视频输入，也不受特定网络架构的限制。因此，我们可以将其应用于任何现有的图像传输网络，以提高其在图像和视频中的性能（见图9和表1）。视觉质量的显著提高及其灵活性CCPL可轻微修改，实现照片逼真风格的转换，标志着它是实现多功能风格转换的重要工具(见图1)。

有了CCPL，我们现在渴望有效地整合内容和风格特征。为了实现这一点，我们提出了一个高效的网络，用于的高效网络，称为SCTNet。SCTNet关键元素是简单协方差变换（SCT）融合风格特征和内容特征的模块。它计算了风格特征的协方差，并直接将特征协方差与归一化内容特征相乘。与AdaIN[29]和Linear与[40]中的集成操作相比，我们SCT可以同时捕获准确的样式信息。

[图2。比较连贯性保留损失的直觉。第一帧（RA或R′A）用红色框表示的区域和用棕色框表示的第二帧（RB或R′B）包裹的相应面片位置相同。RC和R′C(在蓝色框中)是从第一帧剪下来的，但它们的语义和语义RB和R′B对齐。两个面片之间的差异表示D（例如，D（RA，RB））。鼓励最大化D（RA，RC）和D（R′A，R′C）（D（RA，RB）和D（R′A，R′B））保持内容源以保持内容源的一致性。]

总之，我们的贡献有三个方面：

我们提出了对比连贯的损失（CCPL）用于多语体转换。根据图像块与相邻块的区别，鼓励内容图像与生成图像的一致性。它是有效的，可以推广到其他风格的转换方法。
我们提出了简单的协方差变换（SCT）有效对齐内容和风格特征的二阶统计。SCTNet512×512的尺度约为每秒25帧)，具有很大的实用潜力。
我们将CCPL应用于其他任务，如图像翻译到图像，并提高结果的时间一致性和视觉质量，而不进一步修改CCPL的灵活性。

2 Related Works

传输图像样式。这些算法旨在生成具有图像结构和图像样式的图像。Gatys等人首先创造了神经风格转移（NST）[21]。一些算法[32、58]将迭代优化过程与前馈网络相似，并通过快进传输实现样式转换。有几种算法试图在单个模型中传递多种样式[5，18]，以获得更广泛的应用。然而，这些模型在学习风格的数量上是有限的。从那时起，人们设计了各种传递随机图像的方法。

在重建图像之前，将每个内容补丁与其最新的样式补丁进行交换。WCT[41]用奇异值分解白化图像，然后重新着色。AdaIN[29]用样式源的平均值和标准差代替特征平均值和标准差。最近，基于注意力的算法很多。例如，李等人[40]设计了对齐融合特征和风格特征之间的二阶统计量的线性变换。邓等人[17]利用多通道相关性进行了改进。SANet[48]利用与内容特征的空间相关性重新安排风格特征。AdaAttN[45]将AdaIN[29]和SANet结合起来，平衡全局和局部风格的影响。程等人[13]提出了风格感知归一化格感知归一化损失。另一个分支旨在将写实风格转移到图像上。Luan等人[46]受Matting-Laplacian受[39]启发，设计了颜色转换网络。李等人[42]用非冷却层代替WCT[41]上采样层，并添加最大池掩码，以减少细节损失。Yoo等人[68]引入小波变换来保存结构信息。An等人[2]使用神经架构搜索算法寻找合适的解码器设计，以获得更好的性能。

视频风格传输。现有的视频风格传输算法根据是否使用光流大致可分为两类。

在生成视频输出时，工作线使用光流。这些算法试图估计原始视频的运动，并将其恢复到生成的视频中。Ruder等人[52]提出时间损失，用扭曲的前帧调整当前帧，将图像样式传输算法[21]扩展到视频。Chen等人[4]设计RNN结构基线，并在特征域进行翘曲操作。Gupta在渲染之前，等人[23]将之前的样式化框架与当前的内容框架连接起来，形成流失作为约束。黄等人[28]试图通过混合损失将时间连贯性整合到风格化网络中。Ruder等人[53]通过新的初始化和损失函数扩展了他们以前的工作[52]，从而提高了大运动和强遮挡的鲁棒性。利用这些光流约束可以提高时间一致性。但光流估计并不完全准确，导致视频结果中出现伪影。另外，它的计算成本很高，尤其是图像大小增大时。考虑到这些，另一条工作线试图在不使用光流的情况下保持内容输入的一致性。

为了保持结构亲和力，李等人[40]和邓等人[17]设计了内容特征的线性变化。使用刘等人[45]L1归一化取代SANe[48]的softmax操作，以获得更平坦的注意力分数分配。王等人[63]提出了复合时间正则化，以增强网络对运动和照明变化的鲁棒性。与这些方法相比，我们提出的CCPL对网络架构没有任何要求，使其特别适合其他网络。使用我们的SCTNet，视频输出的时间一致性超过了SOTA，同时风格化仍然令人满意。我们还将CCPL应用于其他网络。结果表明，视频稳定性也有类似的改善（见表1）。

[图3。拟议CCPL的示意图。Cf和Gf表示编码器E特定层的编码特征。⊖ 表示矢量减法，SCE表示softmax交叉熵。黄色虚线说明了正对是如何产生的。]

对比学习。对比学习算法的最初目的是在自监督场景中学习良好的特征表示。一系列丰富的方法试图通过最大化正特征对的互信息，同时最小化负特征对的互信息来实现这一点[10,11,12,22,25,47]。最近的研究将对比学习扩展到了意象翻译[49]和意象风格转换[7]领域。我们的工作与CUT[49]在使用基于补丁的信息丢失[47]方面最相关。但是CUT[49]利用了图像到图像（Im2Im）翻译任务中相同位置的面片对应关系。然而，我们的CCPL结合了邻居调节方案，以保持相邻面片之间的相关性，使其适合于图像和视频生成。此外，我们的实验说明了在Im2Im翻译任务中，在CUT[49]上使用CCPL的有效性，如第5.2节所述。4.4.

3 Methods

3.1 Contrastive Coherence Preserving Loss

给定两帧Ct和Ct+∆t其中∆t是两者之间的时间间隔，我们假设相应生成的图像Gt和Gt之间的差异+∆t与Ct和Ct之间的差值线性相关+∆t、何时∆t小：

其中D（a，b）表示a和b之间的差异。该约束可能过于严格，无法适用于整个图像，但从技术上讲，适用于局部面片，其中通常只能发生简单的图像变换，例如平移或旋转。在这种假设下，我们提出了一种通用的对比一致性保持损失（CCPL）应用于局部面片以强制执行该约束。我们以秒显示。1假设我们应用于相邻面片的损失与两帧对应面片的损失相等∆t很小。在单个帧上操作使我们不必处理视频源的多个帧，节省了计算预算。

为了应用CCPL，首先，我们将生成的图像G及其内容输入C发送到固定图像编码器E，以获得特定层的特征图，表示为Gf和Cf（如图3所示）。第二，我们从Gf（图3中的红点）随机采样N个向量4，表示为Gxa，其中x=1，··，N。第三，我们采样每个Gxa的八个最近相邻向量（图3中的蓝点），表示为Gx，yn，其中y=1，··，8是相邻索引。然后，我们相应地从相同位置的Cf中采样，分别得到Cxa和Cx，yn。向量与其相邻向量之间的差异通过以下方式测量：

⊖ 表示矢量减法。为了实现等式1，一个简单的想法是强制dg等于dc。但在这种情况下，网络的一个简单解决方法是鼓励类似于C的G，这意味着这种约束将与风格转换的目的相矛盾。受对比学习[10,25,47]最新进展的启发，我们转而尝试最大化“正”差分向量对之间的互信息。配对仅在Cf和Gf的差分向量之间定义。即，相同位置的差分向量被定义为分布式发电和直流之间的正对，否则为负。潜在的直觉也很简单：与其他随机对相比，同一位置的差分向量在潜在空间中应该最相关。

我们按照[10]的设计构建了一个两层MLP（多层感知器）来映射差分向量，并在计算信息损失之前将其归一化到一个单位球体上[47]。数学上：

其中τ表示默认设置为0.07的温度超参数。通过此设置，视频输出的时间一致性显著提高（见图5和表1），而风格化仍然令人满意，甚至更好（见图6、图9，脏纹理随着我们的CCPL消失）。
这种损失避免了与用于确保生成的图像和样式图像之间的样式一致性的样式损失直接矛盾。同时，即使不利用来自输入视频其他帧的信息，它也可以提高生成视频的时间一致性。CCPL的复杂度为O（8×N）2，其中8×N表示采样差分向量的数量。在训练期间，它在计算上是可承受的，并且对推理速度没有影响（如图8a所示）。CCPL甚至可以作为一个简单的插件来扩展其他图像生成任务的方法，以生成具有更好时间一致性的视频，如第5.2.1节所示。4.4.

[图4。提出的SCT模块的详细信息及其与类似算法的比较（AdaIN[29]，Linear[40]）。这里，conv表示卷积层，cnet和snet中的黄线表示relu层。此外，std范数通过通道的均值和标准差表示归一化特征，而均值范数通过其通道对特征进行归一化]

3.2 Simple Covariance Transformation

在CCPL保证时间一致性的情况下，我们的下一个目标是设计一个简单有效的模块，用于融合内容和风格特征，以实现丰富的风格化。黄等人[29]提出AdaIN可以直接对齐内容和风格特征的通道均值和方差。虽然很简单，但忽略了通道间相关性，后者的文献[17,40]证明了这一点。李等人[40]设计了一种通道注意机制，将风格特征的二阶统计量转移到相应的内容特征上。但我们实证发现，线性[40]的结构可以简化。

为了结合AdaIN[29]和Linear[40]的优点，我们设计了一个简单的协方差变换（SCT）模块来融合风格和内容特征。如图4所示，首先，我们通过其通道[29]的平均值和偏差对内容特征fc进行归一化，并通过其通道[40]对样式特征fs进行归一化，以获得“fc”和“fs”。为了降低计算成本，我们向cnet和snet发送“fc”和“fs”（cnet和snet都包含三个卷积层，中间有两个relu层），以逐渐降低通道的维数（512→ 32），得到f′c和f′。然后将f′s展平并计算其协方差矩阵COV，以找出信道相关。然后，我们通过在COV和f′c之间执行矩阵乘法来简单地融合特征，以获得fg。最后，我们使用单个卷积层（在图4中表示为conv）将fg的通道维度恢复到正常（32）→ 512），并在将其发送到解码器之前添加原始样式特征的通道方式。

结合对称编译码模块，我们将整个网络命名为SCTNet。编码器是在ImageNet[16]上预先训练的VGG-19网络[56]，用于从内容和样式图像中提取特征，而对称解码器需要将融合的特征转换回图像。实验表明，我们的SCTNet在风格化效果方面与线性[40]相当（见图6和表1），同时更轻更快（见表3）。

3.3 Loss Function

除拟议的CCPL外，我们采用两种常用损耗[1,17,29,45]进行样式转换。整体训练损失是这三种损失的加权总和：

内容损失Lc（样式损失Ls）通过生成的特征和内容（样式）特征之间（平均值µ（·）和标准偏差σ（·））的差异的Frobenius范数测量：

其中，νl（·）表示编码器第l层的特征图。对于艺术风格转移，我们使用来自{relu4 1}、{relu1 1、relu2 1、relu3 1、relu4 1}、{relu2 1、relu3 1、relu4 1}的特征分别计算内容损失、风格损失和CCPL。对于写实风格转换，我们将损耗层设置为{relu3 1}，{relu1 1，relu2 1，relu3 1}，{relu1 1，relu2 1，relu3 1}。默认情况下，损耗权重设置为λc=1.0，λs=10.0，λccp=5.0。请检查第二节。4.3了解我们如何找到这些配置的详细信息。

4 Experiments

4.1 Experimental settings

实施细节。我们采用MS-COCO[44]数据集的内容图像和Wikiart[51]数据集的样式图像来训练我们的网络。这两个数据集包含大约80000幅图像。默认情况下，我们使用学习率为1e-4、批量大小为8的Adam优化器[34]来训练模型进行160k次迭代。在训练期间，我们首先将图像的较小维度调整为512。然后，我们从图像中随机裁剪256×256个面片作为最终输入。对于CCPL，我们仅将同一内容图像中的差分向量视为负样本。补充文件中提供了更多详细信息。

[表1。视频与艺术风格转换的定量比较。这里我代表帧的间隔，和Pre。代表人类偏好分数。我们在表中显示了艺术图像风格转换（Art）和视频风格转换（Vid）的人类偏好分数。时间损失的结果放大了100倍。我们用粗体显示第一名分数，用下划线显示第二名分数。]

[表2。照片真实感风格转换的定量比较。]

度量;为了全面评估不同算法的性能并使比较公平，我们采用了几种指标来评估结果的风格化效果和时间一致性。为了评估风格化效果，我们计算生成的图像与其风格输入之间的SIFID[54]，以测量其风格分布距离。较低的SIFID表示更紧密的样式分布一对的。为了评估视觉质量和时间一致性，我们选择LPIPS[70]，它最初用于测量生成图像的多样性[15,30,38]。在我们的例子中，小LPIP表示照片真实感结果的局部失真或两个风格化视频帧之间的微小变化。然而，LPIPS只考虑了风格化视频帧之间的相关性，而忽略了原始帧之间的变化。作为补充，我们还采用[63]中定义的时间损失来衡量时间一致性。它是通过利用两帧之间的光流来扭曲一个程式化结果，并计算与另一个的Frobenius差。我们评估了视频风格传输的短期（两个相邻帧）和长期（中间9帧）一致性。为了短期一致性，我们直接使用来自MPI Sintel数据集的地面真实光流[3]。否则，我们使用PWC网络[57]来估计两帧之间的光流。较低的时间损耗表示更好地保持两帧之间的一致性。

为了进行图像风格传递比较，我们随机选择10幅内容图像和10幅风格图像，为每种方法合成100幅风格化图像，并计算其平均SIFID作为风格化度量。此外，我们计算平均LPIP来衡量照片真实感结果的视觉质量。至于时间一致性方面，我们从MPI Sintel数据集[3]中随机选择10个视频片段（50帧，每帧12帧），并分别使用10种风格的图像传输这些视频。然后，我们计算平均LPIP和时间损失作为时间一致性度量。我们还包括人类评估，这在图像生成任务中更具代表性。为此，考虑到视觉质量、风格化效果和时间一致性，我们邀请50名参与者从每个图像/视频样式对中选择他们最喜欢的风格化图像/视频。这些参与者来自不同的背景，使得评估不那么偏向于某一群体。总的来说，我们分别获得了500张图片和视频的投票。然后我们计算投票百分比作为人类偏好分数。所有评估都显示在选项卡中。1和选项卡。2.

4.2 Comparison with Former Methods

对于视频和艺术图像风格传输，我们将我们的方法与九种算法进行了比较：AdaIN[29]、SANet[48]、DSTN[27]、ReReVST[63]、Linear[40]、MCCNet[17]、AdaAttN[45]、IE[7]、Lnor[13]，它们是艺术图像风格传输的SOTA。在这些方法中，[7,17,40,45]也是最先进的基于单帧的视频样式传输方法，而ReReVST[63]是基于SOTA多帧的方法。对于照片真实感图像样式转换，我们将我们的方法与四种SOTA进行了比较：线性[40]、WCT2[68]、StyleNAS[2]、DSTN[27]。注意，在所有提到的算法中，线性[40]和DSTN[27]与我们的方法最相关，因为它们都能够将艺术风格和照片写实风格转移到图像上。我们从这些方法提供的官方代码中获得所有测试结果。

视频风格传输。如选项卡所示。1.我们的原始SCTNet在SIFID中得分最高，表明其在获得正确风格方面的优势。此外，我们可以看到，当损失应用于不同方法时，所提出的CCPL大大提高了时间一致性，同时SIFID分数略有降低。我们的全模型（带CCPL）超过了所有单帧方法[7,17,27,40,45,48]在短期和长期时间一致性方面，由LPIP[70]和时间损耗测量，与SOTA多帧方法相当：ReReVST[63]。然而，我们的SIFID分数显著超过ReReVST[63]，这与定性比较中显示的结果一致（见图6）。定性比较还显示了我们的CCPL在保持原始视频的短期（图5）时间一致性方面的优势，因为我们的热图差异大多与地面实况相似。我们在补充文件中有另一个图来显示长期时间一致性的比较。在人类偏好评分方面，我们的完整模型也排名最佳，进一步验证了我们的CCPL的有效性。

艺术风格转换。如图6所示，AdaIN[29]生成的结果具有严重的形状失真（例如，第一排的房子和第三排的桥）和杂乱的纹理图案（第四、第五排）。SANet[48]也存在形状失真，在其结果中遗漏了一些结构细节（第1页）→ 第3行）。线性[40]和MCCNet[17]具有相对干净的输出。然而，Linear[40]丢失了一些内容细节（第1行、第3行），而MCCNet[17]的一些结果在局部区域（第2行衣领周围和第4行嘴角周围）存在棋盘伪影。ReReVST[63]显示出明显的颜色失真（第二→ 第5行）。AdaAttN[45]可以有效减少杂乱的纹理，但在某些情况下，风格化效果似乎会退化（第1行）。DSTN[27]的结果有严重的明显失真（第3、4行）。IE[7]的结果与原始样式（第1、3、5行）不太相似。我们最初的SCTNet捕捉到了准确的样式（第2、3行），但在生成的图像中也有一些杂乱的区域（第4、5行）。当添加Lnor时，一些结果更混乱（第4行、第5行）。然而，使用CCPL，我们的完整模型生成的结果以生动和吸引人的色彩很好地保持了其内容源的结构。此外，其多级方案增强了这种效果。因此，不规则纹理和局部颜色失真显著减少。它甚至有助于改进样式化，更好地保存内容源的语义信息（如图9所示）。

照片写实风格转移。由于CCPL可以保留内容源的语义信息，并显著减少局部失真，因此它非常适合于照片真实感风格转换的任务。我们对SCTNet进行了一些细微的更改，以使其能够用于此任务：通过在relu3 1之外丢弃层来构建较浅的编码器，然后使用所有三个层的特征映射来计算CCPL。如图7所示，线性[40]和DSTN[27]生成具有细节损失的结果（第3行中消失的窗口）。对于WCT2[68]和StyleNAS[2]，其中一些结果显示颜色分布不合理（第二行为红色道路）。相比之下，我们的完整模型生成的结果与SOTA相当，甚至更好，具有较高的视觉质量和适当的风格，这与表中所示的定量比较一致。2.

[图5。短期时间一致性的定性比较。我们将我们的方法与七种算法进行了比较：SANet[48]、Linear[40]、IE[7]、ReReVST[63]、MCCNet[17]、AdaAttN[45]、DSTN[27]。奇数行显示之前的帧。偶数行显示连续帧之间差异的热图。]

效率分析。由于网络的简单前馈结构和高效的特征融合模块SCT，我们的模型相当有效。我们使用一个12GB的Titan XP GPU，没有其他正在运行的程序来比较它与其他算法的运行速度。选项卡。3显示了在三个输入图像比例上不同方法的平均运行速度（超过100次独立运行）。结果表明，SCTNet在不同尺度下的效率优于SOTA（补充文件中提供了照片逼真风格传输方法的比较），表明了我们的算法实时使用的可行性。

[图6。艺术风格转换的定性比较。我们将我们的方法与九种算法进行了比较：AdaIN[29]、SANet[48]、Linear[40]、ReReVST[63]、MCCNet[17]、AdaAttN[45]、DSTN[27]、IE[7]、Lnor[13]。]

[图7。照片写实风格转换的定性比较。我们将我们的方法与四种算法进行了比较：线性[40]、WCT2[68]、StyleNAS[2]和DSTN[27]。]

4.3 Ablation Studies

与CCPL引起的性能相关的因素有几个：1）施加损耗的层；2）每层采样的差分向量数；3）重量损失率与款式损失。因此，我们通过从0到4（从最深的层开始）枚举CCPL层的数量，并从[16、32、64、128]中选择作为采样组合的数量来进行几个实验，以显示前两个因素的影响。然后，我们调整CCPL和风格损失之间的损失权重比，以表明哪个比例在风格效应和时间连贯性之间给出了最佳权衡。需要注意的是，这里的风格化分数代表SIFID分数，时间一致性通过以下方式测量：（20）− 10×LPIP− 时间损失），以显示不断升级的趋势。

从子图中，我们可以看到，随着CCPL层数量的增加，短期（图8d）和长期（图8e）时间一致性随着风格化分数的减少（图8b）和计算量的增加（图8a）而增加。当CCPL层的数量从3增加到4时时间一致性的变化很小。相比之下，计算成本显著增加，样式化效果要弱得多。因此，我们选择3作为CCPL层数的默认设置。
[表3。执行速度比较（单位：FPS）。我们使用单个12GB Titan XP GPU进行所有执行时间测试。OOM表示内存不足错误。]

至于采样差分向量的数量（每层），图8d和e中的蓝线（64个采样向量）接近黄线（128个采样向量），这意味着这两种设置的性能在改善时间一致性方面接近。然而，每层采样128个差分向量会带来更大的计算负担和风格退化。因此，默认情况下，我们每层采样64个差分向量。

[图8。关于CCPL三个因素的烧蚀研究：1）应用损耗的层；2）每层采样的向量数；3）减重率与款式损失。]

减重率也可以被视为调整时间一致性和风格的手柄。图8c和f显示了当失重率变化时，时间一致性和风格化之间的权衡。我们发现，权重比为0.5是一个很好的选择，因为它在时间一致性改进和风格化分数降低之间进行了很好的权衡。我们在补充文件和更多分析中显示了CCPL消融研究的定性结果，例如CCPL中的不同采样策略。

[图9。CCPL可以很容易地应用于其他方法，如AdaIN[29]、SANet[48]和Linear[40]，以提高视觉质量。]

[图10。在CUT[49]上应用CCPL与其原始模型的比较。]

4.4 Applications

现有方法的CCPL。CCPL非常灵活，只需稍作修改即可插入其他方法。我们将提出的CCPL应用于三种典型的前一种方法：AdaIN[29]、SANet[48]、Linear[40]。所有这些方法都在时间一致性方面取得了一致的改进，只需要一个SIFID分数略有下降（见表1和图9）。结果表明了CCPL的有效性和灵活性。

图像到图像的翻译。CCPL可以很容易地添加到其他生成任务中，如图像到图像的翻译。我们将我们的CCPL应用于最近的图像到图像转换方法CUT[49]，然后使用相同的horse2zebra数据集训练模型。图10中的结果表明，我们的CCPL提高了视觉质量和时间一致性。更多申请请参阅补充文件。

5 Conclusions

在这项工作中，我们提出了CCPL来保持风格转换过程中的内容连贯性。通过对比图像斑块的特征差异，损失促使内容中相同位置的斑块的差异与生成的图像相似。使用CCPL训练的模型在时间一致性和风格效果之间实现了良好的权衡。我们还提出了一个简单有效的模块，用于将内容特征的二阶统计量与样式特征对齐。将这两种技术结合在一起，我们的完整模型轻快，同时生成满意的图像和视频结果。此外，我们还证明了所提出的损耗对其他模型和任务的有效性，例如图像到图像样式的传输，这表明了我们的损耗在更广泛的应用中的巨大潜力。致谢本研究得到了国家自然科学基金62192784的资助。

References

18 Wu et al.
56. Simonyan, K., Zisserman, A.: Very deep convolutional networks for large-scale
image recognition. arXiv preprint arXiv:1409.1556 (2014)
57. Sun, D., Yang, X., Liu, M.Y., Kautz, J.: Pwc-net: Cnns for optical flow using
pyramid, warping, and cost volume. In: Proceedings of the IEEE conference on
computer vision and pattern recognition. pp. 8934–8943 (2018)
58. Ulyanov, D., Lebedev, V., Vedaldi, A., Lempitsky, V.S.: Texture networks: Feed-
forward synthesis of textures and stylized images. In: ICML. vol. 1, p. 4 (2016)
59. Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A.N., Kaiser,
L., Polosukhin, I.: Attention is all you need. In: Advances in neural information
processing systems. pp. 5998–6008 (2017)
60. Wang, F., Liu, H.: Understanding the behaviour of contrastive loss. In: Proceedings
of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. pp.
2495–2504 (2021)
61. Wang, H., Li, Y., Wang, Y., Hu, H., Yang, M.H.: Collaborative distillation for ultra-
resolution universal style transfer. In: Proceedings of the IEEE/CVF Conference
on Computer Vision and Pattern Recognition. pp. 1860–1869 (2020)
62. Wang, P., Li, Y., Vasconcelos, N.: Rethinking and improving the robustness of
image style transfer. In: Proceedings of the IEEE/CVF Conference on Computer
Vision and Pattern Recognition. pp. 124–133 (2021)
63. Wang, W., Yang, S., Xu, J., Liu, J.: Consistent video style transfer via relaxation
and regularization. IEEE Transactions on Image Processing 29, 9125–9139 (2020)
64. Wu, X., Hu, Z., Sheng, L., Xu, D.: Styleformer: Real-time arbitrary style transfer
via parametric style composition. In: Proceedings of the IEEE/CVF International
Conference on Computer Vision. pp. 14618–14627 (2021)
65. Xu, K., Wen, L., Li, G., Qi, H., Bo, L., Huang, Q.: Learning self-supervised space-
time cnn for fast video style transfer. IEEE Transactions on Image Processing 30,
2501–2512 (2021)
66. Yao, Y., Ren, J., Xie, X., Liu, W., Liu, Y.J., Wang, J.: Attention-aware multi-
stroke style transfer. In: Proceedings of the IEEE/CVF Conference on Computer
Vision and Pattern Recognition. pp. 1467–1475 (2019)
67. Yin, K., Gao, J., Shugrina, M., Khamis, S., Fidler, S.: 3dstylenet: Creating
3d shapes with geometric and texture style variations. In: Proceedings of the
IEEE/CVF International Conference on Computer Vision. pp. 12456–12465 (2021)
68. Yoo, J., Uh, Y., Chun, S., Kang, B., Ha, J.W.: Photorealistic style transfer via
wavelet transforms. In: Proceedings of the IEEE/CVF International Conference
on Computer Vision. pp. 9036–9045 (2019)
69. Zhang, H., Goodfellow, I., Metaxas, D., Odena, A.: Self-attention generative adver-
sarial networks. In: International conference on machine learning. pp. 7354–7363.
PMLR (2019)
70. Zhang, R., Isola, P., Efros, A.A., Shechtman, E., Wang, O.: The unreasonable
effectiveness of deep features as a perceptual metric. In: Proceedings of the IEEE
conference on computer vision and pattern recognition. pp. 586–595 (2018)

An, J., Huang, S., Song, Y., Dou, D., Liu, W., Luo, J.: Artflow: Unbiased im-
age style transfer via reversible neural flows. In: Proceedings of the IEEE/CVF
Conference on Computer Vision and Pattern Recognition. pp. 862–871 (2021)
An, J., Xiong, H., Ma, J., Luo, J., Huan, J.: Stylenas: An empirical study of neural
architecture search to uncover surprisingly fast end-to-end universal style transfer
networks. arXiv preprint arXiv:1906.02470 (2019)
Butler, D.J., Wulff, J., Stanley, G.B., Black, M.J.: A naturalistic open source movie
for optical flow evaluation. In: European conference on computer vision. pp. 611–
Springer (2012)
Chen, D., Liao, J., Yuan, L., Yu, N., Hua, G.: Coherent online video style transfer.
In: Proceedings of the IEEE International Conference on Computer Vision. pp.
1105–1114 (2017)
Chen, D., Yuan, L., Liao, J., Yu, N., Hua, G.: Stylebank: An explicit representation
for neural image style transfer. In: Proceedings of the IEEE conference on computer
vision and pattern recognition. pp. 1897–1906 (2017)
Chen, D., Yuan, L., Liao, J., Yu, N., Hua, G.: Stereoscopic neural style transfer. In:
Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.
pp. 6654–6663 (2018)
Chen, H., Wang, Z., Zhang, H., Zuo, Z., Li, A., Xing, W., Lu, D., et al.: Artistic
style transfer with internal-external learning and contrastive learning. Advances in
Neural Information Processing Systems 34 (2021)
Chen, H., Zhao, L., Wang, Z., Zhang, H., Zuo, Z., Li, A., Xing, W., Lu, D.: Du-
alast: Dual style-learning networks for artistic style transfer. In: Proceedings of the
IEEE/CVF Conference on Computer Vision and Pattern Recognition. pp. 872–881
(2021)
Chen, T.Q., Schmidt, M.: Fast patch-based style transfer of arbitrary style. arXiv
preprint arXiv:1612.04337 (2016)
Chen, T., Kornblith, S., Norouzi, M., Hinton, G.: A simple framework for con-
trastive learning of visual representations. In: International conference on machine
learning. pp. 1597–1607. PMLR (2020)
Chen, X., Fan, H., Girshick, R., He, K.: Improved baselines with momentum con-
trastive learning. arXiv preprint arXiv:2003.04297 (2020)
Chen, X., He, K.: Exploring simple siamese representation learning. In: Proceedings
of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. pp.
15750–15758 (2021)
Cheng, J., Jaiswal, A., Wu, Y., Natarajan, P., Natarajan, P.: Style-aware normal-
ized loss for improving arbitrary style transfer. In: Proceedings of the IEEE/CVF
Conference on Computer Vision and Pattern Recognition. pp. 134–143 (2021)
Chiu, T.Y., Gurari, D.: Iterative feature transformation for fast and versatile uni-
versal style transfer. In: European Conference on Computer Vision. pp. 169–184.
Springer (2020)
Choi, Y., Uh, Y., Yoo, J., Ha, J.W.: Stargan v2: Diverse image synthesis for mul-
tiple domains. In: Proceedings of the IEEE/CVF Conference on Computer Vision
and Pattern Recognition. pp. 8188–8197 (2020)
Deng, J., Dong, W., Socher, R., Li, L.J., Li, K., Fei-Fei, L.: Imagenet: A large-
scale hierarchical image database. In: 2009 IEEE conference on computer vision
and pattern recognition. pp. 248–255. Ieee (2009)
Deng, Y., Tang, F., Dong, W., Huang, H., Ma, C., Xu, C.: Arbitrary video style
transfer via multi-channel correlation. arXiv preprint arXiv:2009.08003 (2020)
Dumoulin, V., Shlens, J., Kudlur, M.: A learned representation for artistic style.
arXiv preprint arXiv:1610.07629 (2016)
16 Wu et al.
Esser, P., Rombach, R., Ommer, B.: Taming transformers for high-resolution image
synthesis. In: Proceedings of the IEEE/CVF Conference on Computer Vision and
Pattern Recognition. pp. 12873–12883 (2021)
Gao, C., Gu, D., Zhang, F., Yu, Y.: Reconet: Real-time coherent video style transfer
network. In: Asian Conference on Computer Vision. pp. 637–653. Springer (2018)
Gatys, L.A., Ecker, A.S., Bethge, M.: Image style transfer using convolutional
neural networks. In: Proceedings of the IEEE conference on computer vision and
pattern recognition. pp. 2414–2423 (2016)
Grill, J.B., Strub, F., Altch´ e, F., Tallec, C., Richemond, P.H., Buchatskaya, E.,
Doersch, C., Pires, B.A., Guo, Z.D., Azar, M.G., et al.: Bootstrap your own latent:
A new approach to self-supervised learning. arXiv preprint arXiv:2006.07733 (2020)
Gupta, A., Johnson, J., Alahi, A., Fei-Fei, L.: Characterizing and improving stabil-
ity in neural style transfer. In: Proceedings of the IEEE International Conference
on Computer Vision. pp. 4067–4076 (2017)
Gutmann, M., Hyv¨ arinen, A.: Noise-contrastive estimation: A new estimation prin-
ciple for unnormalized statistical models. In: Proceedings of the thirteenth inter-
national conference on artificial intelligence and statistics. pp. 297–304. JMLR
Workshop and Conference Proceedings (2010)
He, K., Fan, H., Wu, Y., Xie, S., Girshick, R.: Momentum contrast for unsupervised
visual representation learning. In: Proceedings of the IEEE/CVF Conference on
Computer Vision and Pattern Recognition. pp. 9729–9738 (2020)
Heusel, M., Ramsauer, H., Unterthiner, T., Nessler, B., Hochreiter, S.: Gans trained
by a two time-scale update rule converge to a local nash equilibrium. Advances in
neural information processing systems 30 (2017)
Hong, K., Jeon, S., Yang, H., Fu, J., Byun, H.: Domain-aware universal style trans-
fer. In: Proceedings of the IEEE/CVF International Conference on Computer Vi-
sion. pp. 14609–14617 (2021)
Huang, H., Wang, H., Luo, W., Ma, L., Jiang, W., Zhu, X., Li, Z., Liu, W.: Real-
time neural style transfer for videos. In: Proceedings of the IEEE Conference on
Computer Vision and Pattern Recognition. pp. 783–791 (2017)
Huang, X., Belongie, S.: Arbitrary style transfer in real-time with adaptive instance
normalization. In: Proceedings of the IEEE International Conference on Computer
Vision. pp. 1501–1510 (2017)
Huang, X., Liu, M.Y., Belongie, S., Kautz, J.: Multimodal unsupervised image-to-
image translation. In: Proceedings of the European conference on computer vision
(ECCV). pp. 172–189 (2018)
Jing, Y., Liu, X., Ding, Y., Wang, X., Ding, E., Song, M., Wen, S.: Dynamic
instance normalization for arbitrary style transfer. In: Proceedings of the AAAI
Conference on Artificial Intelligence. vol. 34, pp. 4369–4376 (2020)
Johnson, J., Alahi, A., Fei-Fei, L.: Perceptual losses for real-time style transfer
and super-resolution. In: European conference on computer vision. pp. 694–711.
Springer (2016)
Karras, T., Laine, S., Aila, T.: A style-based generator architecture for generative
adversarial networks. In: Proceedings of the IEEE/CVF Conference on Computer
Vision and Pattern Recognition. pp. 4401–4410 (2019)
Kingma, D.P., Ba, J.: Adam: A method for stochastic optimization. arXiv preprint
arXiv:1412.6980 (2014)
Kotovenko, D., Sanakoyeu, A., Lang, S., Ommer, B.: Content and style disentan-
glement for artistic style transfer. In: Proceedings of the IEEE/CVF International
Conference on Computer Vision. pp. 4422–4431 (2019)
Kotovenko, D., Wright, M., Heimbrecht, A., Ommer, B.: Rethinking style transfer:
From pixels to parameterized brushstrokes. In: Proceedings of the IEEE/CVF
Conference on Computer Vision and Pattern Recognition. pp. 12196–12205 (2021)
CCPL: Contrastive Coherence Preserving Loss for Versatile Style Transfer 17
Lee, H., Seol, J., goo Lee, S.: Contrastive learning for unsupervised image-to-image
translation (2021)
Lee, H.Y., Tseng, H.Y., Huang, J.B., Singh, M., Yang, M.H.: Diverse image-to-
image translation via disentangled representations. In: Proceedings of the Euro-
pean conference on computer vision (ECCV). pp. 35–51 (2018)
Levin, A., Lischinski, D., Weiss, Y.: A closed-form solution to natural image mat-
ting. IEEE transactions on pattern analysis and machine intelligence 30(2), 228–
242 (2007)
Li, X., Liu, S., Kautz, J., Yang, M.H.: Learning linear transformations for fast
image and video style transfer. In: Proceedings of the IEEE/CVF Conference on
Computer Vision and Pattern Recognition. pp. 3809–3817 (2019)
Li, Y., Fang, C., Yang, J., Wang, Z., Lu, X., Yang, M.H.: Universal style transfer
via feature transforms. arXiv preprint arXiv:1705.08086 (2017)
Li, Y., Liu, M.Y., Li, X., Yang, M.H., Kautz, J.: A closed-form solution to photore-
alistic image stylization. In: Proceedings of the European Conference on Computer
Vision (ECCV). pp. 453–468 (2018)
Lin, T., Ma, Z., Li, F., He, D., Li, X., Ding, E., Wang, N., Li, J., Gao, X.: Drafting
and revision: Laplacian pyramid network for fast high-quality artistic style transfer.
In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern
Recognition. pp. 5141–5150 (2021)
Lin, T.Y., Maire, M., Belongie, S., Hays, J., Perona, P., Ramanan, D., Doll´ ar, P.,
Zitnick, C.L.: Microsoft coco: Common objects in context. In: European conference
on computer vision. pp. 740–755. Springer (2014)
Liu, S., Lin, T., He, D., Li, F., Wang, M., Li, X., Sun, Z., Li, Q., Ding, E.: Adaattn:
Revisit attention mechanism in arbitrary neural style transfer. In: Proceedings
of the IEEE/CVF International Conference on Computer Vision. pp. 6649–6658
(2021)
Luan, F., Paris, S., Shechtman, E., Bala, K.: Deep photo style transfer. In: Pro-
ceedings of the IEEE conference on computer vision and pattern recognition. pp.
4990–4998 (2017)
Oord, A.v.d., Li, Y., Vinyals, O.: Representation learning with contrastive predic-
tive coding. arXiv preprint arXiv:1807.03748 (2018)
Park, D.Y., Lee, K.H.: Arbitrary style transfer with style-attentional networks.
In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern
Recognition. pp. 5880–5888 (2019)
Park, T., Efros, A.A., Zhang, R., Zhu, J.Y.: Contrastive learning for unpaired
image-to-image translation. In: European Conference on Computer Vision. pp.
319–345. Springer (2020)
Park, T., Zhu, J.Y., Wang, O., Lu, J., Shechtman, E., Efros, A.A., Zhang, R.: Swap-
ping autoencoder for deep image manipulation. arXiv preprint arXiv:2007.00653
(2020)
Phillips, F., Mackintosh, B.: Wiki art gallery, inc.: A case for critical thinking.
Issues in Accounting Education 26(3), 593–608 (2011)
Ruder, M., Dosovitskiy, A., Brox, T.: Artistic style transfer for videos. In: German
conference on pattern recognition. pp. 26–36. Springer (2016)
Ruder, M., Dosovitskiy, A., Brox, T.: Artistic style transfer for videos and spherical
images. International Journal of Computer Vision 126(11), 1199–1219 (2018)
Shaham, T.R., Dekel, T., Michaeli, T.: Singan: Learning a generative model from a
single natural image. In: Proceedings of the IEEE/CVF International Conference
on Computer Vision. pp. 4570–4580 (2019)
Sheng, L., Lin, Z., Shao, J., Wang, X.: Avatar-net: Multi-scale zero-shot style trans-
fer by feature decoration. In: Proceedings of the IEEE Conference on Computer
Vision and Pattern Recognition. pp. 8242–8250 (2018)
Simonyan, K., Zisserman, A.: Very deep convolutional networks for large-scale
image recognition. arXiv preprint arXiv:1409.1556 (2014)
Sun, D., Yang, X., Liu, M.Y., Kautz, J.: Pwc-net: Cnns for optical flow using
pyramid, warping, and cost volume. In: Proceedings of the IEEE conference on
computer vision and pattern recognition. pp. 8934–8943 (2018)
Ulyanov, D., Lebedev, V., Vedaldi, A., Lempitsky, V.S.: Texture networks: Feed-
forward synthesis of textures and stylized images. In: ICML. vol. 1, p. 4 (2016)
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A.N., Kaiser,
L., Polosukhin, I.: Attention is all you need. In: Advances in neural information
processing systems. pp. 5998–6008 (2017)
Wang, F., Liu, H.: Understanding the behaviour of contrastive loss. In: Proceedings
of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. pp.
2495–2504 (2021)
Wang, H., Li, Y., Wang, Y., Hu, H., Yang, M.H.: Collaborative distillation for ultra-
resolution universal style transfer. In: Proceedings of the IEEE/CVF Conference
on Computer Vision and Pattern Recognition. pp. 1860–1869 (2020)
Wang, P., Li, Y., Vasconcelos, N.: Rethinking and improving the robustness of
image style transfer. In: Proceedings of the IEEE/CVF Conference on Computer
Vision and Pattern Recognition. pp. 124–133 (2021)
Wang, W., Yang, S., Xu, J., Liu, J.: Consistent video style transfer via relaxation
and regularization. IEEE Transactions on Image Processing 29, 9125–9139 (2020)
Wu, X., Hu, Z., Sheng, L., Xu, D.: Styleformer: Real-time arbitrary style transfer
via parametric style composition. In: Proceedings of the IEEE/CVF International
Conference on Computer Vision. pp. 14618–14627 (2021)
Xu, K., Wen, L., Li, G., Qi, H., Bo, L., Huang, Q.: Learning self-supervised space-
time cnn for fast video style transfer. IEEE Transactions on Image Processing 30,
2501–2512 (2021)
Yao, Y., Ren, J., Xie, X., Liu, W., Liu, Y.J., Wang, J.: Attention-aware multi-
stroke style transfer. In: Proceedings of the IEEE/CVF Conference on Computer
Vision and Pattern Recognition. pp. 1467–1475 (2019)
Yin, K., Gao, J., Shugrina, M., Khamis, S., Fidler, S.: 3dstylenet: Creating
3d shapes with geometric and texture style variations. In: Proceedings of the
IEEE/CVF International Conference on Computer Vision. pp. 12456–12465 (2021)
Yoo, J., Uh, Y., Chun, S., Kang, B., Ha, J.W.: Photorealistic style transfer via
wavelet transforms. In: Proceedings of the IEEE/CVF International Conference
on Computer Vision. pp. 9036–9045 (2019)
Zhang, H., Goodfellow, I., Metaxas, D., Odena, A.: Self-attention generative adver-
sarial networks. In: International conference on machine learning. pp. 7354–7363.
PMLR (2019)
Zhang, R., Isola, P., Efros, A.A., Shechtman, E., Wang, O.: The unreasonable
effectiveness of deep features as a perceptual metric. In: Proceedings of the IEEE
conference on computer vision and pattern recognition. pp. 586–595 (2018)

锐单商城拥有海量元器件数据手册、IC替代型号，打造电子元器件IC百科大全！

风格迁移篇--CCPL：Contrastive Coherence Preserving Loss for Versatile Style Transfer多功能风格转换的...

文章目录

相关文章