利用双对比学习模型DCL鉴别视频中伪造的面部
时间:2023-06-29 07:37:00
?作者 |Doreen
01 背景介绍
随着图像转换技术在深度学习的支持下的快速发展,出现了各种换脸的操作。这些伪造的面部在程序优化下达到了混淆真假的效果,也带来了一些潜在的问题,如侵犯肖像权。
早期的面部伪造探测技术主要集中在一些人工合成特征(如眨眼、不同的头部姿势等)上。研究人员通过实验发现,真实的面部和伪造的面部在频域上存在差异,因此在深度学习框架下使用频率作为线索。
虽然这种方法在训练数据和测试数据独立分布的情况下取得了理想的结果,但测试数据中不同场景下的面部识别能力会受到很大影响。因此,一种普遍的面部伪造方法已成为研究的焦点。
目前广泛使用的方法来自图像分类模型,强调类型之间的差异,但缺乏对真假面部本质差异的关注。
针对这一问题,作者提出了一个双对比学习模型,通过增加伪造面部的不一致性,提高了模型的泛化能力。
02 方法
双对比学习模型(Dual Contrastive Learning)的结构图如图1所示。
首先通过DVG(Data views Generation)扩展数据,从不同的角度生成输入图像。然后使用比较学习模块提取输入图像的特征。最后,分别使用Intra-Instance和Inter-Instance两个模块组织特征的分布增加了伪造面部的不一致性。
图1 DCL结构图(图片来自论文:Dual Contrastive Learning for General Face Forgery Detection. https://arxiv.org/abs/2112.13522)
(1)数据增加
与传统的数据增加方法(如水平翻转、随机切割、高斯模糊等)不同,伪造面部检测的数据增加要求尽可能减少与目标无关的因素。因此,作者提出了以下方法来扩展数据。
1.RandomPatch:作者将输入的面部图像分成KxK小块,然后随机打乱顺序。这样做的目的是专注于伪造部分,而不是面部结构;
2. High-frequency enhancement:鉴于高频特性可以提高模型的泛化性能,作者将通过空域富模型SRM (Spatial Rich Model)处理后的图像特征与源图像特征相结合,加强了生成图像的高频信息;
3.Frame shift:作者将同一视频的不同帧图像作为不同视角下的输入图像,以减少面部表情和运动对伪造特征提取的影响;
4. Corresponding mixup:为了尽可能减少明显的伪造痕迹,挖掘伪造的基本特征,作者在输入伪造图像时添加了源图像的一些特征,从而生成了非常接近目标的伪造图像。
将以上四种方法生成的图像和利用传统数据增广的方法生成的图像
分为
两类。
(2)比较学习模型架构
(3)基于Inter-Instance的对比学习
(4)基于Intra-Instance的对比学习
03 实验
作者采用Dual Shot Face Detector框架在FaceForensics (训练包含720个视频,还有280个视频用于验证或测试),Celeb-DF(包括590个源视频和5639个伪造视频),DFDC(包括1133个源视频和4080个伪造视频)DFD(包括363个源视频和3068个伪造视频)Wide Deepfake测试了这五个数据集(包括3805个源面部图像序列和3509个伪造面部图像序列)。训练和测试每个视频随机采样50帧图像。
为了验证DCL作者测试了以下三个方面的准确性:
1. Cross-dataset评估
模型首先在FF 在数据集上训练,然后让它在DFD、DFDC、Wide Deepfake和Cele-DF测试数据集。DCL与现有方法相比,结果如表1所示。
表1 cross-dataset验证评估结果(图片来自论文:Dual Contrastive Lear
从表1可知,DCL在AUC和EER几乎所有现有方法的结果都领先于这两个指标,特别是在Cele-DF数据集的优势更为明显。
2. Cross-manipulation评估
首先用一种方法在数据集上训练,然后用其他方法在所有数据集上测试,如表2所示。
表2 cross-manipulation验证评估结果(图片来自论文:Dual Contrastive Learning for General Face Forgery Detection. https://arxiv.org/abs/2112.13522)
根据表2的结果,DCL在每种情况下,结果都优于现有方法。Deepfake在数据集上训练,在Faceswap测试数据集时,DCL与其他方法相比AUC平均指标领先15%。
3.Multi-source manipulation评估
为了检验DCL作者采用了三种可控方法FF 数据集上进行训练,然后在Deepfake测试数据集,结果如表3所示。
表3 Multi-source manipulation验证评估结果(图片来自论文:Dual Contrastive Learning for General Face Forgery Detection. https://arxiv.org/abs/2112.13522)
从表3可以看出,DCL表现一般优于现有方法。与现有方法相比。LTW方法,DCL低质量版本FF 数据集领先5%,说明DCL该方法具有良好的泛化性能。
04 结论
为了进一步挖掘真实面部图像与伪造面部图像的本质区别,作者构建了双对比学习模型DCL用于识别视频中伪造的面部。
首先通过DVG模块增加了输入图像的数据,丰富了输入数据的多样性。然后利用inter-instance和intra-instance两种比较学习模式减少了不同视角下同一面部的图像差异,增加了伪造面部的多样性。最后,通过5个公共数据集DCL与现有方法进行比较发现DCL在AUC、ACC这两个指标基本上领先于现有的方法。
DCL从本质上看,识别伪造图像不仅有效地提高了模型的泛化能力,而且为其他类型的伪造识别(如声音识别等)提供了参考。
参考文献
[1] Dual Contrastive Learning for General Face Forgery Detection.
https://arxiv.org/abs/2112.13522
私信我领取目标检测与R-CNN/数据分析的应用/电子商务数据分析/数据分析在医疗领域的应用/NLP学生项目展示/中文NLP的介绍与实际应用/NLP系列直播课/系列直播课/NLP前沿模型训练营等干货学习资源。