【Transfer Learning】泛化到未知域:域泛化 (Domain Generalization) 综述论文
时间:2022-09-18 16:30:00
论文名称:Generalizing to Unseen Domains: A Survey on Domain Generalization
论文下载:https://arxiv.org/abs/2103.03097
论文年份:2021
78(2022/05/07)
论文代码:https://github.com/jindongwang/transferlearning/tree/master/code/DeepDG
论文总结
Abstract
Machine learning systems generally assume that the training and testing distributions are the same. T o this end, a key requirement is to develop models that can generalize to unseen distributions. Domain generalization (DG), i.e., out-of-distribution generalization, has attracted increasing interests in recent years. Domain generalization deals with a challenging setting where one or several different but related domain(s) are given, and the goal is to learn a model that can generalize to an unseen test domain. Great progress has been made in the area of domain generalization for years. This paper presents the first review of recent advances in this area. First, we provide a formal definition of domain generalization and discuss several related fields. We then thoroughly review the theories related to domain generalization and carefully analyze the theory behind generalization. We categorize recent algorithms into three classes: data manipulation, representation learning, and learning strategy, and present several popular algorithms in detail for each category. Third, we introduce the commonly used datasets, applications, and our open-sourced codebase for fair evaluation. Finally, we summarize existing literature and present some potential research topics for the future.
机器学习系统通常假设训练和测试分布相同。为此,一个关键要求是开发可以推广到看不见的分布模型。近年来,域泛化(Domain generalization,DG),即分布外泛化(out-of-distribution generalization),它引起了越来越多的兴趣。域泛化处理具有挑战性,包括给出一个或多个不同但相关的域,目标是学习一个可以泛化到看不见的测试域的模型。多年来,该领域的泛化方向取得了巨大的进展。本文首次回顾了该领域的最新进展。首先,我们提供了领域泛化的正式定义,并讨论了几个相关领域。然后,我们彻底回顾了与域泛化相关的理论,并仔细分析了泛化背后的理论。我们将是最近的算法分为三类:数据操作、表示学习和学习策略,并详细介绍了几种流行的算法。第三,我们介绍了常用的数据集、应用程序和我们的开源代码库进行公平评估。最后,我们总结了现有的文献,并提出了未来的一些潜在研究课题。
1 INTRODUCTION
机器学习 (ML) 在计算机视觉、自然语言处理、医疗保健等领域取得了显著成功。 ML 该模型的目标是从训练数据中学习一般性和预测性知识,然后将该模型应用于新的(测试)数据。传统的 ML 基于独立同分布的模型(identically and independently distributed,i.i.d)假设训练,即训练和测试数据相同且独立分布。然而,这种假设并不总是建立在现实中。当训练数据和测试数据的概率分布不同时,ML由于域分布差距,模型的性能往往是由于(domain distribution gaps )而恶化[1]。收集所有可能领域的数据进行训练 ML 模型是昂贵的,甚至是不可能的。因此,增强 ML 模型的泛化(generalization)能力在工业和学术领域都很重要。
有许多与泛化相关的研究课题,如领域适应(domain adaptation)、元学习(meta-learning)、迁移学习(transfer learning)、协变量偏移(covariate shift)等等。近年来,域泛化(Domain generalization,DG)备受关注。如图 1 所示,域泛化的目标是从一个或多个不同但相关的域(即不同的训练数据集)中学习一个模型,它将在未见的测试域中很好地泛化。例如,给定一个由草图、卡通图像和绘画图像组成的训练集。域泛化需要训练一个良好的机器学习模型。该模型在分类自然图像或照片图像时有最小的预测误差。这些图像显然有来自训练集中图像的明显分布。在过去的几年里,该领域在计算机视觉和自然语言处理方面取得了重大进展。虽然取得了进展,但该领域没有对其主要思想、学习算法等相关问题进行全面的介绍和总结,为未来提供研究意见。
本文提出了关于域泛化的第一项调查是介绍其最近的进展,特别关注其公式、理论、算法、研究领域、数据集、应用和未来的研究方向。希望本次调查能为感兴趣的研究人员提供全面的回顾,激发对该领域及相关领域的更多研究。
在我们论文的会议版本之后,有几篇调查论文,与我们的论文大不相同。 写一个关于 DG 综述,重点是计算机视觉领域。[4] 最近发表的一篇关于分布外的文章(out-of-distribution,OOD)综述论文泛化。他们的工作集中在因果关系和稳定的神经网络上。相关调查论文 [5] 用于 OOD 对任何看不见的环境进行检测,而不是构建工作算法。
这篇论文是我们以前写的 IJCAI-21 调查轨道上接受的短篇论文的大幅扩展版本(6 页面,包含在附录文件中)。与短篇论文相比,该版本扩展如下:
- 我们提出了域泛化及相关域适应(domain generalization and the related domain adaptation)的理论分析。
- 例如,我们通过添加新类别来扩展这种方法:启发因果关系的方法(causality-inspired methods)、特征解耦(feature disentanglement)生成建模,不变风险最小化(invariant risk minimization)、基于梯度操作的方法(gradient operation-based methods) 综合总结其他学习策略 DG 方法。
- 对于所有类别,我们通过包括更多相关的算法、比较和讨论来扩大对方法的分析。我们还包括最近的论文(超过 30% 新工作)。
- 我们扩数据集和应用程序的范围,探索了领域泛化的评价标准。最后,我们建立了一个名字 DeepDG1 的用于 DG 对公共数据集的结果进行了一些分析。
本文组织如下。我们在第 2 本节阐述了域泛化问题,并讨论了其与现有研究领域的关系。第 3 介绍了域泛化的相关理论。在第 4 在本节中,我们详细描述了一些具有代表性的内容 DG 方法。在第 5 在节中,我们展示了一些从传统环境扩展而来的新环境 DG 研究领域。第 6 第一节介绍应用 7 节介绍 DG 基准数据集。我们总结了对现有工作的看法,并在第一位 8 节日提出了一些可能的未来方向。最后,我们在第一 9 本文总结了
2 BACKGROUND
2.1 Formalization of Domain Generalization
本节将介绍本文中使用的符号和定义。
定义 1:域(Domain)。令 X \mathcal{X} X 表示非空输入空间, Y \mathcal{Y} Y 表示输出空间。域由从分布中采样的数据组成。我们将其表示为 S = ( x i , y i ) i = 1 n ∼ P X Y \mathcal{S} = {(x_i, y_i)}^n_{i=1} ∼ P_{XY} S=(xi,yi)i=1n∼PXY,其中, x ∈ X ⊂ R d , y ∈ Y ⊂ R \mathbf{x} ∈ \mathcal{X} ⊂ \R^d, y ∈ \mathcal{Y} ⊂ \R x∈X⊂Rd,y∈Y⊂R 表示标签, P X Y P_{XY} PXY 表示输入样本和输出标签的联合分布。 X X X 和 Y Y Y 表示相应的随机变量。
定义 2:域泛化(Domain generalization)。如图 2 所示,在域泛化中,给定 M M M 个训练(源)域 S t r a i n = { S i ∣ i = 1 , ⋅ ⋅ ⋅ , M } \mathcal{S}_{train} = \{\mathcal{S}^i | i = 1, · · · , M\} Strain={
Si∣i=1,⋅⋅⋅,M} 其中 S i = { ( x j i , y j i ) } j n i = 1 \mathcal{S}^i = \{(x^i_j, y^i_j)\}^{n_i}_j=1 Si={
(xji,yji)}jni=1 表示第 i i i 个域。每对域之间的联合分布不同: P X Y i ≠ P X Y j , 1 ≤ i ≠ j ≤ M P^i_{XY} \neq P^j_{XY}, 1 ≤ i \neq j ≤ M PXYi=PXYj,1≤i=j≤M。域泛化的目标是从 M M M 个训练域中学习鲁棒且可泛化的预测函数 h : X → Y h : \mathcal{X} → \mathcal{Y} h:X→Y,以在看不见的测试域 S t e s t \mathcal{S}_{test} Stest 上实现最小预测误差(即,在训练中不能访问 S t e s t \mathcal{S}_{test} Stest 并且 P X Y t e s t ≠ P X Y i f o r i ∈ { 1 , ⋅ ⋅ ⋅ , M } P^{test}_{XY} \neq P^i_{XY} \ for \ i ∈ \{1, · · · , M\} PXYtest=PXYi for i∈{
1,⋅⋅⋅,M})。
其中 E \mathbb{E} E 是期望值, l ( ⋅ , ⋅ ) \mathscr{l}(·,·) l(⋅,⋅) 是损失函数。
我们在表 1 中列出了常用的符号。
2.2 Related Research Areas
与域泛化密切相关的研究领域包括但不限于:迁移学习 (transfer learning)、域适应 (domain adaptation)、多任务学习 (multi-task learning)、多领域学习 (multiple domain learning)、元学习 (meta-learning)、终身学习 (lifelong learning) 和零样本学习 (zero-shot learning)。我们在表 2 中总结了它们与域泛化的差异,并在下面简要描述了它们。
多任务学习(Multi-task learning) [7] 联合优化几个相关任务的模型。通过在这些任务之间共享表示,可以使模型更好地泛化原始任务。请注意,多任务学习的目的不是增强对新(看不见的)任务的泛化能力。特别是,多域学习(multi-domain learning)是一种多任务学习,它在多个相关域上进行训练,为每个原始域 [8] 学习好的模型,而不是新的测试域。
迁移学习(Transfer learning) [9, 10, 11] 在源任务上训练模型,旨在提高模型在不同但相关的目标域/任务上的性能。 Pretraining-finetuning 是迁移学习的常用策略,其中源域和目标域具有不同的任务,并且在训练中访问目标域。在 DG 中,无法访问目标域,训练和测试任务通常相同,但分布不同。
域适应 (Domain Adaptation, DA) [12, 13] 近年来也很流行。 DA 旨在使用现有的训练源域最大化给定目标域的性能。DA 和 DG 的区别在于 DA 可以访问目标域数据,而 DG 在训练期间看不到它们。这使得 DG 比 DA 更具挑战性,但在实际应用中更加现实和有利。
元学习(Meta-learning) [14,15,16] 旨在通过从以前的经验或任务中学习来学习学习算法本身,即学习学习(learning-to-learn)。虽然元学习中的学习任务不同,但域泛化中的学习任务是相同的。元学习是一种通用的学习策略,可用于 DG [17,18,19,20],通过在训练域中模拟元训练和元测试任务来提高 DG 的性能。
终身学习(Lifelong Learning)[21],或持续学习(continual learning),关心多个连续领域/任务之间的学习能力。它要求模型通过适应新知识,同时保留以前学习的经验,随着时间的推移不断学习。这也与 DG 不同,因为它可以在每个时间步访问目标域,并且它没有显式处理跨域的不同分布。
零样本学习(Zero-shot learning) [22, 23] 旨在从已见类别中学习模型,并对训练中未见类别的样本进行分类。相比之下,域泛化通常研究训练和测试数据来自同一类但分布不同的问题。
3 THEORY
在本节中,我们回顾了一些与域泛化相关的理论。由于域适应与 DG 密切相关,我们从域适应理论开始。
3.1 Domain Adaptation
对于二元分类问题,我们将源域上的真实标注函数表示为 h ∗ s : X → [ 0 , 1 ] h^{∗s} : \mathcal{X} → [0, 1] h∗s:X→[0,1](当输出在 (0, 1) 时,表示 y = 1 的概率),将目标域上的真实标注函数表示为 h ∗ t h^{∗t} h∗t。令 h : X → [ 0 , 1 ] h : \mathcal{X} → [0, 1] h:X→[0,1] 是假设空间 H \mathcal{H} H 中的任何分类器。两个分类器 h h h 和 h ′ h' h′ 在源域上的分类差异可以通过以下方式测量
类似地,我们可以在期望 x ∼ P X t x ∼ P^t_X x∼PXt 时定义 ϵ t \epsilon_t ϵt。定义 ϵ s ( h ) : = ϵ s ( h , h ∗ s ) \epsilon^s(h) := \epsilon^s(h, h^{∗s}) ϵs(h):=ϵs(h,h∗s) 和 ϵ t ( h ) : = ϵ t ( h , h ∗ t ) \epsilon^t(h) := \epsilon^t(h, h^{∗t}) ϵt(h):=ϵt(h,h∗t) 分别作为分类器 h h h 在源域和目标域上的风险(risk)。
DG/DA 的目标是最小化目标风险 ϵ t ( h ) \epsilon^t(h) ϵt(h),但由于没有关于 h ∗ t h^{∗t} h∗t 的任何信息,所以无法访问。因此,人们寻求使用可处理的源风险 ϵ s ( h ) \epsilon^s(h) ϵs(h) 来限制目标风险 ϵ t ( h ) \epsilon^t(h) ϵt(h)。[24] (Thm. 1) 给出了两个风险的界限:
然而,总变化是一个很大的距离(即,它往往非常大),可能会放松界限(4),并且很难使用有限样本进行估计。为了解决这个问题,[24] 开发了另一个界限([24],Thm. 2;[25],Thm. 1):
定理 1:域适应误差界(非渐近),Domain adaptation error bound (non-asymptotic) [24](Thm. 2)。令 d d d 为 H \mathcal{H} H 的 Vapnik-Chervonenkis (VC) 维度 [26], U s \mathcal{U}^s Us 和 U t \mathcal{U}^t Ut 为来自两个域的大小为 n n n 的未标记样本。那么对于任何 h ∈ H h ∈ \mathcal{H} h∈H 和 δ ∈ ( 0 , 1 ) δ ∈ (0, 1) δ∈(0,1),以下不等式以至少 1 − δ 1 - δ 1−δ 的概率成立:
在上述范围内,域分布差异 d ( P X s , P X t ) d(P^s_X, P^t_X) d(PXs,P元器件数据手册、IC替代型号,打造电子元器件IC百科大全!