论文笔记 Dependent Gaussian Processes 相关高斯过程
时间:2022-11-14 04:00:00
0.摘要
高斯过程通常根据其协方差函数进行参数化。 然而,这使得处理多个输出变得困难,因为确保协方差矩阵正定是有问题的。 另一种表述是将高斯过程视为与平滑内核卷积的白噪声源,并将其改为内核参数化。 利用它,我们扩展高斯过程来处理多个耦合输出。
1.介绍
高斯过程回归有很多理想的特点,比如易于获得和表达预测中的不确定性,通过简单的参数捕获各种行为能力,还有自然贝叶斯解释 [15,4,9]。 因此,建议将其作为非线性回归 [8, 18] 监督神经网络的替代品扩展到处理分类任务 [11, 17, 6]并以其他方式使用(如 [ 16、14])。 高斯过程 (GP) 协方差矩阵作为联合高斯的随机变量,完全由协方差矩阵表征,其中项由协方差函数决定。 传统上,此类模型是通过参数化协方差函数(即指定任何两个输入向量的输出值协方差的函数)。 一般来说,为了保证协方差矩阵的正定性,需要正定函数。
大多数 GP 只建模单个输出变量。 处理多个输出的尝试通常涉及到使用每个输出独立模型-一种称为多克里金法的模型 [18] 但是这种模型的方法输出中的结构不能捕获共变(非独立、耦合)。 例如,考虑图 2 顶部显示的两个紧密耦合输出,其中一个只是另一个输出的移位版本。 我们在这里输出 1 有详细的了解,但输出 2 采样稀疏。 将输出视为独立模型,不能利用其明显的相似性——直观地说,我们应该使用从输出 1 和 2 预测中学知识的输出 2。
联合预测是可能的(例如 co-kriging [3])但是有问题,因为不清楚如何定义协方差函数 [5]。尽管有许多已知的正定自协方差函数(如高斯和许多其他函数) [1, 9]),但很难定义导致正定协方差矩阵的交叉协方差函数。与神经网络建模相比,多个输出的处理是常规的。直接参数协方差函数的替代方法是 GP 视为稳定线性滤波器的输出。响应输入线性滤波器 x(t) 的输出为 y ( t ) = h ( t ) ☆ x ( t ) = ∫ ? ∞ ∞ h ( t ? τ ) x ( τ ) d τ y(t) = h(t) ☆ x(t) = \int_{?∞}^{ ∞} h(t ? τ )x(τ )dτ y(t)=h(t)☆x(t)=∫?∞ ∞h(t?τ)x(τ)dτ ,其中 h(t ) 定义了滤波器的脉冲响应, ☆ ☆ ☆ 表示卷积。假设线性滤波器稳定且稳定x(t)是高斯白噪声,那么输出过程y(t)必然是高斯过程。也可以通过一组 M × N 脉冲响应来表征具有 M 个输入和 N 个输出的 p 稳定线性滤波器。一般来说,得到的 N 输出是一个相关的高斯过程。现在,我们可以通过参数多输出线性滤波器的脉冲响应集来建模多个相关输出,并从我们观察到的数据中推断参数值。我们现在指定和参数脉冲响应h(t),而不是指定和参数化正定协方差函数/strong>。唯一的限制是滤波器是线性且稳定的,这是通过要求脉冲响应绝对可积来实现的。
通过用高斯噪声刺激线性滤波器来构造 GP 等效于通过核卷积构造 GP。 通过将连续白噪声过程 X ( s ) X(s) X(s) 与平滑核 h ( s ) h(s) h(s) 进行卷积,可以在区域 S S S 上构建高斯过程 V ( s ) V(s) V(s),对于 s ∈ S s∈ S s∈S, V ( s ) = h ( s ) ∗ X ( s ) V (s) = h(s) * X(s) V(s)=h(s)∗X(s) ,[7]。 对此可以添加第二个白噪声源,代表测量不确定性,这共同给出了观测 Y 的模型。 GP 的这种视图以图形形式显示在图 1(a) 中。 卷积方法已被用于制定灵活的非平稳协方差函数 [13, 12]。 此外,可以通过假设一个共同的潜在过程 [7] 将这个想法扩展到对多个依赖输出过程进行建模。 例如,对于 s ∈ S 0 s ∈ S0 s∈S0,两个依赖进程 V 1 ( s ) V1(s) V1(s) 和 V 2 ( s ) V2(s) V2(s) 由对 X ( s ) X(s) X(s) 的共享依赖构成,如下所示
V 1 ( s ) = ∫ S 0 ∪ S 1 h 1 ( s − λ ) X ( λ ) d λ V_1(s)=\int_{S_0∪S_1}h_1(s-λ)X(λ)dλ V1(s)=∫S0∪S1h1(s−λ)X(λ)dλ 并且 V 2 ( s ) = ∫ S 0 ∪ S 2 h 2 ( s − λ ) X ( λ ) d λ V_2(s)=\int_{S_0∪S_2}h_2(s-λ)X(λ)dλ V2(s)=∫S0∪S2h2(s−λ)X(λ)dλ
其中 S = S 0 ∪ S 1 ∪ S 2 S = S_0 ∪ S_1 ∪ S_2 S=S0∪S1∪S2 是不相交子空间的并集。 V 1 ( s ) V_1(s) V1(s) 依赖于 X ( s ) X(s) X(s) , s ∈ S 1 s ∈ S1 s∈S1 但不依赖于 X ( s ) , X(s), X(s), s ∈ S2。 类似地, V 2 ( s ) V_2(s) V2(s) 依赖于 X ( s ) X(s) X(s), s ∈ S 2 s ∈ S_2 s∈S2 但不依赖于 X ( s ) X(s) X(s), s ∈ S 1 s ∈ S1 s∈S1。 这允许 V 1 ( s ) V1(s) V1(s) 和 V 2 ( s ) V2(s) V2(s) 拥有独立的组件。
2.两个相关输出
在区域 R p R^p Rp中,考虑两个输出: Y 1 ( s ) , Y 2 ( s ) , s ∈ R p Y_1(s),Y_2(s),s∈R^p Y1(s),Y2(s),s∈Rp,对于输出1我们有 N 1 N_1 N1个观测值,输出2有 N 2 N_2 N2个观测值,用以下下表示: D 1 = D_1= D1={
s 1 , i , y 1 , i s_{1,i},y_{1,i} s1,i,y1,i} i = 1 N 1 _{i=1}^{N_1} i=1N1、 D 2 = D_2= D2={
s 2 , i , y 2 , i s_{2,i},y_{2,i} s2,i,y2,i} i = 1 N 2 _{i=1}^{N_2} i=1N2,我们希望从数据 D = D= D={
D 1 , D 2 D_1,D_2 D1,D2}中学习模型以预测 Y 1 ( s ′ ) Y_1(s') Y1(s′)或者 Y 2 ( s ′ ) Y_2(s') Y2(s′)如图1(b)我们可以将每个输出建模为三个平稳高斯过程的线性和。其中之一 (V) 来自该输出特有的噪声源,在与核 h 的卷积下。 第二个 (U ) 类似,但来自影响两个输出的单独噪声源 X0(尽管通过不同的内核 k)。 第三个是和以前一样的加性噪声。
因此我们有 Y i ( s ) = U i ( s ) + V i ( s ) + W i ( s ) Y_i(s)=U_i(s)+V_i(s)+W_i(s) Yi(s)=Ui(s)+Vi(s)+Wi(s)其中, W i ( s ) W_i(s) Wi(s)是方差为 σ i 2 σ^2_i σi2的平稳高斯白噪声, X 0 ( s ) , X 1 ( s ) , X 2 ( s ) X_0(s),X_1(s),X_2(s) X0(s),X1(s),X2(s)是独立的平稳高斯白噪声, U 1 ( s ) , U 2 ( s ) , V 1 ( s ) , V 2 ( s ) U_1(s),U_2(s),V_1(s),V_2(s) U1(s),U2(s),V1(s),V2(s)是由 U i ( s ) = k i ( s ) ☆ X 0 ( s ) U_i(s)=k_i(s)☆X_0(s) Ui(s)=ki(s)<