Main Content

GPR模型的回归器近似值

这subset of regressors (SR) approximation method consists of replacing the kernel function K. X X R. | θ 的) 在the精确的GPR方法经过一世ts approximation K. ^ S. R. X X R. | θ 一种 的) ,给定活动集 一种 N. = { 1 2 ...... N. } 。您可以使用使用方法为参数估计指定SR方法'FitMethod','sr'呼叫中的名称值对参数Fitrgp.。对于使用SR预测,您可以使用'predictmethod','sr'呼叫中的名称值对参数Fitrgp.

近似内核函数

为了精确的GPR模型,GPR中的预期预测取决于该组 N. 职能 S. N. = { K. X X 一世 | θ 的) 一世 = 1 2 ...... N. } , 在哪里 N. = { 1 2 ...... N. } 是所有观察结果的一组索引N.是the total number of observations. The idea is to approximate the span of these functions by a smaller set of functions, S. 一种 , 在哪里 一种 N. = { 1 2 ...... N. } 是选择为活动集中的点指数的子集。考虑 S. 一种 = { K. X X j | θ 的) j 一种 } 。目的是近似的元素 S. N. 作为线性组合的元素 S. 一种

认为the approximation to K. X X R. | θ 的) 使用功能 S. 一种 如下:

K. ^ X X R. | θ 的) = σ. j 一种 C j R. K. X X j | θ 的)

在哪里 C j R. 是近似线性组合的系数 K. X X R. | θ 的) 。认为 C 是包含所有系数的矩阵 C j R. 。这N.那 C ,是A. | 一种 | × N. 矩阵这样 C j R. 的) = C j R. 。该软件发现对元素的最佳近似值 S. N. using the active set 一种 N. = { 1 2 ...... N. } 通过最小化误差函数

E. 一种 C 的) = σ. R. = 1 N. K. X X R. | θ 的) - K. ^ X X R. | θ 的) 2

在哪里 是与内核函数相关联的再现内核希尔伯特空格(RKHS)K.[1][2]

最小化的系数矩阵 E. 一种 C 的)

C ^ 一种 = K. X 一种 X 一种 | θ 的) - 1 K. X 一种 X | θ 的)

使用活动集中的元素到内核函数的近似值 一种 N. = { 1 2 ...... N. }

K. ^ X X R. | θ 的) = σ. j 一种 C j R. K. X X j | θ 的) = K. X T. X 一种 | θ 的) C R. 的)

这S.R.approximation to the kernel function using the active set 一种 N. = { 1 2 ...... N. } 被定义为:

K. ^ S. R. X X R. | θ 一种 的) = K. X T. X 一种 | θ 的) C ^ 一种 R. 的) = K. X T. X 一种 | θ 的) K. X 一种 X 一种 | θ 的) - 1 K. X 一种 X R. T. | θ 的)

和sr近似 K. X X | θ 的) 是:

K. ^ S. R. X X | θ 一种 的) = K. X X 一种 | θ 的) K. X 一种 X 一种 | θ 的) - 1 K. X 一种 X | θ 的)

P.arameter Estimation

更换 K. X X | θ 的) 经过 K. ^ S. R. X X | θ 一种 的) 在边缘日志中,似然函数产生其SR近似值:

日志 P. S. R. y | X β θ σ 2 一种 的) = - 1 2 y - H β 的) T. [ K. ^ S. R. X X | θ 一种 的) + σ 2 一世 N. ] - 1 y - H β 的) - N. 2 日志 2 π - 1 2 日志 | K. ^ S. R. X X | θ 一种 的) + σ 2 一世 N. |

就像在那样确切的方法,软件通过第一计算估计参数 β ^ θ σ 2 的) ,最佳估计 β 给定 θ and σ 2 。这N.一世t estimates θ 那and σ 2 using the β -profiled marginal log likelihood. The SR estimate to β 给予 θ 那and σ 2 是:

β ^ S. R. θ σ 2 一种 的) = [ H T. [ K. ^ S. R. X X | θ 一种 的) + σ 2 一世 N. ] - 1 H } * ] - 1 H T. [ K. ^ S. R. X X | θ 一种 的) + σ 2 一世 N. ] - 1 y } * *

在哪里

[ K. ^ S. R. X X | θ 一种 的) + σ 2 一世 N. ] - 1 = 一世 N. σ 2 - K. X X 一种 | θ 的) σ 2 一种 一种 - 1 K. X 一种 X | θ 的) σ 2 一种 一种 = K. X 一种 X 一种 | θ 的) + K. X 一种 X | θ 的) K. X X 一种 | θ 的) σ 2 * = H T. H σ 2 - H T. K. X X 一种 | θ 的) σ 2 一种 一种 - 1 K. X 一种 X | θ 的) H σ 2 * * = H T. y σ 2 - H T. K. X X 一种 | θ 的) σ 2 一种 一种 - 1 K. X 一种 X | θ 的) y σ 2

一种N.d the SR approximation to the β - 纯粹的边缘日志可能是:

日志 P. S. R. y | X β ^ S. R. θ σ 2 一种 的) θ σ 2 一种 的) = - 1 2 y - H β ^ S. R. θ σ 2 一种 的) 的) T. [ K. ^ S. R. X X | θ 一种 的) + σ 2 一世 N. ] - 1 y - H β ^ S. R. θ σ 2 一种 的) 的) - N. 2 日志 2 π - 1 2 日志 | K. ^ S. R. X X | θ 一种 的) + σ 2 一世 N. |

预言

SR近似到分布 y N. E. W. 给予 y X X N. E. W.

P. y N. E. W. | y X X N. E. W. 的) = N. y N. E. W. | H X N. E. W. 的) T. β + μ S. R. σ N. E. W. 2 + Σ S. R. 的)

在哪里 μ S. R. and Σ S. R. 是sr近似值 μ and Σ 显示在使用精确的GPR方法预测

μ S. R. and Σ S. R. 通过更换获得 K. X X R. | θ 的) 经过一世ts SR approximation K. ^ S. R. X X R. | θ 一种 的) μ and Σ , 分别。

那是,

μ S. R. = K. ^ S. R. X N. E. W. T. X | θ 一种 的) } 1 的) K. ^ S. R. X X | θ 一种 的) + σ 2 一世 N. 的) - 1 } 2 的) y - H β 的)

S.一世N.CE.

1 的) = K. X N. E. W. T. X 一种 | θ 的) K. X 一种 X 一种 | θ 的) - 1 K. X 一种 X | θ 的)

2 的) = 一世 N. σ 2 - K. X X 一种 | θ 的) σ 2 [ K. X 一种 X 一种 | θ 的) + K. X 一种 X | θ 的) K. X X 一种 | θ 的) σ 2 ] - 1 K. X 一种 X | θ 的) σ 2

从这个事实中 一世 N. - B. 一种 + B. 的) - 1 = 一种 一种 + B. 的) - 1 μ S. R. 可以写成

μ S. R. = K. X N. E. W. T. X 一种 | θ 的) [ K. X 一种 X 一种 | θ 的) + K. X 一种 X | θ 的) K. X X 一种 | θ 的) σ 2 ] - 1 K. X 一种 X | θ 的) σ 2 y - H β 的)

S.一世milarly, Σ S. R. 是derived as follows:

Σ S. R. = K. ^ S. R. X N. E. W. X N. E. W. | θ 一种 的) } * - K. ^ S. R. X N. E. W. T. X | θ 一种 的) } * * K. ^ S. R. X X | θ 一种 的) + σ 2 一世 N. 的) - 1 } * * * K. ^ S. R. X X N. E. W. T. | θ 一种 的) } * * * *

因为

* = K. X N. E. W. T. X 一种 | θ 的) K. X 一种 X 一种 | θ 的) - 1 K. X 一种 X N. E. W. T. | θ 的)

* * = K. X N. E. W. T. X 一种 | θ 的) K. X 一种 X 一种 | θ 的) - 1 K. X 一种 X | θ 的) * * * = 2 的) 在等式的 μ S. R.

* * * * = K. X X 一种 | θ 的) K. X 一种 X 一种 | θ 的) - 1 K. X 一种 X N. E. W. T. | θ 的)

Σ S. R. 是Found as follows:

σ. S. R. = K. X N. E. W. T. X 一种 | θ 的) [ K. X 一种 X 一种 | θ 的) + K. X 一种 X | θ 的) K. X X 一种 | θ 的) 的) σ 2 ] - 1 K. X 一种 X N. E. W. T. | θ 的)

预测方差问题

One of the disadvantages of the SR method is that it can give unreasonably small predictive variances when making predictions in a region far away from the chosen active set 一种 N. = { 1 2 ...... N. } 。考虑在新点进行预测 X N. E. W. that is far away from the training set X 。换句话说,假设 K. X N. E. W. T. X | θ 的) 0.

对于精确的GPR,后部分布 F N. E. W. 给予 y X and X N. E. W. 与平均值是正常的 μ = 0. and variance Σ = K. X N. E. W. X N. E. W. | θ 的) 。T.H一世s value is correct in the sense that, if X N. E. W. 远离 X ,然后是数据 X y 的) 不提供有关的任何新信息 F N. E. W. 所以后部分布 F N. E. W. 给予 y X 那and X N. E. W. 应该减少到先前的分销 F N. E. W. 给予 X N. E. W. ,这是一种正常分布,平均值 0. and variance K. X N. E. W. X N. E. W. | θ 的)

对于SR近似,如果 X N. E. W. 是Far away from X (因此也很远 X 一种 ), 然后 μ S. R. = 0. and Σ S. R. = 0. 。因此在这个极端情况下, μ S. R. 同意 μ 来自精确的GPR,但是 Σ S. R. 是unreasonably small compared to Σ 从精确的GPR。

完全独立的条件近似方法可以帮助避免这个问题。

R.E.FE.R.E.N.CE.s

[1]R.asmussen, C. E. and C. K. I. Williams.高斯机器学习过程。MIT Press。剑桥,马萨诸塞州,2006年。

[2] Smola,A. J.和B.Schökopf。“机器学习的稀疏贪婪矩阵近似”。在第十七届国际机器学习会议的诉讼程序,2000年。

也可以看看

|

R.E.lated Topics