贝叶斯优化算法试图最小化标量目标函数据span class="inlineequation">F据/em>(据em class="varname">X据/em>)据/span>为了据em class="varname">X据/em>在有界域中。该函数可以是确定性的,也可以是随机的,这意味着当在同一点计算时,它可以返回不同的结果据em class="varname">X据/em>.组件的据em class="varname">X据/em>可以是连续的实数、整数或类别,意思是一组离散的名称。据/p>
笔记据/strong> 在整个本次讨论中,D表示组件的数量据em class="varname">X据/em>.据/p>
最小化中的关键元素是:据/p>
高斯过程模型据span class="inlineequation">F据/em>(据em class="varname">X据/em>)据/span>.据/p> 一个贝叶斯更新程序,用于修改高斯过程模型在每一个新的评价据span class="inlineequation">F据/em>(据em class="varname">X据/em>)据/span>.据/p> 一个据em class="firstterm">获取函数据/em>一种据/em>(据em class="varname">X据/em>)据/span>(基于高斯过程模型据em class="varname">F据/em>)最大化以确定下一个点据em class="varname">X据/em>进行评估。有关详细信息,请参见据一种href="//www.tatmou.com/help/stats/bayesian-optimization-algorithm.html" class="intrnllnk">采集函数类型据/a>和据一种href="//www.tatmou.com/help/stats/bayesian-optimization-algorithm.html" class="intrnllnk">获取函数最大化据/a>.据/p> 算法概述:据/p>
评估据span class="inlineequation">y据sub>一世据/sub>=据em class="varname">F据/em>(据em class="varname">X据sub>一世据/sub>)据/span>为了据code class="literal">numseedpoints.据/code>点据em class="varname">X据sub>一世据/sub>,在可变界限内随机拍摄。据code class="literal">numseedpoints.据/code>是A.据code class="function">Bayesopt.据/code>环境。如果有评估错误,请参加更多随机点,直到存在据code class="literal">numseedpoints.据/code>成功的评估。每个分量的概率分布要么是均匀的,要么是对数比例的,取决于据code class="literal">变换据/code>价值据code class="function">optimizableVariable据/code>.据/p> 然后重复以下步骤:据/p>
的高斯过程模型的更新据span class="inlineequation">F据/em>(据em class="varname">X据/em>)据/span>求函数的后验分布据span class="inlineequation">问:据/em>(据em class="varname">F据/em>|据em class="varname">X据sub>一世据/sub>那据em class="varname">y据sub>一世据/sub>为了据em class="varname">一世据/em>= 1,......,据em class="varname">T.据/em>)据/span>.(内部,据code class="function">Bayesopt.据/code>用途据一种href="//www.tatmou.com/help/stats/fitrgp.html"> 找到新点据em class="varname">X据/em>最大化采集功能据span class="inlineequation">一种据/em>(据em class="varname">X据/em>)据/span>.据/p> 当达到以下任一值时,算法停止:据/p>
固定数量的迭代(默认为30)。据/p> 固定的时间(默认是没有时间限制)。据/p> 你提供的停止标准据一种href="//www.tatmou.com/help/stats/bayesian-optimization-output-functions.html" class="a">贝叶斯优化输出功能据/a>或者据一种href="//www.tatmou.com/help/stats/bayesian-optimization-plot-functions.html" class="a">贝叶斯优化绘图函数据/a>.据/p> 对于并行算法差异,请参阅据一种href="//www.tatmou.com/help/stats/parallel_bayesian_optimization.html" class="a">平行的贝叶斯算法据/a>.据/p>
fitrgp据/code>以拟合高斯过程模型到数据。)据/p>
目标函数的潜在概率模型据em class="varname">F据/em>是在观察中增加高斯噪声之前的高斯过程。所以先前的分销据span class="inlineequation">F据/em>(据em class="varname">X据/em>)据/span>是一个有均值的高斯过程吗据span class="inlineequation">μ据/em>(据em class="varname">X据/em>;据em class="varname">θ据/em>)据/span>协方差核函数据span class="inlineequation">K.据/em>(据em class="varname">X据/em>那据em class="varname">X'据/em>;据em class="varname">θ据/em>)据/span>.在这里,据em class="varname">θ据/em>是核参数向量。对于特定的核函数据code class="function">Bayesopt.据/code>用途,参见据一种href="//www.tatmou.com/help/stats/bayesian-optimization-algorithm.html" class="intrnllnk">内核功能据/a>.据/p>
更详细地说明,表示一组点据span class="inlineequation">X据/em>=据em class="varname">X据sub>一世据/sub>与相关的目标函数值据span class="inlineequation">F据/em>=据em class="varname">F据sub>一世据/sub>.先前的功能值的联合分布据em class="varname">F据/em>多变量正常,平均值据em class="varname">μ据/em>(据em class="varname">X据/em>)和协方差矩阵据em class="varname">K.据/em>(据em class="varname">X据/em>那据em class="varname">X据/em>), 在哪里据span class="inlineequation">K.据sub>ij据/sub>=据em class="varname">K.据/em>(据em class="varname">X据sub>一世据/sub> 在不失一般性的前提下,先验均值为据code class="literal">0.据/code>.据/p>
此外,观测结果还假定添加了高斯噪声和方差据em class="varname">σ据/em>2据/sup>.所以先前的分配有协方差据span class="inlineequation">K.据/em>(据em class="varname">X据/em>那据em class="varname">X据/em>;据em class="varname">θ据/em>)+据em class="varname">σ据/em>2据/sup>一世据/em>.据/p>
拟合高斯进程回归模型到观察范围包括找到噪声方差的值据em class="varname">σ据/em>2据/sup>和内核参数据em class="varname">θ据/em>.这种拟合是由计算的计算密集型过程据一种href="//www.tatmou.com/help/stats/fitrgp.html"> 有关拟合高斯过程的详细信息,请参阅据一种href="//www.tatmou.com/help/stats/gaussian-process-regression.html" class="a">高斯过程回归据/a>.据/p>
内核功能据span class="inlineequation">K.据/em>(据em class="varname">X据/em>那据em class="varname">X'据/em>;据em class="varname">θ据/em>)据/span>可以显着影响高斯过程回归的质量。据code class="function">Bayesopt.据/code>使用ARDMatérn5/2内核定义据一种href="//www.tatmou.com/help/stats/kernel-covariance-function-options.html" class="a">内核(协方差)功能选项据/a>.据/p>
看看斯努克、拉罗谢尔和亚当斯据一种href="//www.tatmou.com/help/stats/bayesian-optimization-algorithm.html" class="intrnllnk">[3]据/a>.据/p>
fitrgp据/code>.据/p>
内核功能据/h4>
有六种采集功能可供选择据code class="function">Bayesopt.据/code>.有三种基本类型据code class="literal">expected-improvement据/code>也修改了据code class="literal">每秒据/code>或者据code class="literal">+据/code>:据/p>
'预期 - 每秒改善'据/code>(默认)据/p>
'预期改善'据/code>
“expected-improvement-plus”据/code>
“expected-improvement-per-second”据/code>
“lower-confidence-bound”据/code>
“probability-of-improvement”据/code>
收购函数评估一个点的“善良”据em class="varname">X据/em>基于后部分布功能据em class="varname">问:据/em>.当存在耦合约束时,包括错误约束(参见据一种href="//www.tatmou.com/help/stats/bayesian-optimization-objective-functions.html" class="a">目标函数的错误据/a>),根据Gelbart、Snoek和Adams的建议,所有获取功能都修改了他们对“善意”的估计据一种href="//www.tatmou.com/help/stats/bayesian-optimization-algorithm.html" class="intrnllnk">[2]据/a>.通过估计约束满足的概率来乘以“善良”,以获取采集功能。据/p>
这据code class="literal">'预期改善'据/code>习得函数族评估目标函数的预期改进量,忽略导致目标增加的值。换句话说,就是定义据/p>
X据/em>最好的据/sub>作为后平均最低的位置。据/p>
μ据sub>问:据/sub>(据em class="varname">X据/em>最好的据/sub>)据/span>作为后叶的最低值。据/p>
然后是预期的改进据/p>
这据code class="literal">“probability-of-improvement”据/code>采集功能使类似,但更简单,计算为据code class="literal">'预期改善'据/code>.在这两种情况下,据code class="function">Bayesopt.据/code>首先计算据em class="varname">X据/em>最好的据/sub>和据span class="inlineequation">μ据sub>问:据/sub>(据em class="varname">X据/em>最好的据/sub>)据/span>.然后据code class="literal">“probability-of-improvement”据/code>那据code class="function">Bayesopt.据/code>计算概率据em class="varname">PI.据/em>那个新点据em class="varname">X据/em>导致更好的客观函数值,由“边缘”参数进行修改据em class="varname">m据/em>:据/p>
在哪里据/p>
这里据span class="inlineequation">φ(·)据/span>单位正常cdf,和据em class="varname">σ据sub>问:据/sub>高斯过程的后验标准差为据em class="varname">X据/em>.据/p>
Bayesopt.据/code>需要据em class="varname">m据/em>作为估计的噪声标准偏差。据code class="function">Bayesopt.据/code>评估这种概率据/p>
这据code class="literal">“lower-confidence-bound”据/code>采集功能看曲线据em class="varname">G据/em>在每个点的后部平均值以下的两个标准偏差:据/p>
G据/em>(据em class="varname">X据/em>)是2据em class="varname">σ据sub>问:据/sub>较低的客观函数模型的信心包络。据code class="function">Bayesopt.据/code>然后最大化消极据em class="varname">G据/em>:据/p>
有时,评估目标函数的时间取决于区域。例如,许多支持向量机计算在特定范围内金宝app的时间变化很大。如果是这样,据code class="function">Bayesopt.据/code>通过在采集功能中使用时间加权,可以获得较好的每秒改善。成本加权收购函数有这个短语据code class="literal">每秒据/code>在他们的名字。据/p>
这些收购功能如下工作。在客观函数评估期间,据code class="function">Bayesopt.据/code>将另一个贝叶斯型号的客观函数评估时间模型视为位置的函数据em class="varname">X据/em>.每秒采集函数使用的预期改进是据/p>
在哪里据em class="varname">μ据sub>S.据/sub>(据em class="varname">X据/em>)是时序高斯过程模型的后序。据/p>
为逃避局部目标函数的最小值,将获取函数与据code class="literal">+据/code>当他们认为自己是,就会改变自己的行为据em class="firstterm">过度划分据/em>一个地区。要理解过度开发,让据em class="varname">σ据sub>F据/sub>(据em class="varname">X据/em>为后验目标函数的标准差据em class="varname">X据/em>.让据em class="varname">σ据/em>为加性噪声的后验标准差,则据/p>
σ据sub>问:据/sub>2据/sup>(据em class="varname">X据/em>)=据em class="varname">σ据sub>F据/sub>2据/sup>(据em class="varname">X据/em>)+据em class="varname">σ据/em>2据/sup>.据/p>
定义据em class="varname">T.据sub>σ据/sub>要有价值才行据code class="literal">分析言据/code>选项,一个正数。这据code class="function">Bayesopt.据/code> σ据sub>F据/sub>(据em class="varname">X据/em>)<据em class="varname">T.据sub>σ据/sub>σ据/em>.据/p>
如果是,则该算法声明了这一点据em class="varname">X据/em>是过度的。然后收购功能修改其据一种href="//www.tatmou.com/help/stats/bayesian-optimization-algorithm.html" class="intrnllnk">内核功能据/a>通过乘法据em class="varname">θ据/em>由迭代次数决定,正如Bull所建议的那样据一种href="//www.tatmou.com/help/stats/bayesian-optimization-algorithm.html" class="intrnllnk">[1]据/a>.这个修改提高了方差据em class="varname">σ据sub>问:据/sub>对于观察之间的积分。然后它基于新的拟合内核功能生成一个新点。如果是新的点据em class="varname">X据/em>再次过度开心,采集函数乘以据em class="varname">θ据/em>额外的因子10并再次尝试。它以这种方式持续到五次,试图产生一点据em class="varname">X据/em>这不是过度开心。该算法接受新的据em class="varname">X据/em>作为下一点。据/p>
+据/code>获取函数,在每次迭代后,评估下一个点是否据em class="varname">X据/em>满足据/p>
分析言据/code>因此,控制探索更好的全球解决方案的新点之间的权衡,而且集中在已经检查的点附近。据/p>
在内部,据code class="function">Bayesopt.据/code>使用以下常规步骤最大限度地提出采集功能:据/p>
对于以下算法据code class="literal">'预期改善'据/code>和据code class="literal">“probability-of-improvement”据/code>那据code class="function">Bayesopt.据/code>估计后验分布的最小可行均值据span class="inlineequation">μ据sub>问:据/sub>(据em class="varname">X据/em>最好的据/sub>)据/span>通过在可变界限内进行数千点来采样,采用几个最佳(低平均值)可行点,并使用本地搜索改进它们,以查找过硬的最佳可行点。可行意味着点满足约束(见据一种href="//www.tatmou.com/help/stats/constraints-in-bayesian-optimization.html" class="a">贝叶斯优化的约束据/a>).据/p>
对所有算法,据code class="function">Bayesopt.据/code>在可变范围内对数千个点进行采样,选取几个最佳(高捕获函数)可行点,并利用局部搜索对其进行改进,以找到表面上的最佳可行点。获取函数值依赖于模型的后验分布,而不是目标函数的样本,因此可以快速计算。据/p>
[1]公元30年。据em class="citetitle">高效全局优化算法的收敛速度据/em>.据一种href="https://arxiv.org/abs/1101.3501v3" target="_blank">https://arxiv.org/abs/1101.3501v3据/a>, 2011年。据/p>
[2] Gelbart,M.,J.Snoek,R.P. Adams。据em class="citetitle">含未知约束的贝叶斯优化据/em>.据一种href="https://arxiv.org/abs/1403.5607" target="_blank">https://arxiv.org/abs/1403.5607据/a>, 2014年。据/p>
[3] Snoek,J.,H. Larchelle,R.P.Adams。据em class="citetitle">实用贝叶斯算法优化机器学习算法据/em>.据一种href="https://arxiv.org/abs/1206.2944" target="_blank">https://arxiv.org/abs/1206.2944据/a>, 2012年。据/p>
贝叶斯偏见据/code>
|据span itemscope itemtype="//www.tatmou.com/help/schema/MathWorksDocPage/SeeAlso" itemprop="seealso">Bayesopt.据/code>