无约束非线性优化算法
无约束优化的定义
无约束极小化问题是找到一个向量x这是一个标量函数局部最小值f(x):
这个词<年代pan class="emphasis">无约束意味着没有限制的范围x。
fminunc信赖域算法
信赖域方法非线性最小化
许多的方法用于解决优化工具箱™是基于<年代pan class="emphasis">信任区域,在优化一个简单而强大的概念。
理解信赖域方法优化,考虑无约束极小化问题,最小化f(x),并返回标量函数向量参数。假设你在一个点x在n讨论你想提高,即。,米ove to a point with a lower function value. The basic idea is to approximatef用一个简单的函数问,合理地反映了函数的行为f在一个社区N周围的点x。这个社区是信赖域。试验步骤年代通过最小化计算(或大约最小化)结束了吗N。这是信赖域子问题,
(1)
当前点更新x+年代如果<年代pan class="inlineequation">f(x+年代)<f(x);否则,当前点保持不变N该地区的信任,减少重复计算和试验步骤。
定义一个特定的信赖域方法的关键问题最小化f(x)是如何选择和计算近似问(定义在当前点x),如何选择和修改信赖域N,以及如何准确地求解信赖域子问题。本节的重点是无约束问题。后面的章节将讨论额外的并发症由于约束变量的存在。
在标准的信赖域方法([48]),二阶近似问由前两个定义的泰勒近似F在x;附近N通常是球形或椭圆形的形状。数学上的信赖域子问题通常表示
(2)
在哪里g的梯度f在当前点x,H海赛矩阵(二阶导数的对称矩阵),D是一个对角扩展矩阵,Δ是一个积极的标量,而为。为是2-norm。良好的算法求解存在方程2(见[48]);这种算法通常涉及的所有特征值的计算H和牛顿法应用到特征方程
这样的算法提供一个精确的解决方案方程2。然而,他们可以分解成几个需要时间成正比H。因此,对于大规模问题需要不同的方法。几个近似和启发式策略,基于方程2,提出了在文献([42]和[50])。随后在解决优化工具箱的近似方法是将信赖域子问题限制在一个二维子空间年代([39]和[42])。一旦子空间年代被计算,解决工作吗方程2是微不足道的,即使需要完整的特征值和特征向量的信息(因为在子空间,问题是只有二维)。主要工作已经转移到子空间的决心。
二维子空间年代确定的援助吗预处理共轭梯度过程描述如下。解算器定义年代所张成的线性空间年代1和年代2,在那里年代1在梯度的方向g,年代2要么是一个近似牛顿方向,即。一个解决方案,
(3)
或一个方向负曲率,
(4)
这种选择背后的哲学年代是强迫全局收敛性(通过最速下降方向或负曲率方向),实现快速的局部收敛性(通过牛顿一步,当它的存在)。
素描的无约束极小化利用信赖域的想法现在容易给:
制定二维信赖域子问题。
解决方程2确定试验步骤年代。
如果<年代pan class="inlineequation">f(x+年代)<f(x),然后<年代pan class="inlineequation">x=x+年代。
Δ调整。
这四个步骤是重复,直到收敛。信赖域维度Δ调整根据标准规则。特别是,它却降低了如果试验步骤是不接受,也就是说,<年代pan class="inlineequation">f(x+年代)≥f(x)。看到[46]和[49]这方面的讨论。
优化工具箱解决治疗几个重要的特殊情况f特殊功能:非线性最小二乘、二次函数和线性最小二乘。然而,底层算法思想为一般情况是一样的。这些特殊情况将在后面的小节中讨论。
预处理共轭梯度法
一个受欢迎的方式来解决大型对称正定线性方程组<年代pan class="inlineequation">惠普= -g预处理共轭梯度法(PCG)。这种迭代方法要求计算能力矩阵向量形式的产品下载188bet金宝搏H·v在哪里v是一个任意的向量。对称正定矩阵米是一个<年代pan class="emphasis">预调节器为H。也就是说,<年代pan class="inlineequation">米=C2,在那里<年代pan class="inlineequation">C1HC1是一个状态良好的矩阵或与集群特征值矩阵。
在最小化上下文,您可以假定海赛矩阵H是对称的。然而,H保证是正定只有在附近的一个强有力的最小值。PCG算法出口时遇到一个负面(或零)曲率方向,也就是说,<年代pan class="inlineequation">d<年代up>T高清≤0。PCG输出方向p要么是负曲率方向或近似解牛顿系统<年代pan class="inlineequation">惠普= -g。在这两种情况下,p有助于定义二维子空间用于讨论的信赖域方法信赖域方法非线性最小化。
fminunc拟牛顿算法<年代pan id="unconstrained_opt" class="anchor_target">
无约束最优化的基本知识
虽然广泛存在的方法无约束优化方法可以大致分类的导数信息,或不使用。搜索方法只使用函数评估(例如,单纯形搜索Nelder和米德[30])是最适合的问题,不光滑或有一个不连续的数量。梯度方法通常更有效时,函数最小化的一阶导数是连续的。高阶方法,如牛顿法,只有真正合适的二阶信息时容易和容易计算,因为计算二阶信息,使用数值微分法,计算昂贵。
梯度方法使用信息函数的斜率决定搜索方向的最低被认为是谎言。其中最简单的是最速下降法的执行一个搜索方向,<年代pan class="inlineequation">——∇f(x),在那里<年代pan class="inlineequation">∇f(x)是目标函数的梯度。这种方法非常低效当函数最小化一直狭窄的峡谷,例如,是理由。海涅的功能
(5)
这个函数的最小<年代pan class="inlineequation">x= [1],在那里<年代pan class="inlineequation">f(x)= 0。这个函数的等高线图如下图所示,随着解决方案对最速下降的实现路径最低起价[-1.9,2]。优化后终止1000年迭代,仍然相当距离最小。黑色区域的方法是不断曲折的山谷的一侧到另一个地方。注意,对情节的中心,许多更大的措施当土地完全指向中心的山谷。
图5 - 1,最陡下降法。海涅的函数
也称为香蕉函数,此函数在无约束的例子因为臭名昭著的曲率弯曲在原点。。在本节说明的函数的使用各种优化技术。轮廓绘制在指数增加,因为周围的斜坡陡度的u型山谷。
这个数字的更完整的描述,包括脚本生成迭代点,看到的香蕉函数最小化。
拟牛顿方法
利用梯度信息的方法,最青睐的是拟牛顿方法。这些方法建立在每个迭代中曲率信息制定二次模型形式的问题
(6)
海赛矩阵,H是一个正定对称矩阵,c是一个常数向量,然后呢b是一个常数。这个问题的最优解时的偏导数x趋于零,即
(7)
最优解,x*,可以写成
(8)
牛顿型方法(而非拟牛顿方法)计算H直接和继续下降的方向定位后的最小迭代次数。计算H数值涉及大量的计算。拟牛顿方法避免这种通过观察到的行为f(x),<年代pan class="inlineequation">∇f(x)建立曲率信息近似H使用一个适当的更新技术。
大量的黑森更新方法已经开发出来。然而,Broyden的公式[3],弗莱彻[12]戈德法布,[20],Shanno[37](高炉煤气)被认为是最有效的使用的一种通用方法。
公式由高炉煤气
(9)
在哪里
作为起始点,H0可以设置为任何对称正定矩阵,例如,单位矩阵我。避免黑森的反演H,你可以得到一个更新的方法,避免了直接反演H通过使用一个公式,使得一个近似逆黑森H1在每一个更新。一个著名的过程是Davidon的DFP公式[7]弗莱彻,鲍威尔[14]。这个使用相同的公式作为蓄热方法(方程9),除了问<年代ub>k被替换为年代<年代ub>k。
梯度信息是通过分析计算梯度,或使用数值微分方法导出了偏导数通过有限的差异。这涉及到微扰的每个设计变量,x反过来,计算目标函数的变化率。
在每个主要的迭代,k执行搜索的方向,一条线
(10)
拟牛顿法解路径上所示。海涅的函数图5 - 2,蓄热方法。海涅的函数。方法能够跟随谷的形状和收敛于最小140年以后只使用有限差分梯度功能评估。
图5 - 2,蓄热方法。海涅的函数
这个数字的更完整的描述,包括脚本生成迭代点,看到的香蕉函数最小化。
线搜索
线搜索 是一个搜索方法作为优化算法的一部分。在每一步的主要算法,沿着线的线搜索方法搜索包含当前点,x<年代ub>k平行,<年代pan class="emphasis">搜索方向,这是一个向量由主要算法。也就是说,找到下一个迭代的方法xk+ 1的形式
(11)
在哪里x<年代ub>k
表示当前迭代,d<年代ub>k 是搜索方向,α*是一个标量步长参数。
线搜索方法试图降低目标函数<年代pan class="inlineequation">x<年代ub>k +α*d<年代ub>k通过不断最小化目标函数的多项式插值模型。线搜索过程有两个主要步骤:
的<年代pan class="emphasis">夹叉射击阶段确定点在直线上的范围<年代pan class="inlineequation">
搜索。的<年代pan class="emphasis">支架对应于一个区间指定的值的范围α。
的<年代pan class="emphasis">切片一步将等级划分为小区间,来近似目标函数的最小多项式插值。
由此产生的步长沃尔夫α满足条件:
(12)
(13)
在哪里c1和c2是常数与0 <c1<c2< 1。
第一个条件(方程12)要求α<年代ub>k充分降低了目标函数。第二个条件(方程13)确保了步长不是太小了。点同时满足条件(方程12和方程13)被称为<年代pan class="emphasis">可接受的点。
线搜索方法是2 - 6节中描述的算法的实现[13]。另请参阅[31]关于线搜索的更多信息。
黑森更新
许多优化函数确定搜索的方向通过更新海赛矩阵在每个迭代中,使用蓄热法(方程9)。这个函数fminunc还提供了一个选项来使用DFP方法给出拟牛顿方法(设置HessUpdate来“dfp”在选项选择DFP方法)。海赛,H,始终保持是正定的方向搜索,d,总是在一个下降方向。这意味着对于一些任意小的步骤α的方向d,目标函数下降幅度。你取得积极的明确性H通过确保H初始化是正定和之后呢<年代pan class="inlineequation">
(从方程14)总是正的。这个词<年代pan class="inlineequation">
是一个产品的搜索步长参数α<年代ub>k和搜索方向的结合d与过去和现在梯度评估,
(14)
你总是实现条件<年代pan class="inlineequation">
是正通过执行一个足够精确线搜索。这是因为搜索方向,d,是一个下降方向,所以α<年代ub>k和负梯度<年代pan class="inlineequation">——∇f(x<年代ub>k)Td总是积极的。因此,可能的负面的词<年代pan class="inlineequation">——∇f(xk+ 1)Td可以作为小级需要增加线搜索的准确性。
LBFGS黑森近似
对于大的问题,bfg黑森近似法可以相对较慢,使用了大量的内存。为了规避这些问题,使用LBFGS黑森近似通过设置HessianApproximation选项“lbfgs”。这将导致fminunc使用内存bfg黑森近似上,描述下一个。为了使用LBFGS的利益在一个大的问题,明白了解决非线性问题和许多变量。
如Nocedal和赖特所述[31]内存bfg黑森近似相似,bfg近似描述拟牛顿方法,但使用一个有限的内存之前的迭代。黑森更新公式中给出方程9是
在哪里
另一个蓄热过程的描述
(15)
在哪里ɑ<年代ub>k线搜索的步长选择,H<年代ub>k是一个逆黑森近似。的公式H<年代ub>k:
在哪里年代<年代ub>k和问<年代ub>k被定义为,
LBFGS算法,该算法保持固定,数量有限米的参数年代<年代ub>k和问<年代ub>k从前面迭代。从一个初始H<年代ub>0,该算法计算一个近似H<年代ub>k获取的步骤方程15。的计算<年代pan class="inlineequation">
收益是一个递归使用最近从前面的方程米的值ρ<年代ub>j,问<年代ub>j,年代<年代ub>j。,算法7.4 Nocedal和赖特[31]。
另请参阅
相关的话题
无约束优化的定义
无约束极小化问题是找到一个向量x这是一个标量函数局部最小值f(x):
这个词<年代pan class="emphasis">无约束意味着没有限制的范围x。
无约束极小化问题是找到一个向量
这个词<年代pan class="emphasis">无约束
fminunc信赖域算法
信赖域方法非线性最小化
许多的方法用于解决优化工具箱™是基于<年代pan class="emphasis">信任区域,在优化一个简单而强大的概念。
理解信赖域方法优化,考虑无约束极小化问题,最小化f(x),并返回标量函数向量参数。假设你在一个点x在n讨论你想提高,即。,米ove to a point with a lower function value. The basic idea is to approximatef用一个简单的函数问,合理地反映了函数的行为f在一个社区N周围的点x。这个社区是信赖域。试验步骤年代通过最小化计算(或大约最小化)结束了吗N。这是信赖域子问题,
(1)
当前点更新x+年代如果<年代pan class="inlineequation">f(x+年代)<f(x);否则,当前点保持不变N该地区的信任,减少重复计算和试验步骤。
定义一个特定的信赖域方法的关键问题最小化f(x)是如何选择和计算近似问(定义在当前点x),如何选择和修改信赖域N,以及如何准确地求解信赖域子问题。本节的重点是无约束问题。后面的章节将讨论额外的并发症由于约束变量的存在。
在标准的信赖域方法([48]),二阶近似问由前两个定义的泰勒近似F在x;附近N通常是球形或椭圆形的形状。数学上的信赖域子问题通常表示
(2)
在哪里g的梯度f在当前点x,H海赛矩阵(二阶导数的对称矩阵),D是一个对角扩展矩阵,Δ是一个积极的标量,而为。为是2-norm。良好的算法求解存在方程2(见[48]);这种算法通常涉及的所有特征值的计算H和牛顿法应用到特征方程
这样的算法提供一个精确的解决方案方程2。然而,他们可以分解成几个需要时间成正比H。因此,对于大规模问题需要不同的方法。几个近似和启发式策略,基于方程2,提出了在文献([42]和[50])。随后在解决优化工具箱的近似方法是将信赖域子问题限制在一个二维子空间年代([39]和[42])。一旦子空间年代被计算,解决工作吗方程2是微不足道的,即使需要完整的特征值和特征向量的信息(因为在子空间,问题是只有二维)。主要工作已经转移到子空间的决心。
二维子空间年代确定的援助吗预处理共轭梯度过程描述如下。解算器定义年代所张成的线性空间年代1和年代2,在那里年代1在梯度的方向g,年代2要么是一个近似牛顿方向,即。一个解决方案,
(3)
或一个方向负曲率,
(4)
这种选择背后的哲学年代是强迫全局收敛性(通过最速下降方向或负曲率方向),实现快速的局部收敛性(通过牛顿一步,当它的存在)。
素描的无约束极小化利用信赖域的想法现在容易给:
制定二维信赖域子问题。
解决方程2确定试验步骤年代。
如果<年代pan class="inlineequation">f(x+年代)<f(x),然后<年代pan class="inlineequation">x=x+年代。
Δ调整。
这四个步骤是重复,直到收敛。信赖域维度Δ调整根据标准规则。特别是,它却降低了如果试验步骤是不接受,也就是说,<年代pan class="inlineequation">f(x+年代)≥f(x)。看到[46]和[49]这方面的讨论。
优化工具箱解决治疗几个重要的特殊情况f特殊功能:非线性最小二乘、二次函数和线性最小二乘。然而,底层算法思想为一般情况是一样的。这些特殊情况将在后面的小节中讨论。
预处理共轭梯度法
一个受欢迎的方式来解决大型对称正定线性方程组<年代pan class="inlineequation">惠普= -g预处理共轭梯度法(PCG)。这种迭代方法要求计算能力矩阵向量形式的产品下载188bet金宝搏H·v在哪里v是一个任意的向量。对称正定矩阵米是一个<年代pan class="emphasis">预调节器为H。也就是说,<年代pan class="inlineequation">米=C2,在那里<年代pan class="inlineequation">C1HC1是一个状态良好的矩阵或与集群特征值矩阵。
在最小化上下文,您可以假定海赛矩阵H是对称的。然而,H保证是正定只有在附近的一个强有力的最小值。PCG算法出口时遇到一个负面(或零)曲率方向,也就是说,<年代pan class="inlineequation">d<年代up>T高清≤0。PCG输出方向p要么是负曲率方向或近似解牛顿系统<年代pan class="inlineequation">惠普= -g。在这两种情况下,p有助于定义二维子空间用于讨论的信赖域方法信赖域方法非线性最小化。
信赖域算法
信赖域方法非线性最小化
许多的方法用于解决优化工具箱™是基于<年代pan class="emphasis">信任区域,在优化一个简单而强大的概念。
理解信赖域方法优化,考虑无约束极小化问题,最小化f(x),并返回标量函数向量参数。假设你在一个点x在n讨论你想提高,即。,米ove to a point with a lower function value. The basic idea is to approximatef用一个简单的函数问,合理地反映了函数的行为f在一个社区N周围的点x。这个社区是信赖域。试验步骤年代通过最小化计算(或大约最小化)结束了吗N。这是信赖域子问题,
(1)
当前点更新x+年代如果<年代pan class="inlineequation">f(x+年代)<f(x);否则,当前点保持不变N该地区的信任,减少重复计算和试验步骤。
定义一个特定的信赖域方法的关键问题最小化f(x)是如何选择和计算近似问(定义在当前点x),如何选择和修改信赖域N,以及如何准确地求解信赖域子问题。本节的重点是无约束问题。后面的章节将讨论额外的并发症由于约束变量的存在。
在标准的信赖域方法([48]),二阶近似问由前两个定义的泰勒近似F在x;附近N通常是球形或椭圆形的形状。数学上的信赖域子问题通常表示
(2)
在哪里g的梯度f在当前点x,H海赛矩阵(二阶导数的对称矩阵),D是一个对角扩展矩阵,Δ是一个积极的标量,而为。为是2-norm。良好的算法求解存在方程2(见[48]);这种算法通常涉及的所有特征值的计算H和牛顿法应用到特征方程
这样的算法提供一个精确的解决方案方程2。然而,他们可以分解成几个需要时间成正比H。因此,对于大规模问题需要不同的方法。几个近似和启发式策略,基于方程2,提出了在文献([42]和[50])。随后在解决优化工具箱的近似方法是将信赖域子问题限制在一个二维子空间年代([39]和[42])。一旦子空间年代被计算,解决工作吗方程2是微不足道的,即使需要完整的特征值和特征向量的信息(因为在子空间,问题是只有二维)。主要工作已经转移到子空间的决心。
二维子空间年代确定的援助吗预处理共轭梯度过程描述如下。解算器定义年代所张成的线性空间年代1和年代2,在那里年代1在梯度的方向g,年代2要么是一个近似牛顿方向,即。一个解决方案,
(3)
或一个方向负曲率,
(4)
这种选择背后的哲学年代是强迫全局收敛性(通过最速下降方向或负曲率方向),实现快速的局部收敛性(通过牛顿一步,当它的存在)。
素描的无约束极小化利用信赖域的想法现在容易给:
制定二维信赖域子问题。
解决方程2确定试验步骤年代。
如果<年代pan class="inlineequation">f(x+年代)<f(x),然后<年代pan class="inlineequation">x=x+年代。
Δ调整。
这四个步骤是重复,直到收敛。信赖域维度Δ调整根据标准规则。特别是,它却降低了如果试验步骤是不接受,也就是说,<年代pan class="inlineequation">f(x+年代)≥f(x)。看到[46]和[49]这方面的讨论。
优化工具箱解决治疗几个重要的特殊情况f特殊功能:非线性最小二乘、二次函数和线性最小二乘。然而,底层算法思想为一般情况是一样的。这些特殊情况将在后面的小节中讨论。
预处理共轭梯度法
一个受欢迎的方式来解决大型对称正定线性方程组<年代pan class="inlineequation">惠普= -g预处理共轭梯度法(PCG)。这种迭代方法要求计算能力矩阵向量形式的产品下载188bet金宝搏H·v在哪里v是一个任意的向量。对称正定矩阵米是一个<年代pan class="emphasis">预调节器为H。也就是说,<年代pan class="inlineequation">米=C2,在那里<年代pan class="inlineequation">C1HC1是一个状态良好的矩阵或与集群特征值矩阵。
在最小化上下文,您可以假定海赛矩阵H是对称的。然而,H保证是正定只有在附近的一个强有力的最小值。PCG算法出口时遇到一个负面(或零)曲率方向,也就是说,<年代pan class="inlineequation">d<年代up>T高清≤0。PCG输出方向p要么是负曲率方向或近似解牛顿系统<年代pan class="inlineequation">惠普= -g。在这两种情况下,p有助于定义二维子空间用于讨论的信赖域方法信赖域方法非线性最小化。
fminunc拟牛顿算法<年代pan id="unconstrained_opt" class="anchor_target">
拟牛顿算法<年代pan id="unconstrained_opt" class="anchor_target">
无约束最优化的基本知识
虽然广泛存在的方法无约束优化方法可以大致分类的导数信息,或不使用。搜索方法只使用函数评估(例如,单纯形搜索Nelder和米德[30])是最适合的问题,不光滑或有一个不连续的数量。梯度方法通常更有效时,函数最小化的一阶导数是连续的。高阶方法,如牛顿法,只有真正合适的二阶信息时容易和容易计算,因为计算二阶信息,使用数值微分法,计算昂贵。
梯度方法使用信息函数的斜率决定搜索方向的最低被认为是谎言。其中最简单的是最速下降法的执行一个搜索方向,<年代pan class="inlineequation">——∇f(x),在那里<年代pan class="inlineequation">∇f(x)是目标函数的梯度。这种方法非常低效当函数最小化一直狭窄的峡谷,例如,是理由。海涅的功能
(5)
这个函数的最小<年代pan class="inlineequation">x= [1],在那里<年代pan class="inlineequation">f(x)= 0。这个函数的等高线图如下图所示,随着解决方案对最速下降的实现路径最低起价[-1.9,2]。优化后终止1000年迭代,仍然相当距离最小。黑色区域的方法是不断曲折的山谷的一侧到另一个地方。注意,对情节的中心,许多更大的措施当土地完全指向中心的山谷。
图5 - 1,最陡下降法。海涅的函数
也称为香蕉函数,此函数在无约束的例子因为臭名昭著的曲率弯曲在原点。。在本节说明的函数的使用各种优化技术。轮廓绘制在指数增加,因为周围的斜坡陡度的u型山谷。
这个数字的更完整的描述,包括脚本生成迭代点,看到的香蕉函数最小化。
虽然广泛存在的方法无约束优化方法可以大致分类的导数信息,或不使用。搜索方法只使用函数评估(例如,单纯形搜索Nelder和米德 梯度方法使用信息函数的斜率决定搜索方向的最低被认为是谎言。其中最简单的是最速下降法的执行一个搜索方向,<年代pan class="inlineequation">——∇ 这个函数的最小<年代pan class="inlineequation">x 图5 - 1,最陡下降法。海涅的函数 也称为香蕉函数,此函数在无约束的例子因为臭名昭著的曲率弯曲在原点。。在本节说明的函数的使用各种优化技术。轮廓绘制在指数增加,因为周围的斜坡陡度的u型山谷。 这个数字的更完整的描述,包括脚本生成迭代点,看到的
(5)
拟牛顿方法
利用梯度信息的方法,最青睐的是拟牛顿方法。这些方法建立在每个迭代中曲率信息制定二次模型形式的问题
(6)
海赛矩阵,H是一个正定对称矩阵,c是一个常数向量,然后呢b是一个常数。这个问题的最优解时的偏导数x趋于零,即
(7)
最优解,x*,可以写成
(8)
牛顿型方法(而非拟牛顿方法)计算H直接和继续下降的方向定位后的最小迭代次数。计算H数值涉及大量的计算。拟牛顿方法避免这种通过观察到的行为f(x),<年代pan class="inlineequation">∇f(x)建立曲率信息近似H使用一个适当的更新技术。
大量的黑森更新方法已经开发出来。然而,Broyden的公式[3],弗莱彻[12]戈德法布,[20],Shanno[37](高炉煤气)被认为是最有效的使用的一种通用方法。
公式由高炉煤气
(9)
在哪里
作为起始点,H0可以设置为任何对称正定矩阵,例如,单位矩阵我。避免黑森的反演H,你可以得到一个更新的方法,避免了直接反演H通过使用一个公式,使得一个近似逆黑森H1在每一个更新。一个著名的过程是Davidon的DFP公式[7]弗莱彻,鲍威尔[14]。这个使用相同的公式作为蓄热方法(方程9),除了问<年代ub>k被替换为年代<年代ub>k。
梯度信息是通过分析计算梯度,或使用数值微分方法导出了偏导数通过有限的差异。这涉及到微扰的每个设计变量,x反过来,计算目标函数的变化率。
在每个主要的迭代,k执行搜索的方向,一条线
(10)
拟牛顿法解路径上所示。海涅的函数图5 - 2,蓄热方法。海涅的函数。方法能够跟随谷的形状和收敛于最小140年以后只使用有限差分梯度功能评估。
图5 - 2,蓄热方法。海涅的函数
这个数字的更完整的描述,包括脚本生成迭代点,看到的香蕉函数最小化。
利用梯度信息的方法,最青睐的是拟牛顿方法。这些方法建立在每个迭代中曲率信息制定二次模型形式的问题 海赛矩阵, 最优解, 牛顿型方法(而非拟牛顿方法)计算 大量的黑森更新方法已经开发出来。然而,Broyden的公式 公式由高炉煤气 在哪里
作为起始点, 梯度信息是通过分析计算梯度,或使用数值微分方法导出了偏导数通过有限的差异。这涉及到微扰的每个设计变量, 在每个主要的迭代, 拟牛顿法解路径上所示 图5 - 2,蓄热方法。海涅的函数 这个数字的更完整的描述,包括脚本生成迭代点,看到的
(6)
(7)
(8)
(9)
(10)
线搜索
线搜索 是一个搜索方法作为优化算法的一部分。在每一步的主要算法,沿着线的线搜索方法搜索包含当前点,x<年代ub>k平行,<年代pan class="emphasis">搜索方向,这是一个向量由主要算法。也就是说,找到下一个迭代的方法xk+ 1的形式
(11)
在哪里x<年代ub>k
表示当前迭代,d<年代ub>k 是搜索方向,α*是一个标量步长参数。
线搜索方法试图降低目标函数<年代pan class="inlineequation">x<年代ub>k +α*d<年代ub>k通过不断最小化目标函数的多项式插值模型。线搜索过程有两个主要步骤:
的<年代pan class="emphasis">夹叉射击阶段确定点在直线上的范围<年代pan class="inlineequation">
搜索。的<年代pan class="emphasis">支架对应于一个区间指定的值的范围α。
的<年代pan class="emphasis">切片一步将等级划分为小区间,来近似目标函数的最小多项式插值。
由此产生的步长沃尔夫α满足条件:
(12)
(13)
在哪里c1和c2是常数与0 <c1<c2< 1。
第一个条件(方程12)要求α<年代ub>k充分降低了目标函数。第二个条件(方程13)确保了步长不是太小了。点同时满足条件(方程12和方程13)被称为<年代pan class="emphasis">可接受的点。
线搜索方法是2 - 6节中描述的算法的实现[13]。另请参阅[31]关于线搜索的更多信息。
线搜索 在哪里 线搜索方法试图降低目标函数<年代pan class="inlineequation">x<年代ub>k 的<年代pan class="emphasis">夹叉射击 的<年代pan class="emphasis">切片 由此产生的步长沃尔夫α满足条件: 在哪里 第一个条件( 线搜索方法是2 - 6节中描述的算法的实现
(11)
(12)
(13)
黑森更新
许多优化函数确定搜索的方向通过更新海赛矩阵在每个迭代中,使用蓄热法(方程9)。这个函数fminunc还提供了一个选项来使用DFP方法给出拟牛顿方法(设置HessUpdate来“dfp”在选项选择DFP方法)。海赛,H,始终保持是正定的方向搜索,d,总是在一个下降方向。这意味着对于一些任意小的步骤α的方向d,目标函数下降幅度。你取得积极的明确性H通过确保H初始化是正定和之后呢<年代pan class="inlineequation">
(从方程14)总是正的。这个词<年代pan class="inlineequation">
是一个产品的搜索步长参数α<年代ub>k和搜索方向的结合d与过去和现在梯度评估,
(14)
你总是实现条件<年代pan class="inlineequation">
是正通过执行一个足够精确线搜索。这是因为搜索方向,d,是一个下降方向,所以α<年代ub>k和负梯度<年代pan class="inlineequation">——∇f(x<年代ub>k)Td总是积极的。因此,可能的负面的词<年代pan class="inlineequation">——∇f(xk+ 1)Td可以作为小级需要增加线搜索的准确性。
许多优化函数确定搜索的方向通过更新海赛矩阵在每个迭代中,使用蓄热法( 你总是实现条件<年代pan class="inlineequation">
是正通过执行一个足够精确线搜索。这是因为搜索方向,fminunc
(14)
LBFGS黑森近似
对于大的问题,bfg黑森近似法可以相对较慢,使用了大量的内存。为了规避这些问题,使用LBFGS黑森近似通过设置HessianApproximation选项“lbfgs”。这将导致fminunc使用内存bfg黑森近似上,描述下一个。为了使用LBFGS的利益在一个大的问题,明白了解决非线性问题和许多变量。
如Nocedal和赖特所述[31]内存bfg黑森近似相似,bfg近似描述拟牛顿方法,但使用一个有限的内存之前的迭代。黑森更新公式中给出方程9是
在哪里
另一个蓄热过程的描述
(15)
在哪里ɑ<年代ub>k线搜索的步长选择,H<年代ub>k是一个逆黑森近似。的公式H<年代ub>k:
在哪里年代<年代ub>k和问<年代ub>k被定义为,
LBFGS算法,该算法保持固定,数量有限米的参数年代<年代ub>k和问<年代ub>k从前面迭代。从一个初始H<年代ub>0,该算法计算一个近似H<年代ub>k获取的步骤方程15。的计算<年代pan class="inlineequation">
收益是一个递归使用最近从前面的方程米的值ρ<年代ub>j,问<年代ub>j,年代<年代ub>j。,算法7.4 Nocedal和赖特[31]。
对于大的问题,bfg黑森近似法可以相对较慢,使用了大量的内存。为了规避这些问题,使用LBFGS黑森近似通过设置 如Nocedal和赖特所述
在哪里
另一个蓄热过程的描述 在哪里
在哪里
LBFGS算法,该算法保持固定,数量有限
(15)