主要内容gydF4y2Ba

一阶最优性测量gydF4y2Ba

什么是一阶最优测度?gydF4y2Ba

一阶最优性是一个距离点有多近的度量gydF4y2BaxgydF4y2Ba是最佳的。大多数优化工具箱™求解器使用此措施,尽管它具有不同的不同算法的定义。一流的最优性是必要的条件,但这不是一个充分的条件。换句话说:gydF4y2Ba

  • 一流的最优性测量必须至少为零。gydF4y2Ba

  • 一阶最优性为零的点不一定是最小值。gydF4y2Ba

有关一阶最优性的一般信息,请参阅Nocedal和WrightgydF4y2Ba[31]gydF4y2Ba.有关优化工具箱求解器的一阶最优度措施的具体细节,请参阅gydF4y2Ba不受约束的最优性gydF4y2Ba,gydF4y2Ba约束最优性理论gydF4y2Ba, 和gydF4y2Ba求解形式的约束最优性gydF4y2Ba.gydF4y2Ba

与一阶最优性相关的停止规则gydF4y2Ba

的gydF4y2BaOptimalityTolerancegydF4y2Ba公差与一阶最优测度有关。通常,如果一阶最优测度小于gydF4y2BaOptimalityTolerancegydF4y2Ba,求解器迭代结束。gydF4y2Ba

一些求解器或算法使用gydF4y2Ba相对gydF4y2Ba作为停止准则的一阶最优性。当一阶最优测度小于时,求解迭代结束gydF4y2Baμ.gydF4y2Ba时代gydF4y2BaOptimalityTolerancegydF4y2Ba,在那里gydF4y2Baμ.gydF4y2Ba要么是:gydF4y2Ba

  • 目标函数梯度的无限常态(最大值)gydF4y2Bax0gydF4y2Ba

  • 解算器输入的无穷范数(最大值),例如gydF4y2BafgydF4y2Ba或者gydF4y2BabgydF4y2Ba在gydF4y2Balinprog.gydF4y2Ba或者gydF4y2BaHgydF4y2Ba在gydF4y2BaQuadprog.gydF4y2Ba

一个相对的衡量方法试图解释问题的规模。将目标函数乘以一个非常大或很小的数字不会改变相对停止条件,但会改变无比例停止条件。gydF4y2Ba

解决与gydF4y2Ba增强的退出消息gydF4y2Ba状态,在停止标准细节中,当他们使用相对一阶的最优性时。gydF4y2Ba

不受约束的最优性gydF4y2Ba

对于光滑的无约束问题,gydF4y2Ba

最小值gydF4y2Ba xgydF4y2Ba fgydF4y2Ba (gydF4y2Ba xgydF4y2Ba )gydF4y2Ba ,gydF4y2Ba

的无穷范数(即最大绝对值)是一阶最优测度gydF4y2Ba∇gydF4y2BafgydF4y2Ba(gydF4y2BaxgydF4y2Ba)gydF4y2Ba,这是:gydF4y2Ba

一阶最优测度=gydF4y2Ba 马克斯gydF4y2Ba 我gydF4y2Ba |gydF4y2Ba (gydF4y2Ba ∇gydF4y2Ba fgydF4y2Ba (gydF4y2Ba xgydF4y2Ba )gydF4y2Ba )gydF4y2Ba 我gydF4y2Ba |gydF4y2Ba =gydF4y2Ba 为gydF4y2Ba ∇gydF4y2Ba fgydF4y2Ba (gydF4y2Ba xgydF4y2Ba )gydF4y2Ba 为gydF4y2Ba ∞gydF4y2Ba .gydF4y2Ba

这种最优性的措施是基于熟悉的功能,以实现最小值:其梯度必须为零。对于不受约束的问题,当一阶的最优性度量接近为零时,目标函数具有渐变近零,因此客观函数可能近最小。如果一阶的最优性测量不小,则目标函数不是最小的。gydF4y2Ba

约束最优性理论gydF4y2Ba

本节总结了一阶最优措施定义背后的受限问题的理论。优化工具箱功能中使用的定义gydF4y2Ba求解形式的约束最优性gydF4y2Ba.gydF4y2Ba

对于光滑约束问题,设gydF4y2BaggydF4y2Ba和gydF4y2BahgydF4y2BaBe向量函数分别表示所有不等式和等式约束(表示有界、线性和非线性约束):gydF4y2Ba

最小值gydF4y2Ba xgydF4y2Ba fgydF4y2Ba (gydF4y2Ba xgydF4y2Ba )gydF4y2Ba 受gydF4y2Ba ggydF4y2Ba (gydF4y2Ba xgydF4y2Ba )gydF4y2Ba ≤gydF4y2Ba 0gydF4y2Ba ,gydF4y2Ba hgydF4y2Ba (gydF4y2Ba xgydF4y2Ba )gydF4y2Ba =gydF4y2Ba 0。gydF4y2Ba

在这种情况下,一阶最优性的意义比无约束问题更复杂。这个定义是基于gydF4y2BaKarush-Kuhn-Tucker(KKT)条件。KKT条件类似于梯度必须至少为零的条件,修改以考虑约束。不同之处在于KKT条件适用于受限问题。gydF4y2Ba

KKT条件使用辅助gydF4y2Ba拉格朗日函数:gydF4y2Ba

lgydF4y2Ba (gydF4y2Ba xgydF4y2Ba ,gydF4y2Ba λ.gydF4y2Ba )gydF4y2Ba =gydF4y2Ba fgydF4y2Ba (gydF4y2Ba xgydF4y2Ba )gydF4y2Ba +gydF4y2Ba ∑gydF4y2Ba λ.gydF4y2Ba ggydF4y2Ba ,gydF4y2Ba 我gydF4y2Ba ggydF4y2Ba 我gydF4y2Ba (gydF4y2Ba xgydF4y2Ba )gydF4y2Ba +gydF4y2Ba ∑gydF4y2Ba λ.gydF4y2Ba hgydF4y2Ba ,gydF4y2Ba 我gydF4y2Ba hgydF4y2Ba 我gydF4y2Ba (gydF4y2Ba xgydF4y2Ba )gydF4y2Ba .gydF4y2Ba (1)gydF4y2Ba
向量gydF4y2Baλ.gydF4y2Ba,它是gydF4y2Baλ.gydF4y2BaggydF4y2Ba和gydF4y2Baλ.gydF4y2BahgydF4y2Ba,为拉格朗日乘子向量。它的长度是约束的总数。gydF4y2Ba

KKT的条件是:gydF4y2Ba

∇gydF4y2Ba xgydF4y2Ba lgydF4y2Ba (gydF4y2Ba xgydF4y2Ba ,gydF4y2Ba λ.gydF4y2Ba )gydF4y2Ba =gydF4y2Ba 0gydF4y2Ba ,gydF4y2Ba (2)gydF4y2Ba
λ.gydF4y2Ba ggydF4y2Ba ,gydF4y2Ba 我gydF4y2Ba ggydF4y2Ba 我gydF4y2Ba (gydF4y2Ba xgydF4y2Ba )gydF4y2Ba =gydF4y2Ba 0gydF4y2Ba ∀gydF4y2Ba 我gydF4y2Ba ,gydF4y2Ba (3)gydF4y2Ba
{gydF4y2Ba ggydF4y2Ba (gydF4y2Ba xgydF4y2Ba )gydF4y2Ba ≤gydF4y2Ba 0gydF4y2Ba ,gydF4y2Ba hgydF4y2Ba (gydF4y2Ba xgydF4y2Ba )gydF4y2Ba =gydF4y2Ba 0gydF4y2Ba ,gydF4y2Ba λ.gydF4y2Ba ggydF4y2Ba ,gydF4y2Ba 我gydF4y2Ba ≥gydF4y2Ba 0。gydF4y2Ba (4)gydF4y2Ba
解算器不使用中的三个表达式gydF4y2Ba等式4.gydF4y2Ba在优化测度的计算中。gydF4y2Ba

与之相关的最优度量gydF4y2Ba等式2gydF4y2Ba是gydF4y2Ba

为gydF4y2Ba ∇gydF4y2Ba xgydF4y2Ba lgydF4y2Ba (gydF4y2Ba xgydF4y2Ba ,gydF4y2Ba λ.gydF4y2Ba )gydF4y2Ba 为gydF4y2Ba =gydF4y2Ba 为gydF4y2Ba ∇gydF4y2Ba fgydF4y2Ba (gydF4y2Ba xgydF4y2Ba )gydF4y2Ba +gydF4y2Ba ∑gydF4y2Ba λ.gydF4y2Ba ggydF4y2Ba ,gydF4y2Ba 我gydF4y2Ba ∇gydF4y2Ba ggydF4y2Ba 我gydF4y2Ba (gydF4y2Ba xgydF4y2Ba )gydF4y2Ba +gydF4y2Ba ∑gydF4y2Ba λ.gydF4y2Ba hgydF4y2Ba ,gydF4y2Ba 我gydF4y2Ba ∇gydF4y2Ba hgydF4y2Ba hgydF4y2Ba ,gydF4y2Ba 我gydF4y2Ba (gydF4y2Ba xgydF4y2Ba )gydF4y2Ba 为gydF4y2Ba .gydF4y2Ba (5)gydF4y2Ba
与之相关的最优度量gydF4y2Ba等式3.gydF4y2Ba是gydF4y2Ba
为gydF4y2Ba λ.gydF4y2Ba ggydF4y2Ba ggydF4y2Ba →gydF4y2Ba (gydF4y2Ba xgydF4y2Ba )gydF4y2Ba 为gydF4y2Ba ,gydF4y2Ba (6)gydF4y2Ba
这里的标准gydF4y2Ba等式6.gydF4y2Ba表示载体的无限常量(最大值)gydF4y2Ba λ.gydF4y2Ba ggydF4y2Ba ,gydF4y2Ba 我gydF4y2Ba ggydF4y2Ba 我gydF4y2Ba →gydF4y2Ba (gydF4y2Ba xgydF4y2Ba )gydF4y2Ba .gydF4y2Ba

组合最优测度为中计算值的最大值gydF4y2Ba等式5.gydF4y2Ba和gydF4y2Ba等式6.gydF4y2Ba.接受非线性约束函数的求解器会报告约束违反gydF4y2BaggydF4y2Ba(gydF4y2BaxgydF4y2Ba) > 0gydF4y2Ba或者gydF4y2Ba|gydF4y2BahgydF4y2Ba(gydF4y2BaxgydF4y2Ba) | > 0gydF4y2Ba作为gydF4y2BaConstraintTolerancegydF4y2Ba违规。看到gydF4y2Ba容差和停止标准gydF4y2Ba.gydF4y2Ba

求解形式的约束最优性gydF4y2Ba

大多数受约束的工具箱求解器将一阶最优测度的计算分为边界、线性函数和非线性函数。该度量是以下两个标准的最大值,它们对应于gydF4y2Ba等式5.gydF4y2Ba和gydF4y2Ba等式6.gydF4y2Ba:gydF4y2Ba

为gydF4y2Ba ∇gydF4y2Ba xgydF4y2Ba lgydF4y2Ba (gydF4y2Ba xgydF4y2Ba ,gydF4y2Ba λ.gydF4y2Ba )gydF4y2Ba 为gydF4y2Ba =gydF4y2Ba 为gydF4y2Ba ∇gydF4y2Ba fgydF4y2Ba (gydF4y2Ba xgydF4y2Ba )gydF4y2Ba +gydF4y2Ba 一个gydF4y2Ba TgydF4y2Ba λ.gydF4y2Ba 我gydF4y2Ba ngydF4y2Ba egydF4y2Ba 问gydF4y2Ba lgydF4y2Ba 我gydF4y2Ba ngydF4y2Ba +gydF4y2Ba 一个gydF4y2Ba egydF4y2Ba 问gydF4y2Ba TgydF4y2Ba λ.gydF4y2Ba egydF4y2Ba 问gydF4y2Ba lgydF4y2Ba 我gydF4y2Ba ngydF4y2Ba +gydF4y2Ba ∑gydF4y2Ba λ.gydF4y2Ba 我gydF4y2Ba ngydF4y2Ba egydF4y2Ba 问gydF4y2Ba ngydF4y2Ba ogydF4y2Ba ngydF4y2Ba lgydF4y2Ba 我gydF4y2Ba ngydF4y2Ba ,gydF4y2Ba 我gydF4y2Ba ∇gydF4y2Ba cgydF4y2Ba 我gydF4y2Ba (gydF4y2Ba xgydF4y2Ba )gydF4y2Ba +gydF4y2Ba ∑gydF4y2Ba λ.gydF4y2Ba egydF4y2Ba 问gydF4y2Ba ngydF4y2Ba ogydF4y2Ba ngydF4y2Ba lgydF4y2Ba 我gydF4y2Ba ngydF4y2Ba ,gydF4y2Ba 我gydF4y2Ba ∇gydF4y2Ba cgydF4y2Ba egydF4y2Ba 问gydF4y2Ba 我gydF4y2Ba (gydF4y2Ba xgydF4y2Ba )gydF4y2Ba 为gydF4y2Ba ,gydF4y2Ba (7)gydF4y2Ba
为gydF4y2Ba |gydF4y2Ba lgydF4y2Ba 我gydF4y2Ba −gydF4y2Ba xgydF4y2Ba 我gydF4y2Ba |gydF4y2Ba λ.gydF4y2Ba lgydF4y2Ba ogydF4y2Ba wgydF4y2Ba egydF4y2Ba rgydF4y2Ba ,gydF4y2Ba 我gydF4y2Ba →gydF4y2Ba ,gydF4y2Ba |gydF4y2Ba xgydF4y2Ba 我gydF4y2Ba −gydF4y2Ba ugydF4y2Ba 我gydF4y2Ba |gydF4y2Ba λ.gydF4y2Ba ugydF4y2Ba pgydF4y2Ba pgydF4y2Ba egydF4y2Ba rgydF4y2Ba ,gydF4y2Ba 我gydF4y2Ba →gydF4y2Ba ,gydF4y2Ba |gydF4y2Ba (gydF4y2Ba 一个gydF4y2Ba xgydF4y2Ba −gydF4y2Ba bgydF4y2Ba )gydF4y2Ba 我gydF4y2Ba |gydF4y2Ba λ.gydF4y2Ba 我gydF4y2Ba ngydF4y2Ba egydF4y2Ba 问gydF4y2Ba lgydF4y2Ba 我gydF4y2Ba ngydF4y2Ba ,gydF4y2Ba 我gydF4y2Ba →gydF4y2Ba ,gydF4y2Ba |gydF4y2Ba cgydF4y2Ba 我gydF4y2Ba (gydF4y2Ba xgydF4y2Ba )gydF4y2Ba |gydF4y2Ba λ.gydF4y2Ba 我gydF4y2Ba ngydF4y2Ba egydF4y2Ba 问gydF4y2Ba ngydF4y2Ba ogydF4y2Ba ngydF4y2Ba lgydF4y2Ba 我gydF4y2Ba ngydF4y2Ba ,gydF4y2Ba 我gydF4y2Ba →gydF4y2Ba 为gydF4y2Ba ,gydF4y2Ba (8)gydF4y2Ba

其中vector的规范gydF4y2Ba等式7.gydF4y2Ba和gydF4y2Ba等式8.gydF4y2Ba为无穷范数(最大值)。拉格朗日乘子上的下标对应求解拉格朗日乘子结构。看到gydF4y2Ba拉格朗日乘子的结构gydF4y2Ba.的合计gydF4y2Ba等式7.gydF4y2Ba所有约束的范围。如果界限是±gydF4y2BainfgydF4y2Ba,这一项不受约束,所以它不属于求和的一部分。gydF4y2Ba

线性等式只gydF4y2Ba

对于只有线性平衡的一些大规模问题,一阶的最优性测量是无穷大的标准gydF4y2Ba预计gydF4y2Ba坡度。换句话说,一阶的最优性测量是投影到空白空间上的梯度的大小gydF4y2BaAeqgydF4y2Ba.gydF4y2Ba

有界最小二乘和信任区域反射求解器gydF4y2Ba

对于最小二乘求解和信任区域反射算法,在仅具有界的问题中,一阶最优测度为最大gydF4y2Ba我gydF4y2Ba的gydF4y2Ba|gydF4y2BavgydF4y2Ba我gydF4y2Ba*gydF4y2BaggydF4y2Ba我gydF4y2Ba|gydF4y2Ba.在这里gydF4y2BaggydF4y2Ba我gydF4y2Ba是个gydF4y2Ba我gydF4y2Ba梯度的组分,gydF4y2BaxgydF4y2Ba是目前的点,和gydF4y2Ba

vgydF4y2Ba 我gydF4y2Ba =gydF4y2Ba {gydF4y2Ba |gydF4y2Ba xgydF4y2Ba 我gydF4y2Ba −gydF4y2Ba bgydF4y2Ba 我gydF4y2Ba |gydF4y2Ba 如果负面梯度指向绑定gydF4y2Ba bgydF4y2Ba 我gydF4y2Ba 1gydF4y2Ba 除此以外gydF4y2Ba .gydF4y2Ba

如果gydF4y2BaxgydF4y2Ba我gydF4y2Ba在一个边界上,gydF4y2BavgydF4y2Ba我gydF4y2Ba是零。如果gydF4y2BaxgydF4y2Ba我gydF4y2Ba不在绑定,然后在最小化点梯度gydF4y2BaggydF4y2Ba我gydF4y2Ba应该是零。因此,一阶最优测度在最小值点应为零。gydF4y2Ba

相关话题gydF4y2Ba