主要内容gydF4y2Ba

理解支持向量机回归金宝appgydF4y2Ba

支持向量机回归的数学公式gydF4y2Ba

概述gydF4y2Ba

金宝app支持向量机(SVM)分析是一种流行的机器学习工具,用于分类和回归,最初由Vladimir Vapnik和他的同事在1992年确定gydF4y2Ba[5]gydF4y2Ba.支持向量机回归被认为是一种非参数技术,因为它依赖于核函数。gydF4y2Ba

统计和机器学习工具箱™实现线性epsilon - 不敏感的SVM(ε-SVM)回归,这也被称为gydF4y2BalgydF4y2Ba1损失。在里面gydF4y2BaεgydF4y2Ba-SVM回归,训练数据集包括预测变量和观察到的响应值。目标是找到一个函数gydF4y2BafgydF4y2Ba(gydF4y2BaxgydF4y2Ba)gydF4y2Ba这偏离了gydF4y2BaygydF4y2BangydF4y2Ba每个训练点的值不大于εgydF4y2BaxgydF4y2Ba,同时又尽可能的平坦。gydF4y2Ba

线性支持向量机回归:原始公式gydF4y2Ba

假设我们有一组训练数据gydF4y2BaxgydF4y2BangydF4y2Ba是一个多变量的集合gydF4y2BaNgydF4y2Ba具有观测响应值的观测值gydF4y2BaygydF4y2BangydF4y2Ba.gydF4y2Ba

找到线性函数gydF4y2Ba

fgydF4y2Ba (gydF4y2Ba xgydF4y2Ba )gydF4y2Ba =gydF4y2Ba xgydF4y2Ba ”gydF4y2Ba βgydF4y2Ba +gydF4y2Ba bgydF4y2Ba ,gydF4y2Ba

并确保它尽可能平坦,找到gydF4y2BafgydF4y2Ba(gydF4y2BaxgydF4y2Ba)gydF4y2Ba最小范数值(gydF4y2BaβgydF4y2Ba”gydF4y2BaβgydF4y2Ba).这是作为凸优化问题的制定,以最小化gydF4y2Ba

JgydF4y2Ba (gydF4y2Ba βgydF4y2Ba )gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba 2gydF4y2Ba βgydF4y2Ba ”gydF4y2Ba βgydF4y2Ba

所有残差的值均小于ε;或者,以方程式形式:gydF4y2Ba

∀gydF4y2Ba ngydF4y2Ba :gydF4y2Ba |gydF4y2Ba ygydF4y2Ba ngydF4y2Ba −gydF4y2Ba (gydF4y2Ba xgydF4y2Ba ngydF4y2Ba ”gydF4y2Ba βgydF4y2Ba +gydF4y2Ba bgydF4y2Ba )gydF4y2Ba |gydF4y2Ba ≤gydF4y2Ba εgydF4y2Ba .gydF4y2Ba

有可能没有这样的功能gydF4y2BafgydF4y2Ba(gydF4y2BaxgydF4y2Ba)gydF4y2Ba存在以满足所有点的这些约束。为了处理不可行的约束,引入松弛变量gydF4y2BaξgydF4y2BangydF4y2Ba和gydF4y2BaξgydF4y2Ba*gydF4y2BangydF4y2Ba对于每一个点。这种方法类似于支持向量机分类中的“软裕度”概念,因为松弛变量允许回归误差存在的值可达gydF4y2BaξgydF4y2BangydF4y2Ba和gydF4y2BaξgydF4y2Ba*gydF4y2BangydF4y2Ba,但仍然满足要求的条件。gydF4y2Ba

包括松弛变量导致目标函数,也称为原始公式gydF4y2Ba[5]gydF4y2Ba:gydF4y2Ba

JgydF4y2Ba (gydF4y2Ba βgydF4y2Ba )gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba 2gydF4y2Ba βgydF4y2Ba ”gydF4y2Ba βgydF4y2Ba +gydF4y2Ba CgydF4y2Ba ∑gydF4y2Ba ngydF4y2Ba =gydF4y2Ba 1gydF4y2Ba NgydF4y2Ba (gydF4y2Ba ξgydF4y2Ba ngydF4y2Ba +gydF4y2Ba ξgydF4y2Ba ngydF4y2Ba *gydF4y2Ba )gydF4y2Ba ,gydF4y2Ba

受以下:gydF4y2Ba

∀gydF4y2Ba ngydF4y2Ba :gydF4y2Ba ygydF4y2Ba ngydF4y2Ba −gydF4y2Ba (gydF4y2Ba xgydF4y2Ba ngydF4y2Ba ”gydF4y2Ba βgydF4y2Ba +gydF4y2Ba bgydF4y2Ba )gydF4y2Ba ≤gydF4y2Ba εgydF4y2Ba +gydF4y2Ba ξgydF4y2Ba ngydF4y2Ba ∀gydF4y2Ba ngydF4y2Ba :gydF4y2Ba (gydF4y2Ba xgydF4y2Ba ngydF4y2Ba ”gydF4y2Ba βgydF4y2Ba +gydF4y2Ba bgydF4y2Ba )gydF4y2Ba −gydF4y2Ba ygydF4y2Ba ngydF4y2Ba ≤gydF4y2Ba εgydF4y2Ba +gydF4y2Ba ξgydF4y2Ba ngydF4y2Ba *gydF4y2Ba ∀gydF4y2Ba ngydF4y2Ba :gydF4y2Ba ξgydF4y2Ba ngydF4y2Ba *gydF4y2Ba ≥gydF4y2Ba 0gydF4y2Ba ∀gydF4y2Ba ngydF4y2Ba :gydF4y2Ba ξgydF4y2Ba ngydF4y2Ba ≥gydF4y2Ba 0gydF4y2Ba .gydF4y2Ba

常数gydF4y2BaCgydF4y2Ba是框约束,一个正数值,控制埃斯利隆超越外部围绕的观察罚款(gydF4y2BaεgydF4y2Ba),并有助于防止过拟合(正规化)。这个值决定了平面度之间的权衡gydF4y2BafgydF4y2Ba(gydF4y2BaxgydF4y2Ba)gydF4y2Ba以及偏差大于gydF4y2BaεgydF4y2Ba是可以容忍的。gydF4y2Ba

线性ε不敏感损耗函数忽略了误差范围内的误差gydF4y2BaεgydF4y2Ba观测值的距离,将它们视为等于零。损耗是根据观测值之间的距离来测量的gydF4y2BaygydF4y2Ba和gydF4y2BaεgydF4y2Ba边界。这是由gydF4y2Ba

lgydF4y2Ba εgydF4y2Ba =gydF4y2Ba {gydF4y2Ba 0gydF4y2Ba 如果gydF4y2Ba |gydF4y2Ba ygydF4y2Ba −gydF4y2Ba fgydF4y2Ba (gydF4y2Ba xgydF4y2Ba )gydF4y2Ba |gydF4y2Ba ≤gydF4y2Ba εgydF4y2Ba |gydF4y2Ba ygydF4y2Ba −gydF4y2Ba fgydF4y2Ba (gydF4y2Ba xgydF4y2Ba )gydF4y2Ba |gydF4y2Ba −gydF4y2Ba εgydF4y2Ba 否则gydF4y2Ba

线性支持向量机回归:对偶公式gydF4y2Ba

先前描述的优化问题在计算中,在其拉格朗日双制剂中解决了更简单。对双问题的解决方案为原始(最小化)问题的解决方案提供了下限。原始和双问题的最佳值不需要等于,并且差异称为“二元间隙”。但是当问题是凸起并满足约束资格条件时,通过双重问题的解决方案给出了对原始问题的最佳解决方案的值。gydF4y2Ba

为了得到对偶公式,通过引入非负乘子从原始函数构造一个拉格朗日函数gydF4y2BaαgydF4y2BangydF4y2Ba和gydF4y2BaαgydF4y2Ba*gydF4y2BangydF4y2Ba对于每一个观察gydF4y2BaxgydF4y2BangydF4y2Ba. 这导致了对偶公式,在这里我们最小化gydF4y2Ba

lgydF4y2Ba (gydF4y2Ba αgydF4y2Ba )gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba 2gydF4y2Ba ∑gydF4y2Ba 我gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba NgydF4y2Ba ∑gydF4y2Ba jgydF4y2Ba =gydF4y2Ba 1gydF4y2Ba NgydF4y2Ba (gydF4y2Ba αgydF4y2Ba 我gydF4y2Ba −gydF4y2Ba αgydF4y2Ba 我gydF4y2Ba *gydF4y2Ba )gydF4y2Ba (gydF4y2Ba αgydF4y2Ba jgydF4y2Ba −gydF4y2Ba αgydF4y2Ba jgydF4y2Ba *gydF4y2Ba )gydF4y2Ba xgydF4y2Ba 我gydF4y2Ba ”gydF4y2Ba xgydF4y2Ba jgydF4y2Ba +gydF4y2Ba εgydF4y2Ba ∑gydF4y2Ba 我gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba NgydF4y2Ba (gydF4y2Ba αgydF4y2Ba 我gydF4y2Ba +gydF4y2Ba αgydF4y2Ba 我gydF4y2Ba *gydF4y2Ba )gydF4y2Ba +gydF4y2Ba ∑gydF4y2Ba 我gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba NgydF4y2Ba ygydF4y2Ba 我gydF4y2Ba (gydF4y2Ba αgydF4y2Ba 我gydF4y2Ba *gydF4y2Ba −gydF4y2Ba αgydF4y2Ba 我gydF4y2Ba )gydF4y2Ba

受约束gydF4y2Ba

∑gydF4y2Ba ngydF4y2Ba =gydF4y2Ba 1gydF4y2Ba NgydF4y2Ba (gydF4y2Ba αgydF4y2Ba ngydF4y2Ba −gydF4y2Ba αgydF4y2Ba ngydF4y2Ba *gydF4y2Ba )gydF4y2Ba =gydF4y2Ba 0gydF4y2Ba ∀gydF4y2Ba ngydF4y2Ba :gydF4y2Ba 0gydF4y2Ba ≤gydF4y2Ba αgydF4y2Ba ngydF4y2Ba ≤gydF4y2Ba CgydF4y2Ba ∀gydF4y2Ba ngydF4y2Ba :gydF4y2Ba 0gydF4y2Ba ≤gydF4y2Ba αgydF4y2Ba ngydF4y2Ba *gydF4y2Ba ≤gydF4y2Ba CgydF4y2Ba .gydF4y2Ba

的gydF4y2BaβgydF4y2Ba参数可以完全用方程描述为训练观测值的线性组合gydF4y2Ba

βgydF4y2Ba =gydF4y2Ba ∑gydF4y2Ba ngydF4y2Ba =gydF4y2Ba 1gydF4y2Ba NgydF4y2Ba (gydF4y2Ba αgydF4y2Ba ngydF4y2Ba −gydF4y2Ba αgydF4y2Ba ngydF4y2Ba *gydF4y2Ba )gydF4y2Ba xgydF4y2Ba ngydF4y2Ba .gydF4y2Ba

用于预测新值的函数仅取决于支持向量:金宝appgydF4y2Ba

fgydF4y2Ba (gydF4y2Ba xgydF4y2Ba )gydF4y2Ba =gydF4y2Ba ∑gydF4y2Ba ngydF4y2Ba =gydF4y2Ba 1gydF4y2Ba NgydF4y2Ba (gydF4y2Ba αgydF4y2Ba ngydF4y2Ba −gydF4y2Ba αgydF4y2Ba ngydF4y2Ba *gydF4y2Ba )gydF4y2Ba (gydF4y2Ba xgydF4y2Ba ngydF4y2Ba ”gydF4y2Ba xgydF4y2Ba )gydF4y2Ba +gydF4y2Ba bgydF4y2Ba .gydF4y2Ba (1)gydF4y2Ba

Karush-Kuhn-Tucker (KKT)互补条件是获得最优解所需的优化约束条件。金宝搏官方网站对于线性支持向量机回归,这些条件是gydF4y2Ba

∀gydF4y2Ba ngydF4y2Ba :gydF4y2Ba αgydF4y2Ba ngydF4y2Ba (gydF4y2Ba εgydF4y2Ba +gydF4y2Ba ξgydF4y2Ba ngydF4y2Ba −gydF4y2Ba ygydF4y2Ba ngydF4y2Ba +gydF4y2Ba xgydF4y2Ba ngydF4y2Ba ”gydF4y2Ba βgydF4y2Ba +gydF4y2Ba bgydF4y2Ba )gydF4y2Ba =gydF4y2Ba 0gydF4y2Ba ∀gydF4y2Ba ngydF4y2Ba :gydF4y2Ba αgydF4y2Ba ngydF4y2Ba *gydF4y2Ba (gydF4y2Ba εgydF4y2Ba +gydF4y2Ba ξgydF4y2Ba ngydF4y2Ba *gydF4y2Ba +gydF4y2Ba ygydF4y2Ba ngydF4y2Ba −gydF4y2Ba xgydF4y2Ba ngydF4y2Ba ”gydF4y2Ba βgydF4y2Ba −gydF4y2Ba bgydF4y2Ba )gydF4y2Ba =gydF4y2Ba 0gydF4y2Ba ∀gydF4y2Ba ngydF4y2Ba :gydF4y2Ba ξgydF4y2Ba ngydF4y2Ba (gydF4y2Ba CgydF4y2Ba −gydF4y2Ba αgydF4y2Ba ngydF4y2Ba )gydF4y2Ba =gydF4y2Ba 0gydF4y2Ba ∀gydF4y2Ba ngydF4y2Ba :gydF4y2Ba ξgydF4y2Ba ngydF4y2Ba *gydF4y2Ba (gydF4y2Ba CgydF4y2Ba −gydF4y2Ba αgydF4y2Ba ngydF4y2Ba *gydF4y2Ba )gydF4y2Ba =gydF4y2Ba 0gydF4y2Ba .gydF4y2Ba

这些条件表明,严格在筒内的所有观测都有拉格朗日乘数gydF4y2BaαgydF4y2BangydF4y2Ba= 0gydF4y2Ba和gydF4y2BaαgydF4y2BangydF4y2Ba*gydF4y2Ba= 0gydF4y2Ba. 如果有的话gydF4y2BaαgydF4y2BangydF4y2Ba或者gydF4y2BaαgydF4y2BangydF4y2Ba*gydF4y2Ba不为零,那么相应的观测叫做agydF4y2Ba金宝app支持向量gydF4y2Ba.gydF4y2Ba

财产gydF4y2Ba阿尔法gydF4y2Ba一个训练好的SVM模型存储支持向量的两个拉格朗日乘数之间的差,金宝appgydF4y2BaαgydF4y2BangydF4y2Ba- - - - - -gydF4y2BaαgydF4y2BangydF4y2Ba*gydF4y2Ba.的属性gydF4y2Ba金宝appSupportVectorsgydF4y2Ba和gydF4y2Ba偏见gydF4y2Ba商店gydF4y2BaxgydF4y2BangydF4y2Ba和gydF4y2BabgydF4y2Ba,分别。gydF4y2Ba

非线性支持向量机回归:原始公式gydF4y2Ba

有些回归问题不能用线性模型充分描述。在这种情况下,拉格朗日对偶公式允许将先前描述的技术扩展到非线性函数。gydF4y2Ba

通过替换点积得到非线性支持向量机回归模型gydF4y2BaxgydF4y2Ba1gydF4y2Ba”gydF4y2BaxgydF4y2Ba2gydF4y2Ba具有非线性核函数gydF4y2BaGgydF4y2Ba(gydF4y2BaxgydF4y2Ba1gydF4y2Ba,gydF4y2BaxgydF4y2Ba2gydF4y2Ba) = φ.gydF4y2Ba(gydF4y2BaxgydF4y2Ba1gydF4y2Ba),gydF4y2Baφ.gydF4y2Ba(gydF4y2BaxgydF4y2Ba2gydF4y2Ba)>gydF4y2Ba哪里gydF4y2Baφ.gydF4y2Ba(gydF4y2BaxgydF4y2Ba)是映射的转换gydF4y2BaxgydF4y2Ba到高维空间。统计和机器学习工具箱提供以下内置的正半定核函数。gydF4y2Ba

内核的名字gydF4y2Ba 核函数gydF4y2Ba
线性(Dot产品)gydF4y2Ba GgydF4y2Ba (gydF4y2Ba xgydF4y2Ba jgydF4y2Ba ,gydF4y2Ba xgydF4y2Ba kgydF4y2Ba )gydF4y2Ba =gydF4y2Ba xgydF4y2Ba jgydF4y2Ba ”gydF4y2Ba xgydF4y2Ba kgydF4y2Ba
高斯分布gydF4y2Ba GgydF4y2Ba (gydF4y2Ba xgydF4y2Ba jgydF4y2Ba ,gydF4y2Ba xgydF4y2Ba kgydF4y2Ba )gydF4y2Ba =gydF4y2Ba 经验值gydF4y2Ba (gydF4y2Ba −gydF4y2Ba 为gydF4y2Ba xgydF4y2Ba jgydF4y2Ba −gydF4y2Ba xgydF4y2Ba kgydF4y2Ba 为gydF4y2Ba 2gydF4y2Ba )gydF4y2Ba
多项式gydF4y2Ba GgydF4y2Ba (gydF4y2Ba xgydF4y2Ba jgydF4y2Ba ,gydF4y2Ba xgydF4y2Ba kgydF4y2Ba )gydF4y2Ba =gydF4y2Ba (gydF4y2Ba 1gydF4y2Ba +gydF4y2Ba xgydF4y2Ba jgydF4y2Ba ”gydF4y2Ba xgydF4y2Ba kgydF4y2Ba )gydF4y2Ba 问gydF4y2Ba 哪里gydF4y2Ba问gydF4y2Ba在集合{2,3,…}中。gydF4y2Ba

的gydF4y2Ba克矩阵gydF4y2Ba是一个gydF4y2BangydF4y2Ba-借-gydF4y2BangydF4y2Ba包含元素的矩阵gydF4y2BaggydF4y2Ba我gydF4y2Ba,gydF4y2BajgydF4y2Ba=G(gydF4y2BaxgydF4y2Ba我gydF4y2Ba,gydF4y2BaxgydF4y2BajgydF4y2Ba)gydF4y2Ba.每个要素gydF4y2BaggydF4y2Ba我gydF4y2Ba,gydF4y2BajgydF4y2Ba等于预测值的内积,由gydF4y2Baφ.gydF4y2Ba. 然而,我们不需要知道gydF4y2Baφ.gydF4y2Ba,因为我们可以使用核函数直接生成Gram矩阵。利用该方法,非线性支持向量机找到最优函数gydF4y2BafgydF4y2Ba(gydF4y2BaxgydF4y2Ba)gydF4y2Ba在变换后的预测器空间中。gydF4y2Ba

非线性支持向量机回归:对偶公式gydF4y2Ba

非线性支持向量机回归的对偶公式代替了预测器的内积(gydF4y2BaxgydF4y2Ba我gydF4y2Ba”gydF4y2BaxgydF4y2BajgydF4y2Ba)与格拉姆矩阵的相应元素(gydF4y2BaggydF4y2Ba我gydF4y2Ba,gydF4y2BajgydF4y2Ba).gydF4y2Ba

非线性SVM回归找到最小化的系数gydF4y2Ba

lgydF4y2Ba (gydF4y2Ba αgydF4y2Ba )gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba 2gydF4y2Ba ∑gydF4y2Ba 我gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba NgydF4y2Ba ∑gydF4y2Ba jgydF4y2Ba =gydF4y2Ba 1gydF4y2Ba NgydF4y2Ba (gydF4y2Ba αgydF4y2Ba 我gydF4y2Ba −gydF4y2Ba αgydF4y2Ba 我gydF4y2Ba *gydF4y2Ba )gydF4y2Ba (gydF4y2Ba αgydF4y2Ba jgydF4y2Ba −gydF4y2Ba αgydF4y2Ba jgydF4y2Ba *gydF4y2Ba )gydF4y2Ba GgydF4y2Ba (gydF4y2Ba xgydF4y2Ba 我gydF4y2Ba ,gydF4y2Ba xgydF4y2Ba jgydF4y2Ba )gydF4y2Ba +gydF4y2Ba εgydF4y2Ba ∑gydF4y2Ba 我gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba NgydF4y2Ba (gydF4y2Ba αgydF4y2Ba 我gydF4y2Ba +gydF4y2Ba αgydF4y2Ba 我gydF4y2Ba *gydF4y2Ba )gydF4y2Ba −gydF4y2Ba ∑gydF4y2Ba 我gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba NgydF4y2Ba ygydF4y2Ba 我gydF4y2Ba (gydF4y2Ba αgydF4y2Ba 我gydF4y2Ba −gydF4y2Ba αgydF4y2Ba 我gydF4y2Ba *gydF4y2Ba )gydF4y2Ba

受gydF4y2Ba

∑gydF4y2Ba ngydF4y2Ba =gydF4y2Ba 1gydF4y2Ba NgydF4y2Ba (gydF4y2Ba αgydF4y2Ba ngydF4y2Ba −gydF4y2Ba αgydF4y2Ba ngydF4y2Ba *gydF4y2Ba )gydF4y2Ba =gydF4y2Ba 0gydF4y2Ba ∀gydF4y2Ba ngydF4y2Ba :gydF4y2Ba 0gydF4y2Ba ≤gydF4y2Ba αgydF4y2Ba ngydF4y2Ba ≤gydF4y2Ba CgydF4y2Ba ∀gydF4y2Ba ngydF4y2Ba :gydF4y2Ba 0gydF4y2Ba ≤gydF4y2Ba αgydF4y2Ba ngydF4y2Ba *gydF4y2Ba ≤gydF4y2Ba CgydF4y2Ba .gydF4y2Ba

用于预测新值的函数等于gydF4y2Ba

fgydF4y2Ba (gydF4y2Ba xgydF4y2Ba )gydF4y2Ba =gydF4y2Ba ∑gydF4y2Ba ngydF4y2Ba =gydF4y2Ba 1gydF4y2Ba NgydF4y2Ba (gydF4y2Ba αgydF4y2Ba ngydF4y2Ba −gydF4y2Ba αgydF4y2Ba ngydF4y2Ba *gydF4y2Ba )gydF4y2Ba GgydF4y2Ba (gydF4y2Ba xgydF4y2Ba ngydF4y2Ba ,gydF4y2Ba xgydF4y2Ba )gydF4y2Ba +gydF4y2Ba bgydF4y2Ba .gydF4y2Ba (2)gydF4y2Ba

KKT互补条件是gydF4y2Ba

∀gydF4y2Ba ngydF4y2Ba :gydF4y2Ba αgydF4y2Ba ngydF4y2Ba (gydF4y2Ba εgydF4y2Ba +gydF4y2Ba ξgydF4y2Ba ngydF4y2Ba −gydF4y2Ba ygydF4y2Ba ngydF4y2Ba +gydF4y2Ba fgydF4y2Ba (gydF4y2Ba xgydF4y2Ba ngydF4y2Ba )gydF4y2Ba )gydF4y2Ba =gydF4y2Ba 0gydF4y2Ba ∀gydF4y2Ba ngydF4y2Ba :gydF4y2Ba αgydF4y2Ba ngydF4y2Ba *gydF4y2Ba (gydF4y2Ba εgydF4y2Ba +gydF4y2Ba ξgydF4y2Ba ngydF4y2Ba *gydF4y2Ba +gydF4y2Ba ygydF4y2Ba ngydF4y2Ba −gydF4y2Ba fgydF4y2Ba (gydF4y2Ba xgydF4y2Ba ngydF4y2Ba )gydF4y2Ba )gydF4y2Ba =gydF4y2Ba 0gydF4y2Ba ∀gydF4y2Ba ngydF4y2Ba :gydF4y2Ba ξgydF4y2Ba ngydF4y2Ba (gydF4y2Ba CgydF4y2Ba −gydF4y2Ba αgydF4y2Ba ngydF4y2Ba )gydF4y2Ba =gydF4y2Ba 0gydF4y2Ba ∀gydF4y2Ba ngydF4y2Ba :gydF4y2Ba ξgydF4y2Ba ngydF4y2Ba *gydF4y2Ba (gydF4y2Ba CgydF4y2Ba −gydF4y2Ba αgydF4y2Ba ngydF4y2Ba *gydF4y2Ba )gydF4y2Ba =gydF4y2Ba 0gydF4y2Ba .gydF4y2Ba

SVM回归优化问题的求解gydF4y2Ba

求解算法gydF4y2Ba

最小化问题可以用标准的二次规划形式表示,并使用普通的二次规划技术来解决。但是,使用二次规划算法可能会在计算上非常昂贵,特别是因为Gram矩阵可能太大而无法存储在内存中。使用分解方法可以加快计算速度计算和避免内存不足。gydF4y2Ba

分解方法gydF4y2Ba(也称为gydF4y2Ba分块和工作集方法gydF4y2Ba)将所有的观察分成两个不相交的集:工作集和剩余集。分解方法在每次迭代中只修改工作集中的元素。因此,每次迭代只需要Gram矩阵的一些列,减少了每次迭代所需的存储量。gydF4y2Ba

序列最小优化gydF4y2Ba(SMO)是解决支持向量机问题最常用的方法gydF4y2Ba[4]gydF4y2Ba.SMO执行一系列两点优化。在每次迭代中,基于使用二阶信息的选择规则选择两个点的工作集。然后利用所述方法解析求解该工作集的拉格朗日乘子gydF4y2Ba[2]gydF4y2Ba和gydF4y2Ba[1]gydF4y2Ba.gydF4y2Ba

在支持向量机回归中,梯度向量gydF4y2Ba ∇gydF4y2Ba lgydF4y2Ba 对于活动集,在每次迭代后更新。梯度向量的分解方程为gydF4y2Ba

(gydF4y2Ba ∇gydF4y2Ba lgydF4y2Ba )gydF4y2Ba ngydF4y2Ba =gydF4y2Ba {gydF4y2Ba ∑gydF4y2Ba 我gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba NgydF4y2Ba (gydF4y2Ba αgydF4y2Ba 我gydF4y2Ba −gydF4y2Ba αgydF4y2Ba 我gydF4y2Ba *gydF4y2Ba )gydF4y2Ba GgydF4y2Ba (gydF4y2Ba xgydF4y2Ba 我gydF4y2Ba ,gydF4y2Ba xgydF4y2Ba ngydF4y2Ba )gydF4y2Ba +gydF4y2Ba εgydF4y2Ba −gydF4y2Ba ygydF4y2Ba ngydF4y2Ba ,gydF4y2Ba ngydF4y2Ba ≤gydF4y2Ba NgydF4y2Ba −gydF4y2Ba ∑gydF4y2Ba 我gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba NgydF4y2Ba (gydF4y2Ba αgydF4y2Ba 我gydF4y2Ba −gydF4y2Ba αgydF4y2Ba 我gydF4y2Ba *gydF4y2Ba )gydF4y2Ba GgydF4y2Ba (gydF4y2Ba xgydF4y2Ba 我gydF4y2Ba ,gydF4y2Ba xgydF4y2Ba ngydF4y2Ba )gydF4y2Ba +gydF4y2Ba εgydF4y2Ba +gydF4y2Ba ygydF4y2Ba ngydF4y2Ba ,gydF4y2Ba ngydF4y2Ba >gydF4y2Ba NgydF4y2Ba .gydF4y2Ba

迭代单数据算法gydF4y2Ba(ISDA)每次迭代更新一个拉格朗日乘子gydF4y2Ba[3]gydF4y2Ba.ISDA通常在没有偏差项的情况下进行gydF4y2BabgydF4y2Ba加上一个小的正常数gydF4y2Ba一个gydF4y2Ba到内核​​功能。掉落gydF4y2BabgydF4y2Ba去掉求和约束gydF4y2Ba

∑gydF4y2Ba ngydF4y2Ba =gydF4y2Ba 1gydF4y2Ba NgydF4y2Ba (gydF4y2Ba αgydF4y2Ba 我gydF4y2Ba −gydF4y2Ba αgydF4y2Ba *gydF4y2Ba )gydF4y2Ba =gydF4y2Ba 0gydF4y2Ba

在对偶方程中。这允许我们在每次迭代中更新一个拉格朗日乘数,这比SMO更容易去除异常值。ISDA在所有KKT违规者中选出最差的gydF4y2BaαgydF4y2BangydF4y2Ba和gydF4y2BaαgydF4y2BangydF4y2Ba*gydF4y2Ba值作为要更新的工作集。gydF4y2Ba

收敛性判别准则gydF4y2Ba

这些求解器算法中的每一个迭代地计算,直到满足指定的收敛标准。收敛标准有几个选项:gydF4y2Ba

  • 可行性差距gydF4y2Ba-可行性差距表示为gydF4y2Ba

    ΔgydF4y2Ba =gydF4y2Ba JgydF4y2Ba (gydF4y2Ba βgydF4y2Ba )gydF4y2Ba +gydF4y2Ba lgydF4y2Ba (gydF4y2Ba αgydF4y2Ba )gydF4y2Ba JgydF4y2Ba (gydF4y2Ba βgydF4y2Ba )gydF4y2Ba +gydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba

    在哪里gydF4y2BaJgydF4y2Ba(gydF4y2BaβgydF4y2Ba)gydF4y2Ba是最初的目标和目标gydF4y2BalgydF4y2Ba(gydF4y2BaαgydF4y2Ba)gydF4y2Ba是双重目标。在每次迭代之后,软件评估可行性差距。如果可行性差小于指定的值gydF4y2Ba施法gydF4y2Ba,则算法满足收敛准则,软件返回解。gydF4y2Ba

  • 梯度差异gydF4y2Ba-每次迭代后,软件计算梯度向量,gydF4y2Ba ∇gydF4y2Ba lgydF4y2Ba . 如果当前迭代和上一次迭代的梯度向量值之差小于gydF4y2Ba三角形半径公差gydF4y2Ba,则算法满足收敛准则,软件返回解。gydF4y2Ba

  • 最大KKT违规gydF4y2Ba-每次迭代后,软件评估所有的KKT违规gydF4y2BaαgydF4y2BangydF4y2Ba和gydF4y2BaαgydF4y2BangydF4y2Ba*gydF4y2Ba值。如果最大冲突小于gydF4y2BaKKTTolerancegydF4y2Ba,则算法满足收敛准则,软件返回解。gydF4y2Ba

参考gydF4y2Ba

樊瑞荣,陈鹏辉,林志杰。支持向量机的smo型分解方法研究金宝appgydF4y2BaIEEE神经网络汇刊,gydF4y2Ba第17卷:893-9082006。gydF4y2Ba

[2] Fan,R.E.,P.H.Chen和C.J.Lin.“使用二阶信息选择训练支持向量机的工作集。”金宝appgydF4y2Ba机器学习研究杂志,gydF4y2Ba第6卷:1871-19182005。gydF4y2Ba

黄,t.m., V.凯克曼,和I. Kopriva。gydF4y2Ba用于挖掘海量数据集的基于核的算法:有监督、半监督和无监督学习。gydF4y2Ba斯普林格,纽约,2006年。gydF4y2Ba

[4] 普拉特,J。gydF4y2Ba序列最小优化:一种训练支持向量机的快速算法。金宝appgydF4y2Ba技术报告MSR-TR-98-14,1999。gydF4y2Ba

[5] Vapnik, V。gydF4y2Ba统计学习理论的本质。gydF4y2Ba施普林格,纽约,1995。gydF4y2Ba

另请参阅gydF4y2Ba

|gydF4y2Ba|gydF4y2Ba|gydF4y2Ba

相关话题gydF4y2Ba