主要内容

介绍了最小二乘拟合

一个回归模型响应数据与预测数据与一个或多个相关系数。一个<年代p一个nclass="emphasis">拟合方法是一个算法,计算了模型系数给定一组输入数据。曲线拟合工具箱™使用最小二乘拟合方法来估计回归模型的系数。

曲线拟合工具箱支持以下最小二乘拟合方法:金宝app

  • 线性最小二乘

  • 加权最小二乘

  • 鲁棒最小二乘

  • 非线性最小二乘

回归模型的类型和输入数据的属性确定最小二乘估计模型系数的方法是最合适的。

计算残差

一个<年代p一个nclass="emphasis">剩余对于一个数据点的值之间的区别是观察到的反应和返回的响应估计拟合模型。的公式计算向量的估计反应

y ^ = f ( X , b )

在哪里

  • y ^ 是一个n1的向量响应估计

  • f回归模型的一般形式。

  • X是一个n——- - - - - -设计矩阵。

  • b是一个1矢量拟合模型的系数。

一个<年代p一个nclass="emphasis">最小二乘拟合方法计算模型系数的平方和最小化错误(SSE),也称为残差平方和。给定一组的n数据点的残余th数据点r<年代ub>我计算公式

r = y y ^

在哪里y<年代ub>我响应值和观察ŷ<年代ub>我拟合响应值。的上交所是由

年代 年代 E = = 1 n r 2 = = 1 n ( y y ^ ) 2

错误的假设

观察和真实值之间的差异被称为一个数据点<年代p一个nclass="emphasis">错误。因为它不能被直接观察到,数据点的误差近似数据点的残余。

最小二乘拟合方法是最精确的数据集不包含大量的随机误差与极端值。统计结果,如信心和预测,假定错误是正态分布。数据拟合技术通常做两个重要的假设关于数据含有随机误差的变化:

  • 错误只存在于响应数据,而不是在预测数据。

  • 错误是随机和遵循正态分布与零均值和方差不变。

数据拟合技术假定错误是正态分布,因为正态分布通常提供一个适当的近似分布的数量来衡量。虽然最小二乘拟合方法不承担错误正态分布在计算参数估计,该方法最适合的数据不包含大量的随机误差与极端值。正态分布是一种极端的概率分布随机错误并不常见。然而,统计结果,如信心和预测范围要求正态分布的有效性错误。

如果非零残差的均值,检查残差是否影响模型或预测变量的选择。除了加权最小二乘拟合方法,曲线拟合工具箱另外假设错误有恒定方差在预测变量的值。残差,没有一个常数差异表明,健康可能受到低质量数据。

线性最小二乘

曲线拟合工具箱使用线性最小二乘法线性模型的数据。一个<年代p一个nclass="emphasis">线性模型被定义为一个线性方程的系数。使用线性最小二乘拟合方法,当数据包含一些极端值,和误差的方差是常数预测变量。

线性模型的程度- 1的矩阵形式

y = X β + ε

在哪里

  • y是一个n1的向量响应数据。

  • β 是一个1矢量的未知系数。

  • X是一个n——- - - - - -设计矩阵包含- 1预测列。每个预测变量对应于一个列X。在最后一列X是一个列的表示模型的常数项。

  • ε 是一个n1矢量未知的错误。

例如,一个一级的多项式形式

y = p 1 x + p 2

是由

( y 1 y 2 y 3 y n ] = ( x 1 1 x 2 1 x 3 1 x n 1 ] × ( p 1 p 2 ]

你不能计算<年代p一个nclass="inlineequation"> β 直接原因<年代p一个nclass="inlineequation"> ε 是未知的。近似的线性最小二乘拟合方法<年代p一个nclass="inlineequation"> β 通过计算一个向量的系数b这最小化了SSE。曲线拟合工具箱计算b通过求解方程组称为正规方程。正常的方程给出的公式

( X T X ) b = X T y

在哪里X<年代up>T矩阵的转置X。的公式b然后

b = ( X T X ) 1 X T y

解决系统未知系数的线性方程组,用MATLAB<年代up>®反斜杠符(<一个href="//www.tatmou.com/in/help/matlab/ref/mldivide.html">mldivide)。因为反相X<年代up>TX可能导致不可接受的舍入误差,反斜杠符使用QR分解与旋转,这是一个稳定的数值算法。看到<一个href="//www.tatmou.com/in/help/matlab/arithmetic.html" class="a">算术运算关于反斜杠符的更多信息和QR分解。计算拟合响应值的向量ŷ,替代b到模型公式。

y ^ = X b

对拟合多项式模型的一个例子使用线性最小二乘拟合方法,明白了<一个href="//www.tatmou.com/in/help/curvefit/fit-polynomial-model-to-patient-data.html" class="a">合适的多项式模型数据。

加权最小二乘

如果响应数据误差没有恒定方差值的预测数据,配合可以受到低质量数据。加权最小二乘拟合方法使用缩放因子<年代p一个nclass="emphasis">权重影响响应值的影响系数的计算模型。使用加权最小二乘拟合方法如果权重是已知的,或如果权重遵循一个特定的形式。

加权最小二乘拟合方法引入了权重的公式上交所,这就

年代 年代 E = = 1 n w ( y y ^ ) 2

在哪里w<年代ub>我是权重。您提供的重量应该转换响应方差一个常数值。如果你知道差异<年代p一个nclass="inlineequation"> σ 2 测量误差的数据,然后给出了权重<年代p一个nclass="inlineequation"> w = 1 σ 2 。或者,您可以使用残差估计误差的计算<年代p一个nclass="inlineequation"> σ 2

加权公式上交所收益率的公式b

b = ( X T W X ) 1 X T W y

在哪里W是一个对角矩阵,这样吗<年代p一个nclass="inlineequation"> W = w

对拟合多项式模型的一个例子使用加权最小二乘拟合方法,明白了<一个href="//www.tatmou.com/in/help/curvefit/improve-fit-with-weights.html" class="a">提高模型符合重量。

鲁棒最小二乘

在响应数据被称为极端值<年代p一个nclass="emphasis">离群值。线性最小二乘拟合离群值敏感因为残差平方放大SSE计算这些数据点的影响。使用鲁棒最小二乘拟合方法如果数据包含异常值。

曲线拟合工具箱提供了以下的最小二乘拟合方法:

  • 至少绝对残差(政治)——这种方法发现最小化绝对残差曲线,而不是平方差异。因此,极端值没有影响健康。

  • Bisquare权重——这个方法最小化加权平方和,给每个数据点的重量取决于远点拟合曲线。附近的点拟合曲线得到全部的重量。点远离曲线得到减轻重量。点远离曲线比预期的随机机会得到零重量。

    bisquare权重方法通常是首选的守护神,同时试图找到一条曲线,适合大部分的数据使用最小二乘方法,同时减少离群值的影响。

健壮的bisquare权重配件使用迭代再加权最小二乘算法,遵循这些步骤:

  1. 适合通过加权最小二乘模型。第一次迭代的算法使用重量等于1,除非你指定权重。

  2. 计算残差调整和规范。给出了调整后的残差

    r 一个 d j = r 1 h

    在哪里h<年代ub>我参数,减少重量的数据点的拟合曲线。标准化残差调整的

    u = r 一个 d j K 年代

    在哪里K= 4.685是一个调优常数,年代是稳健标准差除以平均绝对偏差(疯狂)的残差0.6745。

    计算的权值的函数u。bisquare权重给出

    w = { ( 1 ( u ) 2 ) 2 | u | < 1 0 | u | 1

  3. 如果符合收敛,退出迭代过程。否则,执行bisquare权重的下一次迭代拟合方法,返回步骤1。

而不是减少异常值的影响,通过使用鲁棒最小二乘拟合,可将数据点标记被排除在健康。看到<一个href="//www.tatmou.com/in/help/curvefit/removing-outliers.html" class="a">删除离群值为更多的信息。

对拟合多项式模型的一个例子使用的最小二乘拟合方法,明白了<一个href="//www.tatmou.com/in/help/curvefit/compare-robust-fitting-methods.html" class="a">比较健壮的拟合方法。

非线性最小二乘

非线性最小二乘法曲线拟合工具箱使用适合非线性模型数据。一个<年代p一个nclass="emphasis">非线性模型被定义为一个方程中非线性系数,或者有线性和非线性系数的组合。指数、傅里叶和高斯模型是非线性的,例如。

一个非线性模型的矩阵形式

y = f ( X , β ) + ε

在哪里

  • y是一个n1的向量响应数据。

  • β 是一个1的系数向量。

  • Xn——- - - - - -设计矩阵。

  • f是一个非线性函数的<年代p一个nclass="inlineequation"> β X

  • ε 是一个n1矢量未知的错误。

在一个非线性模型中,不同于线性模型,近似系数b不能使用矩阵计算技术。曲线拟合工具箱使用迭代方法计算系数如下:

  1. 初始化系数值。对于一些非线性模型,工具箱提供了一个启发式方法计算初始值。其他模型的系数是初始化的随机值区间[0,1]。

  2. 计算当前的一组系数的拟合曲线。拟合响应值ŷ是由<年代p一个nclass="inlineequation"> y ^ = f ( X , b ) 并使用雅可比矩阵的计算<年代p一个nclass="inlineequation"> f ( X , β ) 。的雅可比矩阵<年代p一个nclass="inlineequation"> f ( X , β ) 偏导数的定义是一个矩阵的系数<年代p一个nclass="inlineequation"> β

  3. 使用其中一个非线性最小二乘算法调整系数:

    • 信赖域算法——这是默认的。您必须使用信赖域算法如果指定系数约束。信赖域算法可以解决困难的非线性问题更有效地比其他算法和流行Levenberg-Marquardt是一个改进算法。

    • Levenberg-Marquardt——如果信赖域算法不会产生一个合理的配合,和你没有系数约束,使用Levenberg-Marquardt算法。

  4. 如果指定的符合满足收敛标准,退出迭代。否则,返回步骤2。

曲线拟合工具箱支持使用重量和健壮的拟合来计算金宝appSSE非线性模型。

非线性模型的预测的准确性取决于模型的类型,收敛标准,数据集和初始值分配系数。如果默认选项不产生一个合理的健康,尝试不同的起始值系数的模型,非线性最小二乘算法,收敛标准。一般来说,开始通过修改系数值,因为非线性模型适合特别敏感的起始值模型系数。看到<一个href="//www.tatmou.com/in/help/curvefit/parametric-fitting.html" class="a">指定合适的选项和优化的起点关于修改默认选项的更多信息。

的例子使用非线性最小二乘拟合指数模型拟合方法,明白了<一个href="//www.tatmou.com/in/help/curvefit/fit-exponential-model-to-census-data.html" class="a">符合指数模型数据。

引用

[1]DuMouchel, w . H。,和F. L. O'Brien. “Integrating a Robust Option into a Multiple Regression Computing Environment.”<年代p一个nclass="emphasis">计算机科学和统计:21研讨会上的程序接口。亚历山大,弗吉尼亚州:美国统计协会,1989。

荷兰[2],p W。,和R. E. Welsch. “Robust Regression Using Iteratively Reweighted Least-Squares.”<年代p一个nclass="emphasis">通信数据:理论和方法A6, 1977年,页813 - 827。

另请参阅

应用程序

功能

  • |<年代p一个n我temscope itemtype="//www.tatmou.com/help/schema/MathWorksDocPage/SeeAlso" itemprop="seealso">

相关的话题