什么是线性回归?

描述数学关系并根据实验数据进行预测

线性回归是一种统计建模技术,用于描述一个连续响应变量作为一个或多个预测变量的函数。它可以帮助你理解和预测复杂系统的行为,或者分析实验、金融和生物数据。

线性回归技术用于创建线性模型。该模型描述了因变量(y)(也称为响应)作为一个或多个自变量(X_i)(称为预测器)的函数之间的关系。线性回归模型的一般方程为:

\[Y = beta_0 + sum \ \beta_i X_i + epsilon_i\]

其中\(贝塔\)表示要计算的线性参数估计,\(\epsilon\)表示误差项。

线性回归的类型

简单线性回归:只使用一个预测器的模型。一般方程为:

\[Y = beta_0 + beta_i X+ epsilon_i]

简单的线性回归例子展示了如何预测一个状态(响应变量,\(Y\))与状态(预测变量,\(X\))的人口(预测变量,\(X\))的致命交通事故数量。(见MATLAB®代码示例以及如何使用mldivide算子来估计简单线性回归的系数。)

多元线性回归:使用多个预测器的模型。这个回归有多个\(X_i\)来预测响应,\(Y\)。这个等式的一个例子是:

\ [Y = \ beta_0 + \ beta_1 X_1 + \ beta_2 X_2 + \ε\]

多元线性回归的例子,预测不同的汽车每加仑(MPG)(响应变量,\(Y\))基于重量和马力(预测变量,X_j\))。(见MATLAB代码示例,如何使用回归函数,确定多元线性回归关系的显著性。)

多元线性回归:多响应变量模型。这个回归有多个\(Y_i\)派生自相同的数据\(X\)。它们用不同的公式表示。有两个方程的系统的一个例子是:

\ [Y_1 = \ beta_ {01} + \ beta_ {11} X_1 + \ epsilon_1 \]

\ [Y_2 = \ beta_ {02} + \ beta_ {1 2} X_1 + \ epsilon_2 \]

多元线性回归示例显示如何根据一年中的星期(预测变量,\(Y_i\))预测9个地区的流感估计(响应变量,\(Y_i\))。(见MATLAB代码示例以及如何使用mvregression函数来确定多元线性回归的估计系数。)

多元多元线性回归:对多个响应变量使用多个预测器的模型。这个回归有多个\(X_i\)来预测多个响应\(Y_i\)。将方程推广为:

多元多元线性回归的例子,计算城市和高速公路的MPG(作为响应变量,\(Y_1\)和\(Y_2\))从三个变量:轮距,路侧重量,和燃料类型(预测变量,\(X_1\), \(X_2\)和\(X_3\))。(见MATLAB代码示例以及如何使用mvregression函数来估计系数。

线性回归的应用

线性回归有一些特性,使它们在以下应用中非常有趣:

  • 预测或预测——使用回归模型为特定的数据集建立预测模型。在模型中,您可以使用回归来预测只有预测器已知的响应值。
  • 回归的强度-使用回归模型来确定变量和预测器之间是否存在关系,以及这种关系有多强。

MATLAB线性回归

工程师通常创建简单的线性回归模型MATLAB.对于多元线性回归,可以使用统计和机器学习工具箱™从MATLAB。它支持逐步、稳健和多元回归:

  • 生成预测
  • 比较线性模型拟合
  • 情节残差
  • 评价拟合优度
  • 检测异常值

要创建一个将曲线和曲面与数据相匹配的线性模型,请参见曲线拟合工具箱™