主要内容

多元线性回归

介绍了多变量方法

大型高维数据集是常见的计算机在现代仪器和电子数据存储。高维数据存在许多挑战统计可视化、分析和建模。

当然,数据可视化,除了几个尺寸是不可能的。因此,模式识别,数据预处理、模型选择必须严重依赖于数值方法。

一个基本的挑战是所谓的高维数据分析诅咒的维度。观察在高维空间必然是稀疏的比在低维空间和更少的代表。在更高的维度中,数据代表了一个抽样分布的边缘,因为地区的高维空间包含大部分的体积在地表附近。(一个d维球壳体积,相对于球面的总量,方法1d趋向于无穷。)在高维度,典型的数据点的室内分布采样的频率更低。

通常,许多维度的数据设置测量特性不是有用的生产模式。特性可能无关紧要或冗余。回归和分类算法需要大量的存储和计算时间来处理原始数据,而且即使算法成功的结果模型中可能包含一个难以理解的术语。

因为这些挑战,多元统计方法常常与某种类型的开始降维中,数据被分在一个低维空间近似。降维的目标是本章中给出的方法。降维经常导致更简单的模型和测量变量较少,与顺向好处是昂贵的和可视化测量是很重要的。

多元线性回归模型

多元线性回归模型表达d维连续响应向量的线性组合预测的条件加上一个向量误差项多元正态分布。让 y = ( y 1 , , y d ) 表示的响应向量观测,= 1,…,n。在最一般的情况下,考虑到d——- - - - - -K设计矩阵 X K1的系数向量 β 多元线性回归模型

y = X β + ε ,

在哪里d维向量误差遵循多元正态分布,

ε V N d ( 0 , Σ )

模型假设之间的独立观察,这意味着错误的variance-covariance矩阵n堆放d维响应向量

n Σ = ( Σ 0 0 Σ )

如果 y 表示nd1矢量叠加的d维反应, X 表示nd——- - - - - -K堆叠设计矩阵的矩阵,然后响应向量的分布

y V N n d ( X β , n Σ )

解决多元回归问题

适应多元线性回归模型的形式

y = X β + ε , ε V N d ( 0 , Σ )

在统计和机器学习的工具箱™,使用mvregress。这个函数的多元回归模型符合一个对角线(异方差的)或非结构化(异方差的和相关的)错误variance-covariance矩阵, Σ , 使用最小二乘法或最大似然估计。

许多变化的多元回归最初可能不支持的形式金宝appmvregress,如:

  • 多元一般线性模型

  • 多元方差分析(MANOVA)

  • 纵向分析

  • 面板数据分析

  • 看似不相关的回归(SUR)

  • 向量自回归(VAR)模型

这些问题在很多情况下,你可以框架使用mvregress(但mvregress不支持参数化错误v金宝appariance-covariance矩阵)。单向MANOVA的特殊情况,或者可以使用manova1。计量经济学工具箱™为VAR估计函数。

请注意

多元线性回归模型是不同的从多元线性回归模型,该模型单变量连续反应的线性组合外生条件加上一个独立同分布误差项。适合一个多元线性回归模型,使用fitlm

另请参阅

|||

相关的例子

更多关于