文档

LinearModel类

超类:CompactLinearModel

线性回归模型类

描述

对象由训练数据、模型描述、诊断信息,为线性回归拟合系数。预测模型反应预测函数宏指令方法。

建设

mdl= fitlm (资源描述)mdl= fitlm (X,y)创建一个线性模型的数据集表或数组资源描述或反应y一个数据矩阵X。有关详细信息,请参见fitlm

mdl= stepwiselm (资源描述)mdl= stepwiselm (X,y)创建一个线性模型的数据集表或数组资源描述或反应y一个数据矩阵X,重要预测因素排除在外。有关详细信息,请参见stepwiselm

输入参数

全部展开

输入数据,指定为一个表或数据集的数组。当modelspec是一个公式,它指定了变量被用作预测和响应。否则,如果你不指定预测和响应变量,最后一个变量是响应变量和其他预测变量默认情况下。

预测变量可以是数字,或任何分组变量类型,如逻辑或分类(见分组变量)。响应必须是数字或逻辑。

不同的列设置为响应变量,使用ResponseVar名称-值对的论点。使用列的一个子集作为预测因子,使用PredictorVars名称-值对的论点。

数据类型:||逻辑

预测变量指定为一个n——- - - - - -p矩阵,n是观察和的数量吗p是预测变量的数量。每一列的X代表一个变量,每一行代表一个观察。

默认情况下,模型中的常数项,除非你显式地删除它,所以不包括1 s的一列X

数据类型:||逻辑

响应变量指定为一个n1的向量,n是观测的数量。中的每个条目y的响应相应的行吗X

数据类型:|

属性

全部展开

协方差矩阵的系数估计,存储为一个p——- - - - - -p矩阵的数值。p拟合模型中系数的数量。

系数的名字,存储单元阵列的特征向量包含一个标签为每个系数。

系数值,存储为一个表。系数有一行对每个系数和下面的列:

  • 估计——估计系数值

  • SE-标准误差的估计

  • tStat- - - - - -t统计测试系数为零

  • pValue- - - - - -p价值的t统计

获得这些列向量,索引属性使用点符号。例如,在mdl估计系数向量

β= mdl.Coefficients.Estimate

使用coefTest执行其他测试的系数。

自由度误差(残差),等于观测的数量减去估计系数的数量,存储为一个正整数的值。

诊断值,存储为一个表的行数相同的输入数据(资源描述X)。诊断包含诊断有助于发现异常值和有影响力的观察。许多诊断描述删除单一的对健康的影响观察。诊断包含以下字段。

意义 实用程序
利用 对角元素的HatMatrix 利用显示到什么程度的预报值观察是由观测值的观察。一个值接近1表明,预测在很大程度上取决于观察,从其他观察几乎没有贡献。一个值接近0表明健康在很大程度上取决于另一个观察。对于一个模型P系数和N观察,平均价值利用P / N。一个观察利用2 * P / N可以被视为具有高杠杆。
CooksDistance 库克的拟合值衡量比例的变化 CooksDistance是一个按比例缩小的拟合值的变化。一个观察CooksDistance超过三倍的意思是库克的距离可以是一个局外人。
Dffits Delete-1比例不同的拟合值与观测数 Dffits是按比例缩小的安装每个观测值的变化将从扣除从符合观测的结果。值的绝对值大于2 *倍根号(P / N)可能会被认为是有影响力的。
S2_i Delete-1方差与观察 S2_i是一组依次删除每个观测获得的剩余方差估计。这些可以相比的价值均方误差财产。
CovRatio Delete-1比行列式的协方差与观察 CovRatio的比值系数的协方差矩阵的行列式与每个观察依次删除整个模型的协方差矩阵的行列式。值大于1 + 3 * P / N或小于1 - 3 * P / N表明有影响力的点。
Dfbetas Delete-1比例不同的协方差估计和观察数 Dfbetas是一个N——- - - - - -P按比例缩小的变化系数的矩阵估计,将从依次扣除每个观测结果。值大于3 /√(N)在绝对值表明,观察对相应的系数有很大的影响。
HatMatrix 投影矩阵计算了从观察到的反应 HatMatrix是一个N——- - - - - -N矩阵,安装= HatMatrix * Y,在那里Y响应向量和吗安装是拟合响应值的向量。

行中使用不适合,因为(在缺失值ObservationInfo.Missing)包含值。

行中使用不适合,因为(在排除值ObservationInfo.Excluded)包含值,但有以下例外:Delete-1诊断参考数据和没有观察(行)包括在健康。这些诊断帮助识别重要的观察。

安装(预测)响应值基于输入数据,存储为一个n1的向量的数值。n在输入数据的数量的观察。使用预测对其他预测值来计算预测或计算置信界限安装

模型信息,存储为一个LinearFormula对象或NonLinearFormula对象。如果你符合线性或广义线性回归模型,公式是一个LinearFormula对象。如果你适合非线性回归模型公式是一个NonLinearFormula对象。

测井响应值模型的可能性分布,存储为一个数值。的意思是安装模式,和其他参数估计的模型。

标准模型比较,存储为一个结构有以下字段:

  • 另类投资会议——Akaike信息标准

  • AICc——Akaike信息标准样本大小的修正

  • BIC——贝叶斯信息准则

  • 中安集团经贸——Akaike信息准则一致

获得这些值作为一个标量,索引属性使用点符号。例如,在一个模型mdl,AIC值另类投资会议是:

aic = mdl.ModelCriterion.AIC

均方误差(残差),存储为一个数值。均方误差计算均方误差=上交所/教育部,在那里均方误差均方误差,上交所是平方误差的总和,教育部的自由度。

数量的模型系数,存储为一个正整数。NumCoefficients包括系数设置为0,当模型方面的不足。

数量的估计系数模型中,存储为一个正整数。NumEstimatedCoefficients不包括系数设置为0,当模型方面的不足。NumEstimatedCoefficients是回归的自由度。

数用于拟合观测数据的拟合函数,存储为一个正整数。这是观察原始表中提供的数量,数据集,或矩阵,减去任何排除行(设置被排除在外名称-值对)或具有缺失值的行。

用于适应模型数量的预测变量,存储为一个正整数。

输入数据的变量,存储为一个正整数。NumVariables是变量的数量在原始表或数据集,或预测矩阵中的列的总数和响应向量当适合基于这些数组。它包括变量,如果有的话,不用作预测或响应。

观察信息,存储为一个n表4,n等于输入数据的行数。的四列ObservationInfo包含以下:

描述
权重 观察权重。默认的都是1
被排除在外 逻辑值,1表明一个观察你排除在符合排除名称-值对。
失踪 逻辑值,1显示输入的缺失值。缺失值是不习惯的健康。
子集 逻辑值,1表明观察不排除或失踪,所以用于健康。

观察名称,存储单元阵列的特征向量包含观测中使用的名称。

  • 如果符合基于一个表或包含观测数据集名称,ObservationNames使用这些名称。

  • 否则,ObservationNames是一个空单元阵列

名称用于适合的预测模型、存储单元阵列的特征向量。

残差拟合模型,存储为一个表,其中包含一行对每个观察和下面的列。

描述
观察-拟合值。
皮尔森 原始残差除以RMSE。
标准化 原始残差除以他们估计的标准偏差。
Studentized 剩余除以一个独立的剩余标准差的估计。剩余的观察除以估计误差标准差基于所有观察除了观察吗

获得这些列向量,索引属性使用点符号。例如,在一个模型mdl,普通的原始残余向量r是:

r = mdl.Residuals.Raw

行中使用不适合,因为(在缺失值ObservationInfo.Missing)包含值。

行中使用不适合,因为(在排除值ObservationInfo.Excluded)包含值,用以下例外:

  • 包含观测值和预测值之间的差异。

  • 标准化是剩余,标准化以通常的方式。

  • studentized因为这剩余标准化值匹配的不是用于剩余标准差的估计。

响应变量名称,存储为一个特征向量。

根均方误差(残差),存储为一个数值。根均方误差(RMSE) =RMSE=√均方误差),在那里均方误差均方误差。

健壮的健康信息,存储为一个结构有以下字段:

描述
WgtFun 健壮的权重函数,比如“bisquare”(见robustfit)
调优 为调优参数(可以指定值[])
权重 向量的权重最终迭代强劲的健康。这个字段是空压实CompactLinearModel模型。

是空的,除非这个结构fitlm构造使用健壮的回归模型。

平方值为模型、存储结构。

对于一个线性或非线性模型,Rsquared是一种结构与两个字段:

  • 普通的——普通(调整)的平方

  • 调整——平方调整系数的数量

广义线性模型,Rsquared是一个结构五个领域:

  • 普通的——普通(调整)的平方

  • 调整——平方调整系数的数量

  • LLR——对数似比

  • 异常——异常

  • AdjGeneralized——调整广义平方

平方值的比例总平方和的解释模型。普通的平方值之间的关系苏维埃社会主义共和国风场属性:

Rsquared = SSR / SST = 1 - SSE /风场

获得这些值作为一个标量,索引属性使用点符号。例如,调整后的平方值mdl

r2 = mdl.Rsquared.Adjusted

平方误差的总和(残差),存储为一个数值。

勾股定理意味着

海温= SSE + SSR

回归平方和,存储为一个数值。回归平方和等于偏差的平方和的拟合值的意思。

勾股定理意味着

海温= SSE + SSR

总平方和,存储为一个数值。总平方和等于平方偏差的总和y意思是(y)

勾股定理意味着

海温= SSE + SSR

分段拟合信息,存储为与以下领域的结构。

描述
开始 代表起始模型公式
较低的 代表下界公式模型,这些术语,必须保持在模型中
公式代表上限模型,模型不能含有更多的比
标准 标准用于分段算法,如上交所的
被关闭的 值的参数,如0.05
PRemove 值的参数,如0.10
历史 表代表中所需要的步骤

历史表有一行每一步包括最初的适应,和下面的变量(列)。

描述
行动 行动在此步骤之一:
  • “开始”——第一步

  • “添加”——添加一个术语

  • “删除”——删除一个术语

TermName
  • “开始”一步:起始模型规范

  • “添加”“删除”步骤:进入这一步

条款 计算矩阵(见modelspecfitlm)
DF 在这个步骤之后回归的自由度
delDF 回归自由度变化从先前的步骤(步骤删除负面的词)
异常 异常(剩余平方和)这一步
函数 F统计了这一步
PValue p价值的F统计

结构是空的,除非你使用stepwiselmstepwiseglm以适应模型。

关于输入变量中包含的信息变量,存储为一个表的一行每个模型术语和下面的列。

描述
特征向量给变量类,如“双”
范围 单元阵列给变量范围:
  • 连续变量——双元素向量(最小值,马克斯]的最小值和最大值

  • 分类变量-单元阵列的不同的变量值

InModel 逻辑向量,真正的表明模型中的变量
IsCategorical 逻辑向量,真正的表明一个分类变量

名称中使用的变量,存储单元阵列的特征向量。

  • 如果符合基于一个表或数据集,这个属性提供了变量的名称,表或数据集。

  • 如果适合基于预测矩阵和响应向量,VariableNames中的值吗VarNames名称-值对的拟合方法。

  • 否则有默认配件的名称的变量。

数据模型,适合使用存储表。变量既包含观察和响应值。如果合适的数据集是基于一个表或数组,变量包含了所有的数据表或数据集的数组。否则,变量从输入数据矩阵表创建X和响应向量y

方法

addTerms 添加条件线性回归模型
紧凑的 紧凑的线性回归模型
dwt Durbin-Watson线性模型的测试
适合 建立线性回归模型
情节 散点图或添加变量的线性模型
plotAdded 添加变量情节或利用情节线性模型
plotAdjustedResponse 调整响应情节线性回归模型
plotDiagnostics 情节线性回归模型的诊断
plotResiduals 情节线性回归模型的残差
removeTerms 删除从线性模型
一步 通过添加或删除条款提高线性回归模型
逐步 通过逐步回归建立线性回归模型

继承的方法

方差分析 线性模型的方差分析
coefCI 系数的置信区间估计的线性模型
coefTest 在线性回归模型系数线性假设检验
disp 显示线性回归模型
函数宏指令 计算线性回归模型预测
plotEffects 图中每个预测线性回归模型的主要影响
plotInteraction 情节交互作用的两个线性回归模型的预测
plotSlice 通过线性回归拟合曲面的情节片
预测 线性回归模型的预测反应
随机 线性回归模型的模拟反应

复制语义

价值。学习如何价值类影响复制操作,明白了复制对象在MATLAB (MATLAB)®文档。

例子

全部展开

哈尔德数据的线性模型。

加载数据。

负载哈尔德X =成分;%的预测变量y =热量;%响应

适合一个默认的线性模型的数据。

mdl = fitlm (X, y)
mdl =线性回归模型:y ~ 1 + x1 + x2 + x3 + x4估计系数:估计SE tStat pValue ________ _________说x1(拦截)62.405 70.071 0.8906 0.39913 1.5511 0.74477 2.0827 0.070822 x2 0.51017 0.72379 0.70486 0.5009 x3 x4 -0.14406 0.70905 -0.20317 0.89592 0.10191 0.75471 0.13503 0.84407的观测数量:13日误差自由度:8根均方误差:2.45平方:0.982,调整平方0.974 f统计量与常数模型:111年,假定值= 4.76 e-07

适合一个表,其中包含分类预测模型。

加载carsmall数据。

负载carsmall

构建一个表包含连续的预测变量重量,名义上的预测变量一年和响应变量英里/加仑

台=表(MPG、重量);资源描述。一年=nominal(Model_Year);

创建一个模型英里/加仑的函数一年,重量,体重^ 2。(你不需要包括重量显式地在你的公式,因为它是一个低阶的概念体重^ 2),包括自动。

mdl = fitlm(资源描述,“MPG ~年+重量^ 2”)
mdl =线性回归模型:MPG ~体重重量1 + +年+ ^ 2估计系数:估计SE tStat pValue __________ __________和__________(拦截)e-19重量-0.016404 0.0031249 -5.2493 2.6648 54.206 4.7117 11.505 1.0283 e-06 Year_76 Year_82 0.0044137 2.0887 0.71491 2.9215 8.1864 0.81531 10.041 1.5573 2.6364 e-16体重^ 2 e-06 4.9454 e-07 3.149 - 0.0022303的观察:94年,错误自由度:89根均方误差:2.78平方:0.885,调整平方0.88 f统计量与常数模型:172年,假定值= 5.52 e-41

fitlm创建了两个虚拟变量(指标)的名义变量,一年。的哑变量Year_76值1如果模型是1976年,值0如果不是。的哑变量Year_82值1如果模型是1982年,值0如果不是。1970年是参考。相应的模型

$ \帽子英里/加仑= 54.206 - 0.0164(重量)+ 2.0887(年\ _76)+ 8.1864(年\ _82)+ 1.557 e-06(重{t ^ 2})美元

适合使用健壮的线性回归模型拟合方法。

加载示例数据。

负载哈尔德

哈尔德数据的措施在其硬化水泥成分热的影响。矩阵成分包含四个化学物质的百分比组成的水泥。数组包含每个水泥的硬化后180天热样本。

适合一个健壮的线性模型的数据。

mdl = fitlm(成分、热、“线性”,“RobustOpts”,“上”)
mdl =线性回归模型(健壮健康):y ~ 1 + x1 + x2 + x3 + x4估计系数:估计SE tStat pValue ________ _________说x1(拦截)60.09 75.818 0.79256 0.4509 1.5753 0.80585 1.9548 0.086346 x2 0.5322 0.78315 0.67957 0.51596 x3 x4 -0.12052 0.7672 -0.15709 0.87424 0.13346 0.8166 0.16343 0.87906的观测数量:13日误差自由度:8根均方误差:2.65平方:0.979,调整平方0.969 f统计量与常数模型:94.6,p = 9.03 e-07

定义

全部展开

算法

主要配件QR分解算法。稳健拟合的算法robustfit

选择

删除冗余在线性回归预测使用套索或弹性网,使用套索函数。

规范使用岭回归,回归与相关条款使用套索功能。

规范使用偏最小二乘回归与相关条款,使用plsregress函数。

扩展功能

介绍了R2012a

这个主题有帮助吗?