线性回归模型
LinearModel
是拟合的线性回归模型对象。回归模型描述响应和预测因子之间的关系。线性回归模型中的线性是指预测系数的线性。
的属性LinearModel
目的研究拟合线性回归模型。对象属性包括有关系数估计、汇总统计信息、拟合方法和输入数据的信息。使用目标函数来预测响应,并修改、评估和可视化线性回归模型。
创建一个LinearModel
对象,使用fitlm
或stepwiselm
.
fitlm
使用固定的模型规格拟合线性回归模型到数据。使用addTerms
,removeTerms
,或一步
从模型中添加或删除项。另外,使用stepwiselm
用逐步线性回归拟合模型。
CoefficientCovariance
- - - - - -系数估计的协方差矩阵CoefficientNames
- - - - - -系数的名字此属性是只读的。
系数名,指定为字符向量的单元格数组,每个单元格包含相应项的名称。
数据类型:细胞
系数
- - - - - -系数值此属性是只读的。
系数值,指定为表格。系数
每个系数包含一行,这些列:
估计
-估计系数值
SE
-估算的标准误差
tStat
- - - - - -t-statistic用于测试系数为零的情况
pValue
- - - - - -p-valuet统计
使用方差分析
(仅适用于线性回归模型)或coefTest
对系数进行其他测试。使用coefCI
求系数估计的置信区间。
若要以向量的形式获取这些列,请使用点表示法将其索引到属性中。例如,得到模型中估计的系数向量mdl
:
beta = mdl.系数。估计
数据类型:表格
NumCoefficients
- - - - - -模型系数数此属性是只读的。
模型系数的数目,指定为正整数。NumCoefficients
包括当模型项秩亏时设置为零的系数。
数据类型:双
NumEstimatedCoefficients
- - - - - -估计系数数此属性是只读的。
模型中估计的系数数,指定为正整数。NumEstimatedCoefficients
不包括当模型项秩亏时设置为零的系数。NumEstimatedCoefficients
是回归的自由度。
数据类型:双
教育部
- - - - - -误差的自由度此属性是只读的。
误差(残差)的自由度,等于观测数减去估计系数数,指定为正整数。
数据类型:双
诊断
- - - - - -观察诊断此属性是只读的。
观察诊断,指定为一个表,其中包含每个观察的一行和该表中描述的列。
列 | 意义 | 描述 |
---|---|---|
利用 |
对角线元素HatMatrix |
利用 对于每个观测表明拟合程度是由观测到的预测值决定的。值接近于1 表明拟合在很大程度上是由该观测决定的,其他观测的贡献很小。值接近于0 表明拟合在很大程度上是由其他观测决定的。对于一个模型P 系数和N 的平均值利用 是P / N .一个利用 值大于2 * P / N 表明高杠杆。 |
CooksDistance |
库克的距离 | CooksDistance 是拟合值的比例变化的度量。观察到CooksDistance 超过平均库克距离的三倍可能是一个异常值。 |
Dffits |
在拟合值中删除1个比例差异 | Dffits 是将每个观测值从拟合中排除而导致的拟合值的比例变化。值大于2 *倍根号(P / N) 在绝对值上可以认为是有影响力的。 |
S2_i |
Delete-1方差 | S2_i 是通过依次删除每个观察值而获得的一组剩余方差估计值。这些估计值可以与均方误差(MSE)值进行比较,存储在均方误差 财产。 |
CovRatio |
协方差行列式减1比 | CovRatio 是将每个观测值依次删除后,系数协方差矩阵的行列式与完整模型的协方差矩阵行列式的比值。值大于1 + 3* p / n 或者小于1 - 3* p / n 指出影响点。 |
Dfbetas |
删除系数估计值中的1个比例差异 | Dfbetas 是一个N ——- - - - - -P 矩阵的比例变化系数估计,结果排除每个观测轮流。值大于3 /√(N) 以绝对值表示观测值对相应系数有显著影响。 |
HatMatrix |
要计算的投影矩阵安装 从观察到的反应 |
HatMatrix 是一个N ——- - - - - -N 这样的矩阵拟合= HatMatrix*Y ,在那里Y 响应向量是和吗安装 为拟合响应值的向量。 |
诊断
包含有助于发现异常值和有影响力的观察值的信息。Delete-1诊断捕获从拟合中依次排除每个观察结果所导致的更改。详情请参见帽子矩阵和杠杆,库克的距离,Delete-1统计.
使用plotDiagnostics
绘制观测诊断图。
由于缺少值而未在拟合中使用的行(在ObservationInfo。失踪
)或排除的值(在ObservationInfo。被排除在外
)包含南
中的值CooksDistance
,Dffits
,S2_i
,CovRatio
的列和零利用
,Dfbetas
,HatMatrix
列。
若要以数组形式获取这些列,请使用点表示法将其索引到属性中。例如,得到模型中的delete-1方差向量mdl
:
S2i = mdl.Diagnostics.S2_i;
数据类型:表格
安装
- - - - - -根据输入数据拟合响应值LogLikelihood
- - - - - -Loglikelihood此属性是只读的。
响应值的对数似然性,指定为数值,基于每个响应值服从正态分布的假设。正态分布的平均值是拟合的(预测的)响应值,方差是均方误差
.
数据类型:单
|双
ModelCriterion
- - - - - -模型比较准则此属性是只读的。
模型比较的标准,指定为具有以下字段的结构:
另类投资会议
-赤池信息准则。AIC = -2 *logL + 2*m
,在那里logL
loglikelihood和米
是估计参数的个数。
AICc
-赤池信息标准校正样本量。AICc = AIC + (2*m*(m + 1))/(n - m - 1)
,在那里n
是观测的数量。
BIC
-贝叶斯信息准则。BIC = -2 *logL + m*log(n)
.
中安集团经贸
—一致赤池信息标准。CAIC = -2 *logL + m*(log(n) + 1)
.
信息标准是模型选择工具,您可以使用它来比较适合相同数据的多个模型。这些标准是基于可能性的模型拟合度量,包括对复杂性的惩罚(具体地说,参数的数量)。不同的信息标准通过处罚的形式来区分。
当对多个模型进行比较时,信息准则值最低的模型为最佳拟合模型。最佳拟合模型可以根据用于模型比较的标准而变化。
若要以标量形式获取任何标准值,请使用点表示法将其索引到属性中。例如,获取AIC值另类投资会议
在模型中mdl
:
aic = mdl.ModelCriterion.AIC
数据类型:结构体
均方误差
- - - - - -均方误差此属性是只读的。
均方误差(残差),用数值表示。
均方误差=上交所/教育部,
在哪里均方误差是均方误差,上交所误差平方和,和教育部就是自由度。
数据类型:单
|双
残差
- - - - - -拟合模型的残差此属性是只读的。
拟合模型的残差,指定为一个表,每个观察值包含一行,该表中描述的列。
列 | 描述 |
---|---|
生 |
观测值减去拟合值 |
皮尔森 |
原始残差除以均方根误差(RMSE) |
标准化 |
原始残差除以估计的标准差 |
Studentized |
原始残差除以独立估计的残差标准差。用于观察的残差我除以基于除观测以外的所有观测的误差标准偏差的估计我. |
使用plotResiduals
画出残差图。详细信息请参见残差.
由于缺少值而未在拟合中使用的行(在ObservationInfo。失踪
)或排除的值(在ObservationInfo。被排除在外
)包含南
值。
若要以向量的形式获取这些列,请使用点表示法将其索引到属性中。例如,获取原始残差向量r
在模型中mdl
:
r = mll . residuals . raw
数据类型:表格
RMSE
- - - - - -均方根误差此属性是只读的。
均方根误差(残差),用数值表示。
RMSE=√均方误差),
在哪里RMSE均方根误差和均方误差是均方误差。
数据类型:单
|双
Rsquared
- - - - - -模型的r平方值此属性是只读的。
模型的r平方值,指定为具有两个字段的结构:
普通的
-普通(未经调整)r平方
调整
- r平方调整系数的数量
r平方值是由模型解释的总平方和的比例。普通的r平方值与苏维埃社会主义共和国
而且风场
属性:
r平方= SSR/SST
,
在哪里风场
总平方和,和苏维埃社会主义共和国
为回归平方和。
详细信息请参见决定系数(r平方).
若要以标量形式获取这些值,请使用点表示法将其索引到属性中。例如,得到模型中调整后的r平方值mdl
:
r2 = mll . rsquared .已调整
数据类型:结构体
上交所
- - - - - -误差平方和此属性是只读的。
误差平方和(残差),用数值表示。
毕达哥拉斯定理意味着
SST = sse + SSR
,
在哪里风场
是总平方和,上交所
误差平方和,和苏维埃社会主义共和国
为回归平方和。
数据类型:单
|双
苏维埃社会主义共和国
- - - - - -回归平方和此属性是只读的。
回归平方和,指定为数值。回归平方和等于拟合值与其平均值的偏差平方和。
毕达哥拉斯定理意味着
SST = sse + SSR
,
在哪里风场
是总平方和,上交所
误差平方和,和苏维埃社会主义共和国
为回归平方和。
数据类型:单
|双
风场
- - - - - -总平方和此属性是只读的。
总平方和,指定为数值。总平方和等于响应向量偏差的平方和y
从意思是(y)
.
毕达哥拉斯定理意味着
SST = sse + SSR
,
在哪里风场
是总平方和,上交所
误差平方和,和苏维埃社会主义共和国
为回归平方和。
数据类型:单
|双
健壮的
- - - - - -健壮的拟合信息此属性是只读的。
健壮的拟合信息,指定为具有本表中所述字段的结构。
场 | 描述 |
---|---|
WgtFun |
鲁棒加权函数等“bisquare” (见“RobustOpts” ) |
调优 |
调优常数。此字段为空([] )如果WgtFun 是“ols” 或者,如果WgtFun 是自定义权重函数的函数句柄,其默认调优常数为1。 |
权重 |
鲁棒拟合的最终迭代中使用的权重向量。此字段为空CompactLinearModel 对象。 |
这个结构是空的,除非你用稳健回归拟合模型。
数据类型:结构体
步骤
- - - - - -逐步拟合信息此属性是只读的。
逐步拟合信息,指定为具有本表中所述字段的结构。
场 | 描述 |
---|---|
开始 |
表示起始模型的公式 |
较低的 |
表示下界模型的公式。中的条款较低的 必须保留在模型中。 |
上 |
表示上限模型的公式。模型包含的项不能超过上 . |
标准 |
准则用于逐步算法,如上交所的 |
被关闭的 |
阈值标准 要添加一个项 |
PRemove |
阈值标准 删除一个术语 |
历史 |
表表示在配合中所采取的步骤 |
的历史
表为每个步骤包含一行,包括初始拟合,以及该表中描述的列。
列 | 描述 |
---|---|
行动 |
在该步骤中采取的动作:
|
TermName |
|
条款 |
a中的模型规范计算矩阵 |
DF |
后步回归自由度 |
delDF |
与前一步相比回归自由度的变化(删除项的步骤为负) |
异常 |
步长处的偏差(残差平方和)(仅适用于广义线性回归模型) |
函数 |
F-指向step的统计信息 |
PValue |
p的-valueF统计 |
除非使用逐步回归拟合模型,否则结构是空的。
数据类型:结构体
公式
- - - - - -模型信息LinearFormula
对象此属性是只读的。
模型信息,指定为LinearFormula
对象。
显示拟合模型的公式mdl
使用点符号:
mdl。F或米ula
NumObservations
- - - - - -观察次数此属性是只读的。
拟合函数在拟合中使用的观察数,以正整数指定。NumObservations
原始表、数据集或矩阵中提供的观察数是否减去任何排除的行(用“排除”
名称-值对参数)或缺少值的行。
数据类型:双
NumPredictors
- - - - - -预测变量数量此属性是只读的。
用于拟合模型的预测变量数,指定为正整数。
数据类型:双
NumVariables
- - - - - -变量数量此属性是只读的。
输入数据中的变量数,指定为正整数。NumVariables
是原始表或数据集中的变量数,或预测器矩阵和响应向量中的列总数。
NumVariables
还包括不用于拟合模型作为预测因子或响应的任何变量。
数据类型:双
ObservationInfo
- - - - - -观测信息此属性是只读的。
观测信息,指定为n-by-4表,其中n等于输入数据的行数。ObservationInfo
包含本表中描述的列。
列 | 描述 |
---|---|
权重 |
观察权重,指定为数值。默认值为1 . |
被排除在外 |
排除观测值的指示器,指定为逻辑值。取值为真正的 如果将观测结果从拟合中排除,则使用“排除” 名称-值对参数。 |
失踪 |
缺失观测值的指示器,指定为逻辑值。取值为真正的 如果观察缺失。 |
子集 |
指示拟合函数是否使用作为逻辑值指定的观测值。取值为真正的 如果观测值未被排除或缺失,则表示拟合函数使用该观测值。 |
若要以向量的形式获取这些列,请使用点表示法将其索引到属性中。例如,获取权向量w
模型的mdl
:
w = mll . observationinfo . weights
数据类型:表格
ObservationNames
- - - - - -观察的名字此属性是只读的。
观测值名称,指定为包含拟合中使用的观测值名称的字符向量单元格数组。
如果拟合是基于包含观测名称的表或数据集,ObservationNames
使用这些名字。
否则,ObservationNames
是空单元格数组。
数据类型:细胞
PredictorNames
- - - - - -用于拟合模型的预测因子名称此属性是只读的。
用于拟合模型的预测器名称,指定为字符向量的单元格数组。
数据类型:细胞
ResponseName
- - - - - -响应变量名此属性是只读的。
响应变量名,指定为字符向量。
数据类型:字符
VariableInfo
- - - - - -关于变量的信息此属性是只读的。
中包含的变量的信息变量
,指定为一个表,每个变量有一行,该表中描述的列。
列 | 描述 |
---|---|
类 |
变量类,指定为字符向量的单元格数组,例如“双” 而且“分类” |
范围 |
变量范围,指定为单元格向量数组
|
InModel |
拟合模型中变量的指示器,指定为逻辑向量。取值为真正的 如果模型包含变量。 |
IsCategorical |
类别变量的指示符,指定为逻辑向量。取值为真正的 如果变量是分类的。 |
VariableInfo
还包括不用于拟合模型作为预测因子或响应的任何变量。
数据类型:表格
VariableNames
- - - - - -变量名此属性是只读的。
变量的名称,指定为字符向量的单元格数组。
如果拟合基于表或数据集,则此属性提供表或数据集中变量的名称。
如果拟合是基于预测矩阵和响应向量,VariableNames
属性指定的值“VarNames”
拟合方法的名称-值对参数。的默认值“VarNames”
是{x1, x2,…,‘xn’,‘y’}
.
VariableNames
还包括不用于拟合模型作为预测因子或响应的任何变量。
数据类型:细胞
变量
- - - - - -输入数据此属性是只读的。
输入数据,指定为表。变量
同时包含预测值和响应值。如果拟合基于表或数据集数组,变量
包含表或数据集数组中的所有数据。否则,变量
是否从输入数据矩阵创建表X
响应向量y
.
变量
还包括不用于拟合模型作为预测因子或响应的任何变量。
数据类型:表格
CompactLinearModel
紧凑的 |
紧凑线性回归模型 |
addTerms |
在线性回归模型中添加项 |
removeTerms |
从线性回归模型中移除项 |
一步 |
通过增减项对线性回归模型进行改进 |
方差分析 |
线性回归模型的方差分析 |
coefCI |
线性回归模型系数估计的置信区间 |
coefTest |
线性回归模型系数的线性假设检验 |
dwt |
以线性回归模型为对象的Durbin-Watson检验 |
partialDependence |
计算部分依赖关系 |
情节 |
线性回归模型的散点图或加变量图 |
plotAdded |
增加了线性回归模型的变量图 |
plotAdjustedResponse |
线性回归模型调整后的响应图 |
plotDiagnostics |
线性回归模型的小区观测诊断 |
plotEffects |
在线性回归模型中绘制预测因子的主要效应 |
plotInteraction |
线性回归模型中两个预测因子的交互作用 |
plotPartialDependence |
创建部分依赖图(PDP)和个别条件期望图(ICE) |
plotResiduals |
线性回归模型残差图 |
plotSlice |
通过拟合的线性回归曲面绘制切片图 |
收集 |
收集属性统计和机器学习工具箱来自GPU的对象 |
使用矩阵输入数据集拟合线性回归模型。
加载carsmall
数据集,一个矩阵输入数据集。
负载carsmallX =[重量,马力,加速度];
拟合线性回归模型fitlm
.
mdl = fitlm(X,MPG)
mdl =线性回归模型:y ~ 1 + x1 + x2 + x3估计系数:估计SE tStat pValue __________ _________ _________ __________(截距)47.977 3.8785 12.37 4.8957e-21 x1 -0.0065416 0.0011274 -5.8023 9.8742e-08 x2 -0.042943 0.024313 -1.7663 0.08078 x3 -0.011583 0.19333 -0.059913 0.95236观测数:93,误差自由度:89均方根误差:4.09 r平方:0.752,调整r平方:0.744 f统计量vs常数模型:90,p值= 7.38e-27
模型显示包括模型公式、估计系数和模型摘要统计信息。
显示中的模型公式,Y ~ 1 + x1 + x2 + x3
,对应于
.
模型显示器还显示估计的系数信息,这些信息存储在系数
财产。显示系数
财产。
mdl。系数
ans =4×4表估计SE tStat pValue __________ _________ _________ __________(拦截)47.977 3.8785 12.37 4.8957e-21 x1 -0.0065416 0.0011274 -5.8023 9.8742e-08 x2 -0.042943 0.024313 -1.7663 0.08078 x3 -0.011583 0.19333 -0.059913 0.95236
的系数
属性包括以下列:
估计
-模型中每个对应项的系数估计。例如,对常数项(拦截
)为47.977。
SE
-系数标准误差。
tStat
- - - - - -t-statistic对每个系数进行统计,以检验原假设,即对应的系数为零,而不是它不同于零的替代,给定模型中的其他预测因素。请注意,tStat =估计/SE
.例如,t-statistic for the intercept = 47.977/3.8785 = 12.37。
pValue
- - - - - -p-valuet-统计的假设检验对应的系数是否等于零。例如,p的-valuet统计的x2
大于0.05,因此该项在给定模型中其他项的5%显著性水平下不显著。
模型的汇总统计如下:
观察次数
-无的行数南
值。例如,观察次数
93,因为英里/加仑
数据向量有6个南
价值观和马力
数据向量是1南
值,其中的行数X
而且英里/加仑
是100。
误差自由度
- - - - - -n- - - - - -p,在那里n是观察数,和p是模型中的系数数,包括截距。例如,模型有四个预测器,因此误差自由度
是93 - 4 = 89。
均方根误差
-均方误差的平方根,它估计误差分布的标准偏差。
平方
而且调整后的平方
-决定系数和调整决定系数。例如,平方
Value表明,该模型解释了响应变量中大约75%的可变性英里/加仑
.
f统计量与常数模型
的测试统计量F-对回归模型进行测试,测试模型是否比仅包含常数项的退化模型拟合得更好。
假定值
- - - - - -p-valueF-测试模型。例如,该模型具有重要意义p-value of 7.3816e-27。
您可以在模型属性(NumObservations
,教育部
,RMSE
,Rsquared
)和使用方差分析
函数。
方差分析(mdl“摘要”)
ans =3×5表SumSq DF MeanSq F pValue ________ ______ ______ __________ Total 6004.8 92 65.269 Model 4516 3 1505.3 89.987 7.3816e-27 Residual 1488.8 89 16.728
使用情节
为除常量(截距)项外的整个模型创建一个附加变量图(偏回归杠杆图)。
情节(mdl)
拟合一个包含分类预测器的线性回归模型。重新排序分类预测器的类别,以控制模型中的参考水平。然后,用方差分析
检验分类变量的显著性。
模型与分类预测器
加载carsmall
并建立数据集的线性回归模型英里/加仑
作为函数Model_Year
.处理数值向量Model_Year
作为分类变量,使用“CategoricalVars”
名称-值对参数。
负载carsmallmdl = fitlm(Model_Year,MPG,“CategoricalVars”, 1“VarNames”, {“Model_Year”,“英里”})
mdl =线性回归模型:MPG ~ 1 + Model_Year估计系数:估计SE tStat pValue ________ ______ ______ __________(截距)17.69 1.0328 17.127 3.2371e-30 Model_Year_76 3.8839 1.4059 2.7625 0.0069402 Model_Year_82 14.02 1.4369 9.7571 8.2164e-16观测数:94,误差自由度:91均方根误差:5.56 r平方:0.531,调整r平方:0.521 f统计量vs常数模型:51.6,p值= 1.07e-15
显示中的模型公式,MPG ~ 1 + Model_Year
,对应于
,
在哪里
而且
值为1的指标变量是否为Model_Year
分别是76和82。的Model_Year
变量包含三个不同的值,可以使用独特的
函数。
独特的(Model_Year)
ans =3×170 76 82
fitlm
中选择最小的值Model_Year
作为参考级别(“70”
),并创建两个指示器变量
而且
.该模型只包含两个指标变量,因为如果模型包含三个指标变量(每个层次一个)和一个截距项,设计矩阵就会出现秩亏。
全指标变量模型
你可以解释的模型公式mdl
作为一个有三个指标变量而没有截距项的模型:
.
或者,您可以通过手动创建指标变量并指定模型公式来创建一个具有三个指标变量而不包含截距项的模型。
temp_Year = dummyvar(categorical(Model_Year));Model_Year_70 = temp_Year(:,1);Model_Year_76 = temp_Year(:,2);Model_Year_82 = temp_Year(:,3);tbl = table(Model_Year_70,Model_Year_76,Model_Year_82,MPG);MDL = fitlm(tbl,'MPG ~ Model_Year_70 + Model_Year_76 + Model_Year_82 - 1')
mdl =线性回归模型:MPG ~ Model_Year_70 + Model_Year_76 + Model_Year_82估计系数:估计SE tStat pValue ________ _______ ______ __________ Model_Year_70 17.69 1.0328 17.127 3.2371e-30 Model_Year_76 21.574 0.95387 22.617 4.0156e-39 Model_Year_82 31.71 0.99896 31.743 5.2234e-51观测数:94,误差自由度:91均方根误差:5.56
在模型中选择参考级别
可以通过修改类别变量中类别的顺序来选择引用级别。首先,创建一个分类变量一年
.
Year = categorical(Model_Year);
类检查类别的顺序类别
函数。
类别(年)
ans =3 x1细胞{'70'} {'76'} {'82'}
如果你使用一年
那么,作为一个预测变量fitlm
选择第一类“70”
作为参考级别。重新排序一年
通过使用reordercats
函数。
Year_reordered = reordercats(年份,{“76”,“70”,“82”});类别(Year_reordered)
ans =3 x1细胞{'76'} {'70'} {'82'}
第一类Year_reordered
是“76”
.的线性回归模型英里/加仑
作为函数Year_reordered
.
mdl2 = fitlm(Year_reordered,MPG,“VarNames”, {“Model_Year”,“英里”})
mdl2 =线性回归模型:MPG ~ 1 + Model_Year估计系数:估计SE tStat pValue ________ _______ _______ __________(截距)21.574 0.95387 22.617 4.0156e-39 Model_Year_70 -3.8839 1.4059 -2.7625 0.0069402 Model_Year_82 10.136 1.3812 7.3385 8.7634e-11观测数:94,误差自由度:91均方根误差:5.56 r平方:0.531,调整r平方:0.521 f统计量vs常数模型:51.6,p值= 1.07e-15
mdl2
使用“76”
作为参考级别,包括两个指示变量
而且
.
评估分类预测器
模型展示mdl2
包括一个p-value来检验对应的系数是否等于零。每一个p-value检查每个指示器变量。检查分类变量Model_Year
作为一组指示变量,使用方差分析
.使用“组件”
(默认)选项返回一个组件ANOVA表,其中包括模型中除了常数项之外的每个变量的ANOVA统计信息。
方差分析(mdl2“组件”)
ans =2×5表SumSq DF MeanSq F pValue ________ ______ _____ __________ Model_Year 3190.1 2 1595.1 51.56 1.0694e-15错误2815.2 91 30.936
组件方差分析表包括p的-valueModel_Year
变量,该变量小于p-指示符变量的值。
加载哈尔德
数据集,测量水泥成分对其硬化热的影响。
负载哈尔德
这个数据集包括变量成分
而且热
.矩阵成分
含有水泥中四种化学物质的百分比组成。向量热
包含每个水泥样品在180天后的热硬化值。
为数据拟合一个稳健的线性回归模型。
配料,热量,“RobustOpts”,“上”)
mdl =线性回归模型(稳健拟合):y ~ 1 + x1 + x2 + x3 + x4估计系数:估计SE tStat pValue ________ _______ ________ ________(截距)60.09 75.818 0.79256 0.4509 x1 1.5753 0.80585 1.9548 0.086346 x2 0.5322 0.78315 0.67957 0.51596 x3 0.13346 0.8166 0.16343 0.87424 x4 -0.12052 0.7672 -0.15709 0.87906观测数量:13,误差自由度:8均方根误差:2.65 r平方:0.979,调整r平方:0.969 f统计量vs常数模型:94.6, p-value = 9.003 -07
有关详细信息,请参见主题使用稳健回归减少离群值效应,将稳健拟合结果与标准最小二乘拟合结果进行比较。
加载哈尔德
数据集,测量水泥成分对其硬化热的影响。
负载哈尔德
这个数据集包括变量成分
而且热
.矩阵成分
含有水泥中四种化学物质的百分比组成。向量热
包含每个水泥样品在180天后的热硬化值。
拟合一个逐步线性回归模型的数据。指定0.06作为标准的阈值,以便向模型中添加一个术语。
MDL =逐步(配料,热量,“囚禁”, 0.06)
1.添加x4, FStat = 22.7985, pValue = 0.0005762323.添加x1, FStat = 108.2239, pValue = 1.105281e-06添加x2, FStat = 5.0259, pValue = 0.051687移除x4, FStat = 1.8633, pValue = 0.2054
mdl =线性回归模型:y ~ 1 + x1 + x2估计系数:估计SE tStat pValue ________ ________ ______ __________(截距)52.577 2.2862 22.998 5.4566e-10 x1 1.4683 0.1213 12.105 2.6922e-07 x2 0.66225 0.045855 14.442 5.029e-08观测数:13,误差自由度:10均方根误差:2.41 r平方:0.979,调整r平方:0.974 f统计量vs常数模型:230,p值= 4.41e-09
默认情况下,起始模型是一个常量模型。stepwiselm
属性的前向选择x4
,x1
,x2
Terms(按此顺序),因为对应p-values小于被关闭的
值为0.06。stepwiselm
然后使用逆向消去和移除x4
从模型中,因为,一次x2
在模型中,p价值的x4
大于默认值PRemove
0.1点。
A项矩阵T
是一个t————(p+ 1)在模型中指定项的矩阵,其中t是项的个数,p是预测变量的数量,+1表示响应变量。的价值T (i, j)
变量的指数是多少j
在术语我
.
例如,假设一个输入包含三个预测变量x1
,x2
,x3
以及响应变量y
按顺序x1
,x2
,x3
,y
.每行T
表示一项:
[0 0 0 0]
-常数项或截距
[0 1 0 0]
- - - - - -x2
;同样,X1 ^0 * x2^1 * x3^0
[1 0 10 0]
- - - - - -x1 * x3
[2 0 0 0]
- - - - - -x1 ^ 2
[0 1 2 0]
- - - - - -x2 * (x3 ^ 2)
的0
在每一项的末尾表示响应变量。通常,项矩阵中的零列向量表示响应变量的位置。如果你在一个矩阵和列向量中有预测变量和响应变量,那么你必须包含0
对于每一行的最后一列中的响应变量。
为减少高维数据集上的计算时间,可以使用fitrlinear
函数。
要正则化回归,使用fitrlinear
,套索
,脊
,或plsregress
.
fitrlinear
使用套索回归或岭回归对高维数据集的回归进行正则化。
套索
使用套索或弹性网去除线性回归中的冗余预测因子。
脊
使用岭回归将具有相关项的回归正则化。
plsregress
使用偏最小二乘正则化具有相关项的回归。
使用注意事项和限制:
以下对象函数完全支持GPU阵列:金宝app
下面的对象函数支持用GPU数组输入参数拟合的模型对象:金宝app
有关更多信息,请参见在图形处理器上运行MATLAB函数(并行计算工具箱).
你点击了一个对应于这个MATLAB命令的链接:
在MATLAB命令窗口中输入该命令来运行该命令。Web浏览器不支持MATLAB命令。金宝app
您也可以从以下列表中选择一个网站:
选择中国站点(中文或英文)以获得最佳站点性能。其他MathWorks国家站点没有针对您所在位置的访问进行优化。