拟合线性回归模型
适合使用矩阵的输入数据集的线性回归模型。
加载carsmall
数据集,一个矩阵输入数据集。
加载carsmallX =(重量、马力、加速度);
利用菲特姆
。
mdl=fitlm(X,英里/加仑)
mdl =线性回归模型:y ~ 1 + x1 + x2 + x3估计系数:估计SE tStat pValue __________替__________(拦截)e-21 x1 -0.0065416 0.0011274 -5.8023 4.8957 47.977 3.8785 12.37 9.8742 e-08 x2 -0.042943 -0.011583 0.19333 -0.059913 0.95236 0.024313 -1.7663 0.08078 x3的观测数量:93年,错误自由度:89根均方误差:4.09平方:0.752,调整平方:0.744 f统计量与常数模型:90年,假定值= 7.38 e-27
该模型显示包括模型公式,估计系数,并且模型汇总统计。
显示的模型公式,Y〜1 + X1 + X2 + X3
,对应于
。
模型显示还显示估计的系数信息,该信息存储在系数
财产。显示系数
财产。
mdl.系数
ANS =4×4桌估计SE TSTAT p值__________ _________ _________ __________(截距)47.977 3.8785 12.37 4.8957e-21 X1 -0.0065416 0.0011274 -5.8023 9.8742e-08×2 -0.042943 0.024313 -1.7663 0.08078×3 -0.011583 0.19333 -0.059913 0.95236
这个系数
财产包括这些列:
估计
-模型中每个对应项的系数估计。例如,常数项的估计(截距
)是47.977。
SE
- 系数的标准误差。
TSTAT
—t型t-统计的每个系数来测试零假设,即相应的系数是零,备择,这是不同于零,因为在模型中的其他预测。注意tStat=估算/SE
。例如,t型-截距的统计值为47.977/3.8785=12.37。
p值
—第页- 值对t型t-统计假设检验的,该相应的系数等于零或没有。例如,第页价值的t型为t-统计X2
大于0.05,所以这个词是不是在给定的模型中的其他条款的5%的显着性水平显著。
该模型的汇总统计如下:
观察数
- 行没有任何数南
值。例如,观察数
93,因为MPG
数据向量有六南
值和马力
数据向量有一个南
对于一个不同的观察,其中该在的行数的值十
和MPG
是100。
错误自由度
—n个–第页,其中n个是观测值的数量,并且第页在模型中的系数,包括截距的数量。例如,该模型有四个预测,所以错误自由度
等于93 - 4 = 89。
均方根误差
- 均方误差,其估算的误差分布的标准偏差的平方根。
R平方
和调整后的R平方
-分别为确定系数和调整后的确定系数。例如R平方
值表明模型解释的变异性的约75%在响应变量MPG
。
F统计量与常模
- 检验统计量为F型-回归模型的检验,它检验模型是否比仅由常数项组成的退化模型更适合。
p值
—第页- 值对F型- 测试的模型。例如,该模型是有显著第页-VALUE 7.3816e-27。
您可以在模型属性,这些统计(核观测
,DFE公司
,RMSE
和Rsquared
),并通过使用方差分析
功能。
方差分析(mdl,'摘要')
ANS =3×5桌SUMSQ DF MeanSq˚Fp值______ __ ______ __________总计6004.8 92 65.269型号4516 3 1505.3 89.987 7.3816e-27残1488.8 89 16.728
加载示例数据。
加载carsmall
存储在表中的变量。
TBL =表(重量,加速度,MPG,'VariableNames'{'重量','加速','英里/加仑'});
显示表的前五行。
TBL(1:5,:)
ANS =5×3表重量加速MPG ______ ____________ ___ 3504 12 18 3693 11.5 15 3436 11 18 3433 12 16 3449 10.5 17
拟合每加仑英里数(MPG)的线性回归模型。使用威尔金森符号指定模型公式。
lm = fitlm(资源描述,'MPG〜重量+加速')
LM =线性回归模型:MPG〜1个+重量+加速度估计系数:估计SE TSTAT p值__________ _______ __________(截距)45.155 3.4659 13.028 1.6266e-22重量-0.0082475 0.00059836 -13.783 5.3165e-24加速0.19694 0.14743 1.3359 0.18493数的观察结果:94,自由的误差度:91均方根误差:4.12 R平方:0.743,调整R平方:0.738 F统计与常数模型:132,p值= 1.38E-27
该模型'MPG〜重量+加速'
在本例中,等效于将模型规范设置为“线性”
。例如,
LM2 = fitlm(TBL,“线性”);
如果您使用的型号规格字符向量和你不指定响应变量,然后菲特姆
接受最后一个变量TBL
作为响应变量,其他变量作为预测变量。
适合使用由威尔金森表示法指定的模型公式的线性回归模型。
加载示例数据。
加载carsmall
存储在表中的变量。
台=表(重量、加速度、Model_Year MPG,'VariableNames'{'重量','加速','年份','英里/加仑'});
拟合线性回归模型用于与重量和加速度作为预测变量每加仑(MPG)英里。
lm = fitlm(资源描述,'MPG〜重量+加速')
LM =线性回归模型:MPG〜1个+重量+加速度估计系数:估计SE TSTAT p值__________ _______ __________(截距)45.155 3.4659 13.028 1.6266e-22重量-0.0082475 0.00059836 -13.783 5.3165e-24加速0.19694 0.14743 1.3359 0.18493数的观察结果:94,自由的误差度:91均方根误差:4.12 R平方:0.743,调整R平方:0.738 F统计与常数模型:132,p值= 1.38E-27
这个第页- 值0.18493表明,加速度
没有一个显著的影响MPG
。
去掉加速度
并尝试通过添加预测变量来改进模型车型年份
。首先定义车型年份
作为分类变量。
tbl.Model_Year =分类(tbl.Model_Year);lm = fitlm(资源描述,'MPG〜重量+ Model_Year')
LM =线性回归模型:MPG〜1个+重量+ Model_Year估计系数:估计SE TSTAT p值__________ _______ __________(截距)40.11 1.5418 26.016 1.2024e-43重量-0.0066475 0.00042802 -15.531 3.3639e-27 Model_Year_76 1.9291 0.74761 2.5804 0.011488 Model_Year_827.9093 0.84975 9.3078 7.8681e-15编号的观察:94,错误自由度:90均方根误差:2.92 R平方:0.873,调整R平方:0.868 F统计与常数模型:206,p值= 3.83e-40
指定modelspec
使用威尔金森符号使您无需更改设计矩阵更新模型。菲特姆
只使用公式中指定的变量。它还为分类变量创建了两个必需的伪指标变量车型年份
。
使用项矩阵拟合线性回归模型。
表输入项矩阵
如果模型变量在表中,则0个
S IN一个方面矩阵表示响应变量的位置。
加载医院
数据集。
加载医院
存储在表中的变量。
t=表(医院、性别、医院、血压(:,1)、医院、年龄、医院、吸烟者,...'VariableNames'{'性别','血压','年龄',“吸烟者”});
代表线性模型'血压〜1 +性别+年龄+吸烟者'
使用术语矩阵。响应变量是在该表的第二列中,所以术语矩阵的第二列必须是柱0个
s表示响应变量。
T=[0 0 0 0;1 0 0 0 0;0 0 1 0;0 0 0 1]
T =4×40 0 0 0 1 0 0 0 0 0 1 0 0 0 0 1
拟合线性模型。
mdl1=fitlm(t,t)
mdl1 =线性回归模型:血压〜1个+性别+年龄+吸烟者估计系数:估计SE TSTAT p值________ ________ __________(截距)116.14 2.6107 44.485 7.1287e-66 Sex_Male 0.050106 0.98364 0.050939 0.95948 0.085276年龄0.066945 1.2738 0.2058 Smoker_1 9.87 1.0346 9.53951.4516e-15编号的观察:100,错误自由度:96均方根误差:4.78 R平方:0.507,调整R平方:0.492 F统计与常数模型:33,p值= 9.91e-15
条款矩阵的矩阵输入
如果预测和响应变量在矩阵和列向量,则必须包括0个
对于术语矩阵中每行末尾的响应变量。
加载carsmall
数据集,并定义预测器的矩阵。
加载carsmallX=[加速度,重量];
指定模型'MPG ~加速度+重量+加速度:重量+重量^2'
使用术语矩阵。该模型包括了变量的主要作用和双向互动方面加速度
和重量
和用于可变的第二阶项重量
。
T=[0 0 0;1 0 0;0 1 0;1 1 0;0 2 0]
T =5×30 0 0 1 0 0 0 1 0 1 1 0 0 2 0
拟合线性模型。
MDL2 = fitlm(X,MPG,T)
MDL2 =线性回归模型为:y〜1 + X1 * X2 + X2 ^ 2个估计系数:估计SE TSTAT p值___________ __________ _______ __________(截距)48.906 12.589 3.8847 0.00019665 X1 0.54418 0.57125 0.95261 0.34337 X2 -0.012781 0.0060312 -2.1192 0.036857 X1:X2-0.00010892 0.00017925 -0.6076 0.545×2 ^ 2 9.7518e-07 7.5389e-07 1.2935 0.19917若干意见:94,错误自由度:89均方根误差:4.1 R平方:0.751,调整R平方:0.739˚Ft-统计与常数模型:67,p-值= 4.99e-26
只有拦截和X2
术语,其对应于重量
变量,都在5%的显着性水平显著。
适合线性回归模型,其中包含一个分类预测。重新排序分类预测的类别,以控制模型中的参考电平。然后,使用方差分析
测试分类变量的意义。
与分类预测模型
加载carsmall
并建立了数据集的线性回归模型MPG
作为一个功能车型年份
。对待数字矢量车型年份
作为分类变量,识别使用所述预测“分类法”
名称-值对参数。
加载carsmallMDL = fitlm(Model_Year,MPG,“分类法”1,'VarNames'{'年份','英里/加仑'})
mdl =线性回归模型:MPG ~ 1 + Model_Year估计系数:估计SE tStat pValue ________交__________(拦截)17.69 1.0328 17.127 3.2371 e-30 Model_Year_76 Model_Year_82 0.0069402 3.8839 1.4059 2.7625 14.02 1.4369 9.7571 8.2164 e-16数量的观察:94年,错误自由度:91根均方误差:5.56平方:0.531,调整平方:0.521 f统计量与常数模型:51.6,p = 1.07 e15汽油
显示的模型公式,MPG~1+车型年
,对应于
,
哪里
和
是指示变量,其值是如果一个的值车型年份
是分别为76和82。这个车型年份
变量包括三个不同的值,则可以通过使用该检查独特
功能。
唯一的(Model_Year)
ans =3×170 76 82
菲特姆
选择在最小值车型年份
作为参考电平('70'
)并创建两个指示变量
和
。该模型仅包括两个指针变量,因为设计矩阵变成如果模型包括三个指示器变量秩亏(每个电平)和截距项。
与全指标变量模型
你可以解释MDL
作为具有无截距项三个指示变量模型:
。
可替换地,可以创建具有三个指示器变量,而无需通过手动创建指示变量并指定模型式的截距项的模型。
temp_Year = dummyvar(分类(Model_Year));Model_Year_70 = temp_Year(:,1);Model_Year_76 = temp_Year(:,2);Model_Year_82 = temp_Year(:,3);TBL =表(Model_Year_70,Model_Year_76,Model_Year_82,MPG);MDL = fitlm(TBL,'MPG〜Model_Year_70 + Model_Year_76 + Model_Year_82 - 1')
MDL =线性回归模型:MPG〜Model_Year_70 + Model_Year_76 + Model_Year_82估计系数:估计SE TSTAT p值________ _______ ______ __________ Model_Year_70 17.69 1.0328 17.127 3.2371e-30 Model_Year_76 21.574 0.95387 22.617 4.0156e-39 Model_Year_82 31.71 0.99896 31.743 5.2234e-51的数观察:94,错误自由度:91均方根误差:5.56
选择在模型参考电平
您可以通过在分类变量修改类别的顺序选择的参考电平。首先,创建一个分类变量年
。
年份=分类(Model_Year);
使用类别
功能。
类别(年)
ans =3X1细胞{'70'}{'76'}{'82'}
如果您使用年
作为预测变量,然后菲特姆
选择第一类'70'
作为参考电平。重新排序年
通过使用reordercats
功能。
Year_reordered = reordercats(年,{'76','70','82'});类别(Year_reordered)
ans =3X1细胞{ '76'} { '70'} { '82'}
第一类重新排序年份
是'76'
。建立一个线性回归模型MPG
作为一个功能重新排序年份
。
MDL2 = fitlm(Year_reordered,MPG,'VarNames'{'年份','英里/加仑'})
MDL2 =线性回归模型:MPG〜1个+ Model_Year估计系数:估计SE TSTAT p值________ _______ __________(截距)21.574 0.95387 22.617观测4.0156e-39 Model_Year_70 -3.8839 1.4059 -2.7625 0.0069402 Model_Year_82 10.136 1.3812 7.3385 8.7634e-11号:94,错误自由度:91均方根误差:5.56 R平方:0.531,调整R平方:0.521 F统计与常数模型:51.6,p值= 1.07E-15
mdl2
使用'76'
作为参考水平,包括两个指标变量
和
。
评估分类预测
模型显示mdl2
包括第页-每个项的值,以测试相应的系数是否等于零。每个第页- 值检查每个指示器变量。为了检验分类变量车型年份
为一组指示变量的,使用方差分析
。使用'组件'
(默认)选项,返回一个部件ANOVA表,其包括用于在除了所述常数项的模型中的每个变量ANOVA统计。
方差分析(MDL2,'组件')
ANS =2×5表SUMSQ DF MeanSq˚Fp值______ __ ______ _____ __________ Model_Year 3190.1 2 1595.1 51.56 1.0694e-15错误2815.2 91 30.936
组件ANOVA表包括第页价值的车型年份
变量,它小于第页指示器变量 - 值。
适合的线性回归模型来采样数据。指定响应和预测变量,并在模型中包含只对相互作用方面。
加载样本数据。
加载医院
适合与交互项于该数据的线性模型。指定重量为应变量,与性别,年龄和吸烟状况的预测变量。此外,指定性别和吸烟状况是分类变量。
MDL = fitlm(医院,“互动”,'ResponseVar','重量',...'预测值'{'性别','年龄',“吸烟者”},...'CategoricalVar'{'性别',“吸烟者”})
.31068 0.18531 1.6765 0.096991吸烟者1 3.0425 10.446 0.29127 0.77149性别男性:年龄-0.490940.24764-1.9825 0.050377性别:男性:吸烟者1 0.9509 3.8031 0.250003 0.80312年龄:吸烟者1-0.07288 0.26275-0.27737 0.78211观察次数:100,自由度误差:93均方根误差:8.75 R平方:0.898,校正R平方:0.892 F统计与常数模型:137,p值=6.91e-44
患者的体重似乎并没有按照年龄,或吸烟的状态,或者这些因素与患者性别互动在5%的显着性水平显著不同。
加载哈尔德
数据集,用于测量水泥成分对其硬化热的影响。
加载哈尔德
此数据集包括的变量配料
和热
。矩阵配料
包含存在于水泥四种化学品的百分数组合物。矢量热
包含每个水泥样品180天后的热硬化值。
适合稳健线性回归模型的数据。
MDL = fitlm(成分,热,“RobustOpts”,'打开')
7 0.51596 x3 0.13346 0.8166 0.16343 0.87424 x4-0.12052 0.7672-0.15709 0.87906个观测值:13,误差自由度:8均方根误差:2.65 R平方:0.979,调整后R平方:0.969 F统计与常数模型:94.6,p值=9.03e-07
有关详细信息,请参阅稳健回归 - 减少离群影响,其稳健拟合的结果进行比较,以一个标准的最小二乘方拟合。
TBL
—输入数据输入数据包括预测和响应的变量,指定为表或数据集阵列。预测变量可以是数字,逻辑,分类,字符或字符串。响应变量必须是数字的或逻辑的。
默认,菲特姆
取最后一个变量为应变量,其他的预测变量。
若要将其他列设置为响应变量,请使用ResponseVar
名称-值对参数。
若要使用列的子集作为预测值,请使用PredictorVars
名称-值对参数。
若要定义模型规范,请设置modelspec
使用公式或术语矩阵的参数。公式或术语矩阵指定要用作预测或响应变量的列。
表中的变量名不必是有效的MATLAB®身份标识。但是,如果名称无效,则不能在拟合或调整模型时使用公式;例如:
您不能指定modelspec
使用公式。
你不能用一个公式来指定的条款中添加或当您使用删除附加条款
功能或removeTerms
功能,分别。
当使用步
要么stepwiselm
用名称 - 值对的参数函数'降低'
和'上部'
,分别是。
您可以验证的变量名中TBL
通过使用isvarname
功能。下面的代码返回的逻辑1个
(真正
)对于具有合法的变量名每个变量。
cellfun(@ isvarname,tbl.Properties.VariableNames)
TBL
是无效的,然后使用它们转换matlab.lang.makeValidName
功能。tbl.Properties.VariableNames=matlab.lang.makeValidName(tbl.Properties.VariableNames);
十
—预测变量预测变量,指定为n个-通过-第页矩阵,其中n个是观测值和第页是预测变量的数目。的每一列十
表示一个变量,每一行表示一个观察值。
默认情况下,在模型中的常数项,除非你明确地将其删除,所以不包括1S在列十
。
数据类型:单
|双
是的
—反应变量响应变量,指定为n个1的向量,n个是观察的次数。每次进入是的
对应行的响应是十
。
数据类型:单
|双
|符合逻辑的
modelspec
—型号规格“线性”
(默认)|字符向量或标量字符串命名模型|t型-通过-(第页+ 1)项矩阵|格式中的字符向量或字符串标量公式'Y〜术语'
模型规格指定为这些值中的一个。
命名模型的字符向量或字符串标量。
值 | 型号类型 |
---|---|
'不变' |
模型仅包含一个常数(截距)术语。 |
“线性” |
模型包含一个截距和线性项。 |
“互动” |
模型包含的截距,对于每个预测线性项,以及对不同的预测结果的所有产品(没有平方项)。下载188bet金宝搏 |
“纯二次型” |
模型包含每个预测器的截距项和线性和平方项。 |
“二次” |
模型包含一个截距项,线性和对每个预测平方项,以及对不同的预测器的所有产品。下载188bet金宝搏 |
“聚 |
模型是多项式所有条款高达程度我 在第一预测,学位j型 在第二个预测,依此类推。通过使用数字0虽然9.模型包含交互项指定每个预测器的最大的程度,但每个交互项的次数不超过规定的程度的最大值。例如,'poly13' 截获并十1个,十2个,十2个2个,十2个三,十1个*十2个和十1个*十2个2个项,其中十1个和十2个分别是第一个和第二个预测因子。 |
一个t型-通过-(第页+ 1)矩阵,或矩阵条款,指定模型中的术语,其中t型是项数和第页是预测变量的1个占响应变量的数量,并且。一个方面矩阵是方便时预测的数量大,并且要以编程方式生成的条件。
表示式在形式上
'Y〜术语'
,
其中条款
在威尔金森表示法。公式中的变量名称必须是合法的MATLAB标识符。
例:“二次”
例:'Y〜X1 + X2 ^ 2 + X1:X2'
数据类型:单
|双
|烧焦
|串
指定可选的逗号分隔对名称,值
参数。名称
是参数的名称和值
是对应的值。名称
必须出现引号内。您可以按照任何顺序指定多个名称和值对参数名1,值1,...,NameN,值N
。
'截取',假, 'PredictorVars',[1,3], 'ResponseVar',5 'RobustOpts', '物流'
指定一个稳定回归模型没有常数项,其中,所述算法使用逻辑加权函数与默认调谐常数,第一和第三变量是预测值变量和第五变量是响应变量。
“分类法”
—分类变量列表分类变量列表中,指定为逗号分隔的一对组成的“分类法”
以及包含表或数据集数组中的分类变量名的字符向量的字符串数组或单元数组TBL
指示哪些列分类,或逻辑或数字索引向量。
如果数据在表或数据集数组中TBL
,那么,在默认情况下,菲特姆
处理所有分类值,逻辑值,字符数组,字符串数组,和字符向量作为分类变量的单元阵列。
如果数据是在矩阵十
的默认值“分类法”
是一个空的矩阵[]
。也就是说,除非你将其指定为绝对没有变量是分类。
例如,可以使用以下任一示例将6个观察值中的2个和3个指定为分类。
例:“分类法”,[2,3]
例:'CategoricalVars',逻辑([0 1 1 0 0 0])
数据类型:单
|双
|符合逻辑的
|串
|细胞
'排除'
—观察排除要从拟合中排除的观测值,指定为逗号分隔对,由'排除'
和一个逻辑或数字索引向量指示从拟合排除的观测。
例如,可以排除观察图2和3的6使用以下实施例任一。
例:'排除',[2,3]
例:“排除”,逻辑([0 1 1 0 0 0])
数据类型:单
|双
|符合逻辑的
“拦截”
—指示器常数项真正
(默认)|假
指标为常数项(截距)在拟合中,指定为逗号分隔对组成“拦截”
,要么真正
包括或假
除去从模型常数项。
采用“拦截”
仅当使用字符向量或字符串标量(而不是公式或矩阵)指定模型时。
例:“拦截”,假
'预测值'
—预测变量预测变量在配合使用,指定为逗号分隔的一对组成的'预测值'
以及表或数据集数组中变量名的字符串数组或字符向量的单元格数组TBL
,或指示哪些列是预测变量的逻辑或数值索引向量。
该字符串值或特征向量,应在名称中TBL
或名称指定使用'VarNames'
名称-值对参数。
默认值是所有变量十
或所有变量TBL
除了ResponseVar
。
例如,可以指定第二和第三变量如使用以下实施例任一个预测变量。
例:'PredictorVars',[2,3]
例:“预测变量”,逻辑([0 1 1 0 0 0])
数据类型:单
|双
|符合逻辑的
|串
|细胞
'ResponseVar'
—反应变量TBL
(默认)|含有可变量名字符向量或标量串|逻辑或数字索引向量要在fit中使用的响应变量,指定为逗号分隔对,由'ResponseVar'
在表或数据集数组中包含变量名的字符向量或字符串标量TBL
或表示哪一列的逻辑或数字索引向量是响应变量。您通常需要使用'ResponseVar'
当拟合表或数据集数组时TBL
。
例如,您可以指定第四个变量,说收益率
作为响应了6个变量,通过以下方式之一。
例:'ResponseVar', '产量'
例:“响应者”,[4]
例:“ResponseVar”,逻辑([0 0 0 1 0 0])
数据类型:单
|双
|符合逻辑的
|烧焦
|串
“RobustOpts”
—强大的配件类型指标“关”
(默认)|'打开'
|特征向量|串标|结构体要使用的鲁棒拟合类型的指示符,指定为由逗号分隔的对组成“RobustOpts”
这些值中的一个。
“关”
- 没有强大的配件。菲特姆
使用普通最小二乘法。
'打开'
- 使用强大的配件'bisquare'
用默认的调谐常数权重函数。
字符向量或标量串 - 从下面的表中的稳健拟合重量函数的名称。菲特姆
使用在表中指定的对应的默认调谐常数。
与这两个领域结构RobustWgtFun
和调子
。
这个RobustWgtFun
字段包含来自下表的健壮拟合权值函数的名称或自定义权值函数的函数句柄。
这个调子
字段包含一个调谐常数。如果您没有设置调子
领域,菲特姆
使用相应的默认调谐常数。
权函数 | 描述 | 默认调优常数 |
---|---|---|
“安卓” |
W =(ABS(R) |
1.339条 |
'bisquare' |
W =(ABS(R)<1)*(1 - R ^ 2)^ 2。 (也称为双重) |
4.685 |
“柯西” |
W = 1 ./(1个+ R ^ 2) |
2.385条 |
'公平' |
W = 1 ./(1个+ ABS(R))的 |
1.400 |
'HUBER' |
W = 1 ./ MAX(1,ABS(R))的 |
1.345 |
'物流' |
w=tanh(r)。/r |
1.205个 |
“醇” |
普通最小二乘(无权函数) | 没有 |
“塔瓦尔” |
W = 1 *(绝对(R)<1) |
2.795 |
“韦尔施” |
W = EXP( - (R ^ 2)) |
2.985 |
函数句柄 | 接受的载体的自定义权重函数右 缩放的残差,并返回权重的大小相同的向量的右 |
1个 |
内置权重函数的默认调优常数给出的系数估计大约是普通最小二乘估计的95%,前提是响应具有正态分布,且没有异常值。调优常数越小,分配给较大残差的下重量越大;增加调优常数可以减少分配给较大残差的下重量。
价值右在权重函数是
R =渣油/(调* S * SQRT(1-H))
,
哪里剩余油
是残差从先前迭代的载体,调
是调谐常数,小时
是来自最小二乘拟合的杠杆值向量,以及s公司
是由下式给出的误差项的标准偏差的估计值
S = MAD / 0.6745
。
疯了
从他们的中位数残差的平均绝对偏差。恒0.6745使得无偏的正态分布的估计。如果十
已第页列,该软件不包括最小第页计算中位数时,绝对偏差。
对于稳健的配件,菲特姆
使用M-估计配制使用该方法的迭代重加权最小二乘法(IRLS)估计方程,并解决它们。
例:“RobustOpts”,“安德鲁斯”
'VarNames'
—变量名称{ 'X1', 'X2',......, 'XN', 'Y'}
(默认)|字符串数组|字符向量的单元阵列的变量的名称,指定为逗号分隔的一对组成的'VarNames'
和字符向量的字符串数组或单元数组,包括的列的名称十
第一,和用于响应变量名称是的
持续。
'VarNames'
并不适用于表或数据集数组变量,因为这些变量已经有了名字。
变量名不必是有效的MATLAB标识符。但是,如果名称无效,则不能在拟合或调整模型时使用公式;例如:
你不能用一个公式来指定的条款中添加或当您使用删除附加条款
功能或removeTerms
功能,分别。
当使用步
要么stepwiselm
用名称 - 值对的参数函数'降低'
和'上部'
,分别是。
前指定“变量名”,变量名
,你可以验证变量名中变量名
通过使用isvarname
功能。下面的代码返回的逻辑1个
(真正
)对于具有合法的变量名每个变量。
cellfun(@ isvarname,varNames)
变量名
是无效的,然后使用它们转换matlab.lang.makeValidName
功能。varNames = matlab.lang.makeValidName(varNames);
例:'VarNames',{ '马力', '加速', 'Model_Year', 'MPG'}
数据类型:串
|细胞
'权重'
—观察权重一个(n,1)
(默认)|n个-by-1的非负标量值的矢量观察权重,指定为逗号分隔对,由'权重'
和n个-非负标量值的by-1向量,其中n个是观测值的数量。
数据类型:单
|双
一个方面矩阵T型
是t型-通过-(第页+1)在模型中指定术语的矩阵,其中t型是术语的数目,第页是预测变量的1个占响应变量的数量,并且。的价值T(I,J)
是变量的指数j型
在长期我
。
例如,假设输入包括三个预测变量一个
,乙
和C类
以及响应变量是的
按顺序一个
,乙
,C类
和是的
。每行T型
代表一个术语:
[0 0 0 0]
-常数项或截距
[0 1 0 0]
—乙
;等价地,甲^ 0 * B ^ 1 * C ^ 0
[1 0 1 0]
—* C
[2 0 0 0]
—A ^ 2
[0 1 2 0]
—B *(C ^ 2)
这个0个
在每个术语的末尾表示响应变量。一般情况下,terms矩阵中的零列向量表示响应变量的位置。如果在矩阵和列向量中有预测器和响应变量,则必须包括0个
在每行的最后一列的响应变量。
模型规范的公式是该形式的字符向量或字符串标量'
。是的
~条款
'
是的
是响应名称。
条款
表示使用威尔金森符号在模型预测方面。
例如:
'Y〜A + B + C'
指定与截距的三变量线性模型。
'Y〜A + B + C - 1'
指定不带截距的三变量线性模型。请注意,默认情况下,公式包含常量(截距)项。要从模型中排除常量项,必须包括-1
在公式。
威尔金森符号描述了模型中的术语。符号与模型中的术语有关,而与这些术语的乘数(系数)无关。
威尔金森表示法使用这些符号:
+
意味着包含下一个变量。
–
手段不包括下一个变量。
:
定义交互,交互是术语的产物。
*
定义了一个相互作用和所有较低阶项。
^
提高了预测的功率,完全按照*
重复,所以^
包括低级次项为好。
()
团体方面。
该表显示威尔金森表示法的典型例子。
威尔金森表示法 | 术语标准符号 |
---|---|
1个 |
常数(截距)项 |
一个-1K- ,其中千 是正整数 |
一个 ,一个2个 ,...,一个千 |
A + B |
一个 ,乙 |
A * B |
一个 ,乙 ,A * B |
A:B |
A * B 只要 |
-B |
不包括乙 |
A * B + C |
一个 ,乙 ,C类 ,A * B |
A + B + C + A:B |
一个 ,乙 ,C类 ,A * B |
A * B * C - A:B:C |
一个 ,乙 ,C类 ,A * B ,* C ,公元前 |
A *(B + C) |
一个 ,乙 ,C类 ,A * B ,* C |
统计与机器学习工具箱™ 除非使用-1
。
有关详细信息,请参阅威尔金森表示法。
主要拟合算法是QR分解。对于稳健的配件,菲特姆
使用M-估计配制使用该方法的迭代重加权最小二乘法(IRLS)估计方程,并解决它们。
菲特姆
对待一个分类预测如下:
一个具有分类预测因子的模型一水平(类别)包括一- 1指标变量。该模型使用第一类作为参考电平,所以它不包括用于参考电平指示变量。如果分类预测的数据类型明确的
,然后可以使用类别
并通过使用reordercats
自定义引用级别。
菲特姆
对待一群一- 1指示器变量作为单一变量。如果你想治疗的指标变量作为不同的预测变量,通过使用手动创建指标变量杜米瓦尔
. 然后,当您适合模型时,使用指标变量,除了对应于分类变量的引用级别的变量。对于分类预测十
如果您指定的所有列dummyvar (X)
而截距项作为预测项,则设计矩阵存在秩亏。
连续预测与分类预测的交互项一水平由的元素之积的一- 1指标变量与连续预测。
有两个分类预测变量之间的相互作用方面一和米水平由的(一–1个)*(米- 1)指标变量,包括两个分类预测级别的所有可能的组合。
你不能为分类预测指定高阶项,因为指标的平方等于本身。
菲特姆
考虑南
,“”
(空字符向量),""
(空字符串),<缺失>
和<定义>
价值观TBL
,十
和是的
缺少值。菲特姆
不使用拟合中缺少值的观测值。这个ObservationInfo
一个拟合模型的属性指示是否菲特姆
使用在配合每个观测。
为了减少高维数据集的计算时间,请使用fitrlinear
功能。
要调整回归,请使用fitrlinear
,套索
,脊
, 要么plsregress
。
fitrlinear
规则化使用套索或岭回归高维数据集的回归。
套索
除去使用套索或弹性网中线性回归冗余预测因子。
脊
规则化使用岭回归相关方面回归。
plsregress
规则化,使用偏最小二乘相关项的回归。
[1] DuMouchel,W.H。,和F. L.奥布莱恩。“集成稳健选项进入多元回归计算环境。”计算机科学和统计学:第21届界面研讨会纪要。亚历山大,VA:美国统计协会,1989年。
[2]荷兰,P. W.,和R. E.韦尔施。“稳健回归使用迭代重加权最小二乘法。”统计学中的传播学:理论与方法,A6型, 1977年,第813-827页。
[3]胡伯,P. J.稳健统计。新泽西州霍博肯市:John Wiley和Sons公司,1981。
[4] 街,J.O.,R.J.Carroll和D.Ruppert。“关于通过迭代加权最小二乘法计算稳健回归估计的注记。”美国统计学家。第42卷,1988年,第152-154页。
此函数支持内存不足数据的高数金宝app组,但有一些限制。
如果任何输入参数菲特姆
是一个高大阵列的所有其它输入,则必须是高的阵列,以及。这包括与所提供的非空变量'权重'
和'排除'
名称 - 值对。
这个“RobustOpts”
高数组不支持名称-值对。金宝app
对于高大的数据,菲特姆
返回CompactLinearModel
对象,该对象包含与线性模型
对象。主要的区别是,该紧凑目的是内存需求很敏感。紧凑的对象不包括属性包括该数据,或包括相同大小的数据的数组。紧凑的对象不包含这些线性模型
属性:
诊断
合身
ObservationInfo
ObservationNames
残差
脚步
变量
您可以直接计算残差从紧凑的对象返回由LM = fitlm(X,Y)
运用
RES = Y - 预测(LM,X);S = LM.RMSE;直方图(RES,linspace(-3 * S,3 * S,51))
如果CompactLinearModel
对象丢失低阶项包括分类因子:
这个情节效果
和绘图交互
不支持的方法。金宝app
这个方差分析
方法与'组件'
不支持选项。金宝app
欲了解更多信息,请参阅对于超出的内存数据高大数组(MATLAB)。
您单击了与此MATLAB命令对应的链接:
在MATLAB命令窗口中输入它运行的命令。Web浏览器不支持MATLAB的命令。金宝app
你也可以从以下列表中选择一个网站:
选择中国网站(中文或英文)以获得最佳网站性能。其他MathWorks国家/地区网站未针对您所在位置的访问进行优化。