菲特姆

拟合线性回归模型

描述

例子

MDL= fitlm(TBL)返回适合表或数据集数组中变量的线性回归模型TBL。默认,菲特姆将最后一个变量作为响应变量。

例子

MDL= fitlm(,是的)返回响应的线性回归模型是的,装配到数据矩阵

例子

MDL= fitlm(___,modelspec)使用前面语法中的任何输入参数组合来定义模型规范。

例子

MDL= fitlm(___,名称,值)指定使用额外的一个或多个选项的名称 - 值对的参数。例如,您可以指定哪些变量是分类,进行稳健回归,或者使用观察权重。

例子

全部收缩

适合使用矩阵的输入数据集的线性回归模型。

加载carsmall数据集,一个矩阵输入数据集。

加载carsmallX =(重量、马力、加速度);

利用菲特姆

mdl=fitlm(X,英里/加仑)
mdl =线性回归模型:y ~ 1 + x1 + x2 + x3估计系数:估计SE tStat pValue __________替__________(拦截)e-21 x1 -0.0065416 0.0011274 -5.8023 4.8957 47.977 3.8785 12.37 9.8742 e-08 x2 -0.042943 -0.011583 0.19333 -0.059913 0.95236 0.024313 -1.7663 0.08078 x3的观测数量:93年,错误自由度:89根均方误差:4.09平方:0.752,调整平方:0.744 f统计量与常数模型:90年,假定值= 7.38 e-27

该模型显示包括模型公式,估计系数,并且模型汇总统计。

显示的模型公式,Y〜1 + X1 + X2 + X3,对应于 是的 = β 0个 + β 1个 1个 + β 2个 2个 + β + ϵ

模型显示还显示估计的系数信息,该信息存储在系数财产。显示系数财产。

mdl.系数
ANS =4×4桌估计SE TSTAT p值__________ _________ _________ __________(截距)47.977 3.8785 12.37 4.8957e-21 X1 -0.0065416 0.0011274 -5.8023 9.8742e-08×2 -0.042943 0.024313 -1.7663 0.08078×3 -0.011583 0.19333 -0.059913 0.95236

这个系数财产包括这些列:

  • 估计-模型中每个对应项的系数估计。例如,常数项的估计(截距)是47.977。

  • SE- 系数的标准误差。

  • TSTATt型t-统计的每个系数来测试零假设,即相应的系数是零,备择,这是不同于零,因为在模型中的其他预测。注意tStat=估算/SE。例如,t型-截距的统计值为47.977/3.8785=12.37。

  • p值第页- 值对t型t-统计假设检验的,该相应的系数等于零或没有。例如,第页价值的t型为t-统计X2大于0.05,所以这个词是不是在给定的模型中的其他条款的5%的显着性水平显著。

该模型的汇总统计如下:

  • 观察数- 行没有任何数值。例如,观察数93,因为MPG数据向量有六值和马力数据向量有一个对于一个不同的观察,其中该在的行数的值MPG是100。

  • 错误自由度n个第页,其中n个是观测值的数量,并且第页在模型中的系数,包括截距的数量。例如,该模型有四个预测,所以错误自由度等于93 - 4 = 89。

  • 均方根误差- 均方误差,其估算的误差分布的标准偏差的平方根。

  • R平方调整后的R平方-分别为确定系数和调整后的确定系数。例如R平方值表明模型解释的变异性的约75%在响应变量MPG

  • F统计量与常模- 检验统计量为F型-回归模型的检验,它检验模型是否比仅由常数项组成的退化模型更适合。

  • p值第页- 值对F型- 测试的模型。例如,该模型是有显著第页-VALUE 7.3816e-27。

您可以在模型属性,这些统计(核观测,DFE公司,RMSERsquared),并通过使用方差分析功能。

方差分析(mdl,'摘要')
ANS =3×5桌SUMSQ DF MeanSq˚Fp值______ __ ______ __________总计6004.8 92 65.269型号4516 3 1505.3 89.987 7.3816e-27残1488.8 89 16.728

加载示例数据。

加载carsmall

存储在表中的变量。

TBL =表(重量,加速度,MPG,'VariableNames'{'重量','加速','英里/加仑'});

显示表的前五行。

TBL(1:5,:)
ANS =5×3表重量加速MPG ______ ____________ ___ 3504 12 18 3693 11.5 15 3436 11 18 3433 12 16 3449 10.5 17

拟合每加仑英里数(MPG)的线性回归模型。使用威尔金森符号指定模型公式。

lm = fitlm(资源描述,'MPG〜重量+加速')
LM =线性回归模型:MPG〜1个+重量+加速度估计系数:估计SE TSTAT p值__________ _______ __________(截距)45.155 3.4659 13.028 1.6266e-22重量-0.0082475 0.00059836 -13.783 5.3165e-24加速0.19694 0.14743 1.3359 0.18493数的观察结果:94,自由的误差度:91均方根误差:4.12 R平方:0.743,调整R平方:0.738 F统计与常数模型:132,p值= 1.38E-27

该模型'MPG〜重量+加速'在本例中,等效于将模型规范设置为“线性”。例如,

LM2 = fitlm(TBL,“线性”);

如果您使用的型号规格字符向量和你不指定响应变量,然后菲特姆接受最后一个变量TBL作为响应变量,其他变量作为预测变量。

适合使用由威尔金森表示法指定的模型公式的线性回归模型。

加载示例数据。

加载carsmall

存储在表中的变量。

台=表(重量、加速度、Model_Year MPG,'VariableNames'{'重量','加速','年份','英里/加仑'});

拟合线性回归模型用于与重量和加速度作为预测变量每加仑(MPG)英里。

lm = fitlm(资源描述,'MPG〜重量+加速')
LM =线性回归模型:MPG〜1个+重量+加速度估计系数:估计SE TSTAT p值__________ _______ __________(截距)45.155 3.4659 13.028 1.6266e-22重量-0.0082475 0.00059836 -13.783 5.3165e-24加速0.19694 0.14743 1.3359 0.18493数的观察结果:94,自由的误差度:91均方根误差:4.12 R平方:0.743,调整R平方:0.738 F统计与常数模型:132,p值= 1.38E-27

这个第页- 值0.18493表明,加速度没有一个显著的影响MPG

去掉加速度并尝试通过添加预测变量来改进模型车型年份。首先定义车型年份作为分类变量。

tbl.Model_Year =分类(tbl.Model_Year);lm = fitlm(资源描述,'MPG〜重量+ Model_Year')
LM =线性回归模型:MPG〜1个+重量+ Model_Year估计系数:估计SE TSTAT p值__________ _______ __________(截距)40.11 1.5418 26.016 1.2024e-43重量-0.0066475 0.00042802 -15.531 3.3639e-27 Model_Year_76 1.9291 0.74761 2.5804 0.011488 Model_Year_827.9093 0.84975 9.3078 7.8681e-15编号的观察:94,错误自由度:90均方根误差:2.92 R平方:0.873,调整R平方:0.868 F统计与常数模型:206,p值= 3.83e-40

指定modelspec使用威尔金森符号使您无需更改设计矩阵更新模型。菲特姆只使用公式中指定的变量。它还为分类变量创建了两个必需的伪指标变量车型年份

使用项矩阵拟合线性回归模型。

表输入项矩阵

如果模型变量在表中,则0个S IN一个方面矩阵表示响应变量的位置。

加载医院数据集。

加载医院

存储在表中的变量。

t=表(医院、性别、医院、血压(:,1)、医院、年龄、医院、吸烟者,...'VariableNames'{'性别','血压','年龄',“吸烟者”});

代表线性模型'血压〜1 +性别+年龄+吸烟者'使用术语矩阵。响应变量是在该表的第二列中,所以术语矩阵的第二列必须是柱0个s表示响应变量。

T=[0 0 0 0;1 0 0 0 0;0 0 1 0;0 0 0 1]
T =4×40 0 0 0 1 0 0 0 0 0 1 0 0 0 0 1

拟合线性模型。

mdl1=fitlm(t,t)
mdl1 =线性回归模型:血压〜1个+性别+年龄+吸烟者估计系数:估计SE TSTAT p值________ ________ __________(截距)116.14 2.6107 44.485 7.1287e-66 Sex_Male 0.050106 0.98364 0.050939 0.95948 0.085276年龄0.066945 1.2738 0.2058 Smoker_1 9.87 1.0346 9.53951.4516e-15编号的观察:100,错误自由度:96均方根误差:4.78 R平方:0.507,调整R平方:0.492 F统计与常数模型:33,p值= 9.91e-15

条款矩阵的矩阵输入

如果预测和响应变量在矩阵和列向量,则必须包括0个对于术语矩阵中每行末尾的响应变量。

加载carsmall数据集,并定义预测器的矩阵。

加载carsmallX=[加速度,重量];

指定模型'MPG ~加速度+重量+加速度:重量+重量^2'使用术语矩阵。该模型包括了变量的主要作用和双向互动方面加速度重量和用于可变的第二阶项重量

T=[0 0 0;1 0 0;0 1 0;1 1 0;0 2 0]
T =5×30 0 0 1 0 0 0 1 0 1 1 0 0 2 0

拟合线性模型。

MDL2 = fitlm(X,MPG,T)
MDL2 =线性回归模型为:y〜1 + X1 * X2 + X2 ^ 2个估计系数:估计SE TSTAT p值___________ __________ _______ __________(截距)48.906 12.589 3.8847 0.00019665 X1 0.54418 0.57125 0.95261 0.34337 X2 -0.012781 0.0060312 -2.1192 0.036857 X1:X2-0.00010892 0.00017925 -0.6076 0.545×2 ^ 2 9.7518e-07 7.5389e-07 1.2935 0.19917若干意见:94,错误自由度:89均方根误差:4.1 R平方:0.751,调整R平方:0.739˚Ft-统计与常数模型:67,p-值= 4.99e-26

只有拦截和X2术语,其对应于重量变量,都在5%的显着性水平显著。

适合线性回归模型,其中包含一个分类预测。重新排序分类预测的类别,以控制模型中的参考电平。然后,使用方差分析测试分类变量的意义。

与分类预测模型

加载carsmall并建立了数据集的线性回归模型MPG作为一个功能车型年份。对待数字矢量车型年份作为分类变量,识别使用所述预测“分类法”名称-值对参数。

加载carsmallMDL = fitlm(Model_Year,MPG,“分类法”1,'VarNames'{'年份','英里/加仑'})
mdl =线性回归模型:MPG ~ 1 + Model_Year估计系数:估计SE tStat pValue ________交__________(拦截)17.69 1.0328 17.127 3.2371 e-30 Model_Year_76 Model_Year_82 0.0069402 3.8839 1.4059 2.7625 14.02 1.4369 9.7571 8.2164 e-16数量的观察:94年,错误自由度:91根均方误差:5.56平方:0.531,调整平方:0.521 f统计量与常数模型:51.6,p = 1.07 e15汽油

显示的模型公式,MPG~1+车型年,对应于

MPG = β 0个 + β 1个 Ι = 76 + β 2个 Ι = 82 + ϵ ,

哪里 Ι = 76 Ι = 82 是指示变量,其值是如果一个的值车型年份是分别为76和82。这个车型年份变量包括三个不同的值,则可以通过使用该检查独特功能。

唯一的(Model_Year)
ans =3×170 76 82

菲特姆选择在最小值车型年份作为参考电平('70')并创建两个指示变量 Ι = 76 Ι = 82 。该模型仅包括两个指针变量,因为设计矩阵变成如果模型包括三个指示器变量秩亏(每个电平)和截距项。

与全指标变量模型

你可以解释MDL作为具有无截距项三个指示变量模型:

是的 = β 0个 Ι 1个 = 70 + ( β 0个 + β 1个 ) Ι 1个 = 76 + ( β 0个 + β 2个 ) Ι 2个 = 82 + ϵ

可替换地,可以创建具有三个指示器变量,而无需通过手动创建指示变量并指定模型式的截距项的模型。

temp_Year = dummyvar(分类(Model_Year));Model_Year_70 = temp_Year(:,1);Model_Year_76 = temp_Year(:,2);Model_Year_82 = temp_Year(:,3);TBL =表(Model_Year_70,Model_Year_76,Model_Year_82,MPG);MDL = fitlm(TBL,'MPG〜Model_Year_70 + Model_Year_76 + Model_Year_82  -  1')
MDL =线性回归模型:MPG〜Model_Year_70 + Model_Year_76 + Model_Year_82估计系数:估计SE TSTAT p值________ _______ ______ __________ Model_Year_70 17.69 1.0328 17.127 3.2371e-30 Model_Year_76 21.574 0.95387 22.617 4.0156e-39 Model_Year_82 31.71 0.99896 31.743 5.2234e-51的数观察:94,错误自由度:91均方根误差:5.56

选择在模型参考电平

您可以通过在分类变量修改类别的顺序选择的参考电平。首先,创建一个分类变量

年份=分类(Model_Year);

使用类别功能。

类别(年)
ans =3X1细胞{'70'}{'76'}{'82'}

如果您使用作为预测变量,然后菲特姆选择第一类'70'作为参考电平。重新排序通过使用reordercats功能。

Year_reordered = reordercats(年,{'76','70','82'});类别(Year_reordered)
ans =3X1细胞{ '76'} { '70'} { '82'}

第一类重新排序年份'76'。建立一个线性回归模型MPG作为一个功能重新排序年份

MDL2 = fitlm(Year_reordered,MPG,'VarNames'{'年份','英里/加仑'})
MDL2 =线性回归模型:MPG〜1个+ Model_Year估计系数:估计SE TSTAT p值________ _______ __________(截距)21.574 0.95387 22.617观测4.0156e-39 Model_Year_70 -3.8839 1.4059 -2.7625 0.0069402 Model_Year_82 10.136 1.3812 7.3385 8.7634e-11号:94,错误自由度:91均方根误差:5.56 R平方:0.531,调整R平方:0.521 F统计与常数模型:51.6,p值= 1.07E-15

mdl2使用'76'作为参考水平,包括两个指标变量 Ι = 70 Ι = 82

评估分类预测

模型显示mdl2包括第页-每个项的值,以测试相应的系数是否等于零。每个第页- 值检查每个指示器变量。为了检验分类变量车型年份为一组指示变量的,使用方差分析。使用'组件'(默认)选项,返回一个部件ANOVA表,其包括用于在除了所述常数项的模型中的每个变量ANOVA统计。

方差分析(MDL2,'组件')
ANS =2×5表SUMSQ DF MeanSq˚Fp值______ __ ______ _____ __________ Model_Year 3190.1 2 1595.1 51.56 1.0694e-15错误2815.2 91 30.936

组件ANOVA表包括第页价值的车型年份变量,它小于第页指示器变量 - 值。

适合的线性回归模型来采样数据。指定响应和预测变量,并在模型中包含只对相互作用方面。

加载样本数据。

加载医院

适合与交互项于该数据的线性模型。指定重量为应变量,与性别,年龄和吸烟状况的预测变量。此外,指定性别和吸烟状况是分类变量。

MDL = fitlm(医院,“互动”,'ResponseVar','重量',...'预测值'{'性别','年龄',“吸烟者”},...'CategoricalVar'{'性别',“吸烟者”})
.31068 0.18531 1.6765 0.096991吸烟者1 3.0425 10.446 0.29127 0.77149性别男性:年龄-0.490940.24764-1.9825 0.050377性别:男性:吸烟者1 0.9509 3.8031 0.250003 0.80312年龄:吸烟者1-0.07288 0.26275-0.27737 0.78211观察次数:100,自由度误差:93均方根误差:8.75 R平方:0.898,校正R平方:0.892 F统计与常数模型:137,p值=6.91e-44

患者的体重似乎并没有按照年龄,或吸烟的状态,或者这些因素与患者性别互动在5%的显着性水平显著不同。

加载哈尔德数据集,用于测量水泥成分对其硬化热的影响。

加载哈尔德

此数据集包括的变量配料。矩阵配料包含存在于水泥四种化学品的百分数组合物。矢量包含每个水泥样品180天后的热硬化值。

适合稳健线性回归模型的数据。

MDL = fitlm(成分,热,“RobustOpts”,'打开')
7 0.51596 x3 0.13346 0.8166 0.16343 0.87424 x4-0.12052 0.7672-0.15709 0.87906个观测值:13,误差自由度:8均方根误差:2.65 R平方:0.979,调整后R平方:0.969 F统计与常数模型:94.6,p值=9.03e-07

有关详细信息,请参阅稳健回归 - 减少离群影响,其稳健拟合的结果进行比较,以一个标准的最小二乘方拟合。

输入参数

全部收缩

输入数据包括预测和响应的变量,指定为表或数据集阵列。预测变量可以是数字,逻辑,分类,字符或字符串。响应变量必须是数字的或逻辑的。

  • 默认,菲特姆取最后一个变量为应变量,其他的预测变量。

  • 若要将其他列设置为响应变量,请使用ResponseVar名称-值对参数。

  • 若要使用列的子集作为预测值,请使用PredictorVars名称-值对参数。

  • 若要定义模型规范,请设置modelspec使用公式或术语矩阵的参数。公式或术语矩阵指定要用作预测或响应变量的列。

表中的变量名不必是有效的MATLAB®身份标识。但是,如果名称无效,则不能在拟合或调整模型时使用公式;例如:

  • 您不能指定modelspec使用公式。

  • 你不能用一个公式来指定的条款中添加或当您使用删除附加条款功能或removeTerms功能,分别。

  • 当使用要么stepwiselm用名称 - 值对的参数函数'降低''上部',分别是。

您可以验证的变量名中TBL通过使用isvarname功能。下面的代码返回的逻辑1个(真正)对于具有合法的变量名每个变量。

cellfun(@ isvarname,tbl.Properties.VariableNames)
如果变量名中TBL是无效的,然后使用它们转换matlab.lang.makeValidName功能。
tbl.Properties.VariableNames=matlab.lang.makeValidName(tbl.Properties.VariableNames);

预测变量,指定为n个-通过-第页矩阵,其中n个是观测值和第页是预测变量的数目。的每一列表示一个变量,每一行表示一个观察值。

默认情况下,在模型中的常数项,除非你明确地将其删除,所以不包括1S在列

数据类型:|

响应变量,指定为n个1的向量,n个是观察的次数。每次进入是的对应行的响应是

数据类型:||符合逻辑的

模型规格指定为这些值中的一个。

  • 命名模型的字符向量或字符串标量。

    型号类型
    '不变' 模型仅包含一个常数(截距)术语。
    “线性” 模型包含一个截距和线性项。
    “互动” 模型包含的截距,对于每个预测线性项,以及对不同的预测结果的所有产品(没有平方项)。下载188bet金宝搏
    “纯二次型” 模型包含每个预测器的截距项和线性和平方项。
    “二次” 模型包含一个截距项,线性和对每个预测平方项,以及对不同的预测器的所有产品。下载188bet金宝搏
    “聚IJK' 模型是多项式所有条款高达程度在第一预测,学位j型在第二个预测,依此类推。通过使用数字0虽然9.模型包含交互项指定每个预测器的最大的程度,但每个交互项的次数不超过规定的程度的最大值。例如,'poly13'截获并1个,2个,2个2个,2个,1个*2个1个*2个2个项,其中1个2个分别是第一个和第二个预测因子。
  • 一个t型-通过-(第页+ 1)矩阵,或矩阵条款,指定模型中的术语,其中t型是项数和第页是预测变量的1个占响应变量的数量,并且。一个方面矩阵是方便时预测的数量大,并且要以编程方式生成的条件。

  • 表示在形式上

    'Y〜术语',

    其中条款威尔金森表示法。公式中的变量名称必须是合法的MATLAB标识符。

    软件通过使用TBL要么。因此,在模型项的顺序可以是从指定的式中的术语的顺序不同。

例:“二次”

例:'Y〜X1 + X2 ^ 2 + X1:X2'

数据类型:||烧焦|

名称-值对的观点

指定可选的逗号分隔对名称,值参数。名称是参数的名称和是对应的值。名称必须出现引号内。您可以按照任何顺序指定多个名称和值对参数名1,值1,...,NameN,值N

例:'截取',假, 'PredictorVars',[1,3], 'ResponseVar',5 'RobustOpts', '物流'指定一个稳定回归模型没有常数项,其中,所述算法使用逻辑加权函数与默认调谐常数,第一和第三变量是预测值变量和第五变量是响应变量。

分类变量列表中,指定为逗号分隔的一对组成的“分类法”以及包含表或数据集数组中的分类变量名的字符向量的字符串数组或单元数组TBL指示哪些列分类,或逻辑或数字索引向量。

  • 如果数据在表或数据集数组中TBL,那么,在默认情况下,菲特姆处理所有分类值,逻辑值,字符数组,字符串数组,和字符向量作为分类变量的单元阵列。

  • 如果数据是在矩阵的默认值“分类法”是一个空的矩阵[]。也就是说,除非你将其指定为绝对没有变量是分类。

例如,可以使用以下任一示例将6个观察值中的2个和3个指定为分类。

例:“分类法”,[2,3]

例:'CategoricalVars',逻辑([0 1 1 0 0 0])

数据类型:||符合逻辑的||细胞

要从拟合中排除的观测值,指定为逗号分隔对,由'排除'和一个逻辑或数字索引向量指示从拟合排除的观测。

例如,可以排除观察图2和3的6使用以下实施例任一。

例:'排除',[2,3]

例:“排除”,逻辑([0 1 1 0 0 0])

数据类型:||符合逻辑的

指标为常数项(截距)在拟合中,指定为逗号分隔对组成“拦截”,要么真正包括或除去从模型常数项。

采用“拦截”仅当使用字符向量或字符串标量(而不是公式或矩阵)指定模型时。

例:“拦截”,假

预测变量在配合使用,指定为逗号分隔的一对组成的'预测值'以及表或数据集数组中变量名的字符串数组或字符向量的单元格数组TBL,或指示哪些列是预测变量的逻辑或数值索引向量。

该字符串值或特征向量,应在名称中TBL或名称指定使用'VarNames'名称-值对参数。

默认值是所有变量或所有变量TBL除了ResponseVar

例如,可以指定第二和第三变量如使用以下实施例任一个预测变量。

例:'PredictorVars',[2,3]

例:“预测变量”,逻辑([0 1 1 0 0 0])

数据类型:||符合逻辑的||细胞

要在fit中使用的响应变量,指定为逗号分隔对,由'ResponseVar'在表或数据集数组中包含变量名的字符向量或字符串标量TBL或表示哪一列的逻辑或数字索引向量是响应变量。您通常需要使用'ResponseVar'当拟合表或数据集数组时TBL

例如,您可以指定第四个变量,说收益率作为响应了6个变量,通过以下方式之一。

例:'ResponseVar', '产量'

例:“响应者”,[4]

例:“ResponseVar”,逻辑([0 0 0 1 0 0])

数据类型:||符合逻辑的|烧焦|

要使用的鲁棒拟合类型的指示符,指定为由逗号分隔的对组成“RobustOpts”这些值中的一个。

  • “关”- 没有强大的配件。菲特姆使用普通最小二乘法。

  • '打开'- 使用强大的配件'bisquare'用默认的调谐常数权重函数。

  • 字符向量或标量串 - 从下面的表中的稳健拟合重量函数的名称。菲特姆使用在表中指定的对应的默认调谐常数。

  • 与这两个领域结构RobustWgtFun调子

    • 这个RobustWgtFun字段包含来自下表的健壮拟合权值函数的名称或自定义权值函数的函数句柄。

    • 这个调子字段包含一个调谐常数。如果您没有设置调子领域,菲特姆使用相应的默认调谐常数。

    权函数 描述 默认调优常数
    “安卓” W =(ABS(R) 1.339条
    'bisquare' W =(ABS(R)<1)*(1 - R ^ 2)^ 2。(也称为双重) 4.685
    “柯西” W = 1 ./(1个+ R ^ 2) 2.385条
    '公平' W = 1 ./(1个+ ABS(R))的 1.400
    'HUBER' W = 1 ./ MAX(1,ABS(R))的 1.345
    '物流' w=tanh(r)。/r 1.205个
    “醇” 普通最小二乘(无权函数) 没有
    “塔瓦尔” W = 1 *(绝对(R)<1) 2.795
    “韦尔施” W = EXP( - (R ^ 2)) 2.985
    函数句柄 接受的载体的自定义权重函数缩放的残差,并返回权重的大小相同的向量的 1个
    • 内置权重函数的默认调优常数给出的系数估计大约是普通最小二乘估计的95%,前提是响应具有正态分布,且没有异常值。调优常数越小,分配给较大残差的下重量越大;增加调优常数可以减少分配给较大残差的下重量。

    • 价值在权重函数是

      R =渣油/(调* S * SQRT(1-H)),

      哪里剩余油是残差从先前迭代的载体,是调谐常数,小时是来自最小二乘拟合的杠杆值向量,以及s公司是由下式给出的误差项的标准偏差的估计值

      S = MAD / 0.6745

      疯了从他们的中位数残差的平均绝对偏差。恒0.6745使得无偏的正态分布的估计。如果第页列,该软件不包括最小第页计算中位数时,绝对偏差。

对于稳健的配件,菲特姆使用M-估计配制使用该方法的迭代重加权最小二乘法(IRLS)估计方程,并解决它们。

例:“RobustOpts”,“安德鲁斯”

的变量的名称,指定为逗号分隔的一对组成的'VarNames'和字符向量的字符串数组或单元数组,包括的列的名称第一,和用于响应变量名称是的持续。

'VarNames'并不适用于表或数据集数组变量,因为这些变量已经有了名字。

变量名不必是有效的MATLAB标识符。但是,如果名称无效,则不能在拟合或调整模型时使用公式;例如:

  • 你不能用一个公式来指定的条款中添加或当您使用删除附加条款功能或removeTerms功能,分别。

  • 当使用要么stepwiselm用名称 - 值对的参数函数'降低''上部',分别是。

前指定“变量名”,变量名,你可以验证变量名中变量名通过使用isvarname功能。下面的代码返回的逻辑1个(真正)对于具有合法的变量名每个变量。

cellfun(@ isvarname,varNames)
如果变量名中变量名是无效的,然后使用它们转换matlab.lang.makeValidName功能。
varNames = matlab.lang.makeValidName(varNames);

例:'VarNames',{ '马力', '加速', 'Model_Year', 'MPG'}

数据类型:|细胞

观察权重,指定为逗号分隔对,由'权重'n个-非负标量值的by-1向量,其中n个是观测值的数量。

数据类型:|

输出参数

全部收缩

表示最小二乘线性模型拟合响应于数据的,返回为线性模型对象。

的值“RobustOpts”名称-值对不是[]要么“醇”,该模型是不是最小二乘法拟合,但使用强大的拟合功能。

更多关于

全部收缩

矩阵条款

一个方面矩阵T型t型-通过-(第页+1)在模型中指定术语的矩阵,其中t型是术语的数目,第页是预测变量的1个占响应变量的数量,并且。的价值T(I,J)是变量的指数j型在长期

例如,假设输入包括三个预测变量一个,C类以及响应变量是的按顺序一个,,C类是的。每行T型代表一个术语:

  • [0 0 0 0]-常数项或截距

  • [0 1 0 0];等价地,甲^ 0 * B ^ 1 * C ^ 0

  • [1 0 1 0]* C

  • [2 0 0 0]A ^ 2

  • [0 1 2 0]B *(C ^ 2)

这个0个在每个术语的末尾表示响应变量。一般情况下,terms矩阵中的零列向量表示响应变量的位置。如果在矩阵和列向量中有预测器和响应变量,则必须包括0个在每行的最后一列的响应变量。

模型规范的公式是该形式的字符向量或字符串标量'是的~条款'

  • 是的是响应名称。

  • 条款表示使用威尔金森符号在模型预测方面。

例如:

  • 'Y〜A + B + C'指定与截距的三变量线性模型。

  • 'Y〜A + B + C - 1'指定不带截距的三变量线性模型。请注意,默认情况下,公式包含常量(截距)项。要从模型中排除常量项,必须包括-1在公式。

威尔金森表示法

威尔金森符号描述了模型中的术语。符号与模型中的术语有关,而与这些术语的乘数(系数)无关。

威尔金森表示法使用这些符号:

  • +意味着包含下一个变量。

  • 手段不包括下一个变量。

  • :定义交互,交互是术语的产物。

  • *定义了一个相互作用和所有较低阶项。

  • ^提高了预测的功率,完全按照*重复,所以^包括低级次项为好。

  • ()团体方面。

该表显示威尔金森表示法的典型例子。

威尔金森表示法 术语标准符号
1个 常数(截距)项
一个-1K-,其中是正整数 一个,一个2个,...,一个
A + B 一个,
A * B 一个,,A * B
A:B A * B只要
-B 不包括
A * B + C 一个,,C类,A * B
A + B + C + A:B 一个,,C类,A * B
A * B * C - A:B:C 一个,,C类,A * B,* C,公元前
A *(B + C) 一个,,C类,A * B,* C

统计与机器学习工具箱™ 除非使用-1

有关详细信息,请参阅威尔金森表示法

提示

  • 要访问的模型属性线性模型对象MDL,可以使用点符号。例如,mdl.Residuals返回模型的原始、皮尔逊、Studentized和标准化残值的表。

  • 在训练模型之后,您可以生成预测新数据响应的C/C++代码。生成C/C++代码需要MATLAB编码器™。有关详细信息,请参阅介绍代码生成

算法

  • 主要拟合算法是QR分解。对于稳健的配件,菲特姆使用M-估计配制使用该方法的迭代重加权最小二乘法(IRLS)估计方程,并解决它们。

  • 菲特姆对待一个分类预测如下:

    • 一个具有分类预测因子的模型水平(类别)包括- 1指标变量。该模型使用第一类作为参考电平,所以它不包括用于参考电平指示变量。如果分类预测的数据类型明确的,然后可以使用类别并通过使用reordercats自定义引用级别。

    • 菲特姆对待一群- 1指示器变量作为单一变量。如果你想治疗的指标变量作为不同的预测变量,通过使用手动创建指标变量杜米瓦尔. 然后,当您适合模型时,使用指标变量,除了对应于分类变量的引用级别的变量。对于分类预测如果您指定的所有列dummyvar (X)而截距项作为预测项,则设计矩阵存在秩亏。

    • 连续预测与分类预测的交互项水平由的元素之积的- 1指标变量与连续预测。

    • 有两个分类预测变量之间的相互作用方面水平由的(–1个)*(- 1)指标变量,包括两个分类预测级别的所有可能的组合。

    • 你不能为分类预测指定高阶项,因为指标的平方等于本身。

  • 菲特姆考虑,“”(空字符向量),""(空字符串),<缺失><定义>价值观TBL,是的缺少值。菲特姆不使用拟合中缺少值的观测值。这个ObservationInfo一个拟合模型的属性指示是否菲特姆使用在配合每个观测。

选择功能

  • 为了减少高维数据集的计算时间,请使用fitrlinear功能。

  • 要调整回归,请使用fitrlinear,套索,, 要么plsregress

    • fitrlinear规则化使用套索或岭回归高维数据集的回归。

    • 套索除去使用套索或弹性网中线性回归冗余预测因子。

    • 规则化使用岭回归相关方面回归。

    • plsregress规则化,使用偏最小二乘相关项的回归。

参考

[1] DuMouchel,W.H。,和F. L.奥布莱恩。“集成稳健选项进入多元回归计算环境。”计算机科学和统计学:第21届界面研讨会纪要。亚历山大,VA:美国统计协会,1989年。

[2]荷兰,P. W.,和R. E.韦尔施。“稳健回归使用迭代重加权最小二乘法。”统计学中的传播学:理论与方法,A6型, 1977年,第813-827页。

[3]胡伯,P. J.稳健统计。新泽西州霍博肯市:John Wiley和Sons公司,1981。

[4] 街,J.O.,R.J.Carroll和D.Ruppert。“关于通过迭代加权最小二乘法计算稳健回归估计的注记。”美国统计学家。第42卷,1988年,第152-154页。

扩展功能

介绍了R2013b