提高通过添加或移除术语广义线性回归模型

描述

NewMdl=步骤(MDL返回一个广义线性回归模型基于MDL采用逐步回归添加或删除一个预测。

NewMdl=步骤(MDL名称,值指定使用额外的一个或多个选项的名称 - 值对的参数。例如,您可以指定标准来使用添加或删除条款和要采取的步骤的最大数量。

例子

全部收缩

使用随机数据和单一预测,然后用适合的泊松回归模型通过添加或删除预测方面改进模型。

产生具有20个预测变量的样本数据。使用三个预测的产生泊松响应变量。

RNG('默认'%用于重现X = randn(100,20);亩= EXP(X(:[4; 0.2; 0.3],[5 10 15])* + 1);Y = poissrnd(亩);

创建泊松数据的使用广义线性回归模型X(:,2)作为唯一的指标。

MDL = fitglm(X,Y,'Y〜X2''分配'“泊松
MDL =广义线性回归模型:日志(y)的〜1 + x2分布=泊松估计系数:估计SE TSTAT p值________ _______ __________(截距)1.1386 0.056722 20.073 1.2817e-89×2 0.010768 0.056564 0.19037 0.84902 100观察,98度误差1驰^ 2统计量与常数模型:0.0362,p值= 0.849自由分散的

提高MDL通过使用。指定“n步”5,允许最多5个步骤逐步回归的。

mdl1 =步骤(MDL,“n步”,5)
1.添加X5,越轨= 134.4375,Chi2Stat = 52.21338,p值= 4.978574e-13 2.添加X15,越轨= 106.1925,Chi2Stat = 28.24496,p值= 1.068927e-07 3.添加X10,越轨= 94.708,Chi2Stat = 11.4845,p值= 0.000701792 4章卸下X2,越轨= 95.021,Chi2Stat = 0.31263,p值= 0.57607
mdl1 =广义线性回归模型:日志(y)的〜1 + X5 + X10 + X15分布=泊松估计系数:估计SE TSTAT p值________ ______ __________(截距)1.0115 0.064275 15.737 8.4217e-56 X5 0.39508 0.066665 5.9263 3.0977e-09×10 0.18863 0.05534 3.4085 0.0006532×15 0.29295 0.053269 5.4995 3.8089e-08 100观察,96个错误自由度分散体:1驰^ 2统计量与常数模型:91.7,p值= 9.61e-20

增加了使用的三个预测变量来产生响应变量对模型及排除X(:,2)从模型。

输入参数

全部收缩

广义线性回归模型,指定为GeneralizedLinearModel使用对象的创建fitglm要么stepwiseglm

名称 - 值对参数

指定可选的用逗号分隔的对名称,值参数。名称是参数的名称和是对应的值。名称必须出现引号内。您可以按照任何顺序指定多个名称和值对参数名1,值1,...,NameN,值N

例:判据', 'AIC', '上', '二次', '冗长',2指示使用赤池信息量准则,包括(至多)在模型中的二次项,并显示评价过程,并在每个步骤作出的决定。

标准添加或删除条件,指定为逗号分隔的一对组成的'标准'这些值之一:

  • “越轨”-p- 值对的F在偏差的变化的-test或卡方检验,从添加或删除的术语结果。该F-test测试模式单一,与卡方检验比较两种不同的模式。

  • “上证所”-p- 值对的F-test在平方误差的和的变化的,从添加或删除的术语结果。

  • 'AIC'- 改变在赤池信息准则(AIC)的值。

  • 'BIC'- 改变在贝叶斯信息准则(BIC)的值。

  • 'rsquared'- 增加的价值[R2

  • 'adjrsquared'- 增加值的调整[R2

例:'准则', 'BIC'

模型规格描述的术语不能被从模型中移除,指定为逗号分隔的一对组成的'降低'这些值之一:

  • 一个特征向量或串标命名模型。

    型号类型
    '不变' 模型仅包含一个常数(截距)术语。
    “线性” 模型包含每个预测器的截距和线性项。
    “互动” 模型包含的截距,对于每个预测线性项,以及对不同的预测结果的所有产品(没有平方项)。下载188bet金宝搏
    'purequadratic' 模型包含每个预测器的截距项和线性和平方项。
    “二次” 模型包含一个截距项,线性和对每个预测平方项,以及对不同的预测器的所有产品。下载188bet金宝搏
    “聚IJK 模型是多项式所有条款高达程度一世在第一预测,学位Ĵ在第二个预测,依此类推。通过使用数字0虽然9.模型包含交互项指定每个预测器的最大的程度,但每个交互项的次数不超过规定的程度的最大值。例如,'poly13'具有截距和X1X2X22X23X1*X2X1*X22项,其中X1X2是所述第一和第二预测器,分别。
  • 一个Ť-通过-(p+ 1)矩阵,或矩阵条款在模型指定条款,其中Ť是项数,p是预测变量的1个占响应变量的数量,并且。一个方面矩阵是方便时预测的数量大,并且要以编程方式生成的条件。

  • 字符向量或标量的字符串表示形式

    'Y〜术语'

    其中,条款威尔金森表示法。公式中的变量名称必须是有效的MATLAB®身份标识。

例:“下”,“线性”

数据类型:烧焦|||

的要采取的步骤的最大数目,指定为逗号分隔的一对组成的“n步”和一个正整数。

例:'n步',5

数据类型:|

阈值的判据来添加的一个术语,指定为逗号分隔的一对组成的“P输入”和标量值,在该表中所描述的。

标准 默认值 决策
“越轨” 0.05 如果p- 值的Ft-统计或卡方统计量小于P输入p- 值进入),术语添加到模型。
“上证所” 0.05 如果p- 值的Ft-统计小于P输入术语添加到模型。
'AIC' 0 如果模型的AIC的变化小于P输入术语添加到模型。
'BIC' 0 如果模型的BIC的变化小于P输入术语添加到模型。
'Rsquared' 0.1 如果模型的R平方值的增加大于P输入术语添加到模型。
'AdjRsquared' 0 如果模型调整后的R平方值的增加大于P输入术语添加到模型。

欲了解更多信息,请参阅标准名称 - 值对的参数。

例:'P输入',0.075

阈值的准则,以除去一个术语,指定为逗号分隔的一对组成的'PRemove'和标量值,在该表中所描述的。

标准 默认值 决策
“越轨” 0.10 如果p- 值的Ft-统计或卡方统计大于PRemovep- 值删除),从模型中移除术语。
“上证所” 0.10 如果p- 值的Ft-统计大于PRemove,从模型中移除术语。
'AIC' 0.01 如果模型的AIC的变化大于PRemove,从模型中移除术语。
'BIC' 0.01 如果模型的BIC的变化大于PRemove,从模型中移除术语。
'Rsquared' 0.05 如果在模型中的R平方值的增加小于PRemove,从模型中移除术语。
'AdjRsquared' -0.05 如果在模型中的经调整的R平方值的增加小于PRemove,从模型中移除术语。

在每一步,在功能还检查的项是否是冗余的(线性相关)与在当前模型的其它术语。当一个术语线性依赖于其他条款在目前的模型中,函数删除冗余术语,无论标准值的。

欲了解更多信息,请参阅标准名称 - 值对的参数。

例:'PRemove',0.05

模型规格描述拟合的最大集合的术语,指定为逗号分隔的一对组成的'上'这些值之一:

  • 一个特征向量或串标命名模型。

    型号类型
    '不变' 模型仅包含一个常数(截距)术语。
    “线性” 模型包含每个预测器的截距和线性项。
    “互动” 模型包含的截距,对于每个预测线性项,以及对不同的预测结果的所有产品(没有平方项)。下载188bet金宝搏
    'purequadratic' 模型包含每个预测器的截距项和线性和平方项。
    “二次” 模型包含一个截距项,线性和对每个预测平方项,以及对不同的预测器的所有产品。下载188bet金宝搏
    “聚IJK 模型是多项式所有条款高达程度一世在第一预测,学位Ĵ在第二个预测,依此类推。通过使用数字0虽然9.模型包含交互项指定每个预测器的最大的程度,但每个交互项的次数不超过规定的程度的最大值。例如,'poly13'具有截距和X1X2X22X23X1*X2X1*X22项,其中X1X2是所述第一和第二预测器,分别。
  • 一个Ť-通过-(p+ 1)矩阵,或矩阵条款在模型指定条款,其中Ť是项数,p是预测变量的1个占响应变量的数量,并且。一个方面矩阵是方便时预测的数量大,并且要以编程方式生成的条件。

  • 字符向量或标量的字符串表示形式

    'Y〜术语'

    其中,条款威尔金森表示法。公式中的变量名称必须是合法的MATLAB标识符。

例:“上部”,“二次”

数据类型:烧焦|||

控制的信息的显示,指定为逗号分隔的一对组成的“放牧”这些值之一:

  • 0- 禁止所有显示。

  • 1- 显示在每一步所采取的行动。

  • 2- 显示评估过程,并在每个步骤所采取的行动。

例:'冗长',2

输出参数

全部收缩

广义线性回归模型,返回为GeneralizedLinearModel宾语。

若要覆盖输入参数MDL,分配新模式MDL

MDL =步骤(MDL);

更多关于

全部收缩

矩阵条款

一个方面矩阵ŤŤ-通过-(p+ 1)矩阵中一个模型,其中指定术语Ť是项数,p是预测变量的1个占响应变量的数量,并且。的价值T(I,J)是可变的指数Ĵ在长期一世

例如,假设输入包括三个预测变量一个C和响应变量ÿ按顺序一个Cÿ。每行Ť代表一个词:

  • [0 0 0 0]- 常量术语或截距

  • [0 1 0 0]-;等价地,甲^ 0 * B ^ 1 * C ^ 0

  • [1 0 1 0]-一个* C

  • [2 0 0 0]-A ^ 2

  • [0 1 2 0]-B *(C ^ 2)

0在每个期限结束表示响应变量。通常,在一个方面矩阵的零的列向量表示响应变量的位置。如果你在一个矩阵列向量预测和响应变量,那么你就必须包括0在每行的最后一列的响应变量。

一种用于模型规范公式的形式为一个字符向量或标量串ÿ条款

  • ÿ是响应名称。

  • 条款表示使用威尔金森符号在模型预测方面。

例如:

  • 'Y〜A + B + C'指定与截距的三变量线性模型。

  • 'Y〜A + B + C - 1'规定了没有截距的三变量线性模型。需要注意的是公式中包含默认常数(拦截)项。要排除从模型中的常数项,你必须包括-1在公式。

威尔金森表示法

威尔金森符号描述的条款提出的模型。符号涉及的术语呈现在一个模型中,而不是那些术语的乘数(系数)。

威尔金森表示法使用这些符号:

  • +装置包括下一个变量。

  • -手段不包括下一个变量。

  • 限定的相互作用,这是项的乘积。

  • *定义了一个相互作用和所有较低阶项。

  • ^提高了预测的功率,完全按照*重复的,所以^包括低级次项为好。

  • ()团体方面。

该表显示威尔金森表示法的典型例子。

威尔金森表示法 术语标准符号
1 常数(截距)术语
一个-1K-,其中ķ是一个正整数 一个一个2,...,一个ķ
A + B 一个
A * B 一个A * B
A:B A * B只要
-B 不包括
A * B + C 一个CA * B
A + B + C + A:B 一个CA * B
A * B * C - A:B:C 一个CA * B一个* C公元前
A *(B + C) 一个CA * B一个* C

统计和机器学习工具箱™符号总是包含常数项,除非你明确地使用删除项-1

有关详细信息,请参阅威尔金森表示法

算法

  • 逐步回归是用于添加和基于在解释响应变量它们的统计显着性除去一个线性项或广义线性模型的系统方法。该方法开始于初始模型,使用指定的modelspec,然后比较增量较大和较小的模型的解释能力。

    功能用途向前和向后逐步回归以确定最终型号。在每一步,对术语的功能的搜索到添加到模型或从基于所述值的模型去除'标准'名称 - 值对的参数。

    默认值'标准'对于线性回归模型是“上证所”。在这种情况下,stepwiselm线性模型使用p- 值的Ft-统计有和没有在每一步一个潜在的长期测试模型。如果一个字词目前还未在模型中,零假设是,如果添加到模型的任期将有一个零系数。如果有足够的证据拒绝零假设,功能增加了术语的模型。相反,如果一个术语是目前在该模型中,零假设是术语具有零系数。如果有足够的证据拒绝零假设,该函数从模型中的术语。

    逐步回归采取这些步骤时'标准'“上证所”

    1. 适合初始模型。

    2. 检查一组可用的术语不是模型。如果任何条款有p- 值小于入口公差(也就是说,如果这是不可能的一个术语本来如果添加到模型中的零系数),与最小添加术语p- 值并重复此步骤;否则,转到步骤3。

    3. 如果模型中的任何可用的条款有p- 值比出口公差更大(即,零系数的假设不能被拒绝),取出术语具有最大p- 值和返回到步骤2;否则,结束处理。

    在任何阶段,该功能不会增加高阶项,如果模型没有包括那些高阶项的子集所有低阶条款。例如,该功能不会尝试添加术语X1:X2 ^ 2除非两个X1X2 ^ 2已经在模型中。同样,该功能不会删除是高阶项子集保留在模型低阶条款。例如,该功能不会尝试删除X1要么X2 ^ 2如果X1:X2 ^ 2仍然在模型中。

    默认值'标准'对于广义线性模型是“越轨”stepwiseglmGeneralizedLinearModel遵循用于添加或删除的术语类似的过程。

    您可以通过使用指定的其他标准'标准'名称 - 值对的参数。例如,您可以指定在赤池信息准则值的变化,贝叶斯信息准则,R平方,或经调整的R平方为准绳,以添加或删除条款。

    根据包含在初始模型中的项,并在其中的作用增加的顺序及排除条款,该功能可能会从同一组潜在的术语建立不同的模型。当没有单个步骤提高了模型的功能终止。然而,不同的初始模型或步骤不同的顺序并不能保证更好的贴合。在这个意义上,逐步模型是局部最优的,但可能不是全局最优。

  • 对待一个分类预测如下:

    • 与具有一个分类预测模型大号水平(类别)包括大号- 1指标变量。该模型使用第一类作为参考电平,所以它不包括用于参考电平指示变量。如果分类预测的数据类型明确的,那么你可以通过检查类别的顺序类别和重新排序的类别,通过使用reordercats自定义参考电平。

    • 治疗组大号- 1指示器变量作为单一变量。如果你想治疗的指标变量作为不同的预测变量,通过使用手动创建指标变量dummyvar。然后使用指针变量,除了对应于所述分类变量的参考电平之一,当你适合的模型。对于分类预测X如果您指定的所有列dummyvar(X)和截距项作为预测,则设计矩阵变成秩亏。

    • 连续预测和分类预测与之间的相互作用方面大号水平由的元素之积的大号- 1指标变量与连续预测。

    • 有两个分类预测变量之间的相互作用方面大号中号水平由的大号- 1)*(中号- 1)指标变量,包括两个分类预测级别的所有可能的组合。

    • 你不能为分类预测指定高阶项,因为指标的平方等于本身。

    因此,如果添加或移除一个分类预测,该功能实际上添加或删除的组指示符变量的一个步骤。同样,如果添加或移除与分类预测的相互作用项,功能实际上添加或删除的组相互作用项包括分类预测。

  • 考虑为NaN“”(空字符向量),“”(空字符串),<缺失><未定义>价值观TBLXÿ是缺失值。不与配合缺失值使用的意见。该ObservationInfo一个拟合模型的属性指示是否使用在配合每个观测。

另类功能

  • 采用stepwiseglm在起始模型中指定的条款和继续改进模型直到添加或删除一个术语的任何单一的步骤是有益的。

  • 采用addTerms要么removeTerms添加或删除特定的条款。

介绍了在R2012a