主要内容

このペ,ジの翻訳は最新ではありません。ここをクリックして,英語の最新版を参照してください。

stepwiseglm

ステップワ@ @ズ回帰による一般化線形回帰モデルの作成

説明

mdl= stepwiseglm (资源描述は,定数モデルから開始し,ステップワイズ回帰を使用して予測子を追加または削除することにより,表またはデータセット配列资源描述の一般化線形モデルを作成します。stepwiseglmは,资源描述の最後の変数を応答変数として使用します。stepwiseglmは,変数増減法のステップワaaplズ回帰を使用して,最終的なモデルを決定します。各ステップで,引数“标准”の値に基づいて,モデルに対して追加または削除する項が探索されます。

mdl= stepwiseglm (Xyはデ,タ行列Xに対する応答yの一般化線形モデルを作成します。

mdl= stepwiseglm (___modelspecは,前の構文におけるいずれかの入力引数の組み合わせを使用して,開始モデルmodelspecを指定します。

mdl= stepwiseglm (___modelspec名称,值では,1以上の名前と値のペアの引数を使用して追加オプションを指定します。たとえば,カテゴリカル変数、モデルで使用する最小または最大の項集合、実行する最大ステップ数、stepwiseglmが項の追加または削除に使用する基準などを指定できます。

すべて折りたたむ

20個の予測子の3つだけを使って応答データを作成し,正しい予測子だけを使用しているかどうかを確認するために,一般化線形モデルをステップワイズアルゴリズムを使って作成します。

20個の予測子でデータを作成し,そのうちの3つのみの予測子と1つの定数を使ってポアソン応答を作成します。

rng (“默认”再现率%X = randn(100,20);mu = exp(X(:,[5 10 15])*[.4;.2;。3] + 1);Y = poissrnd(mu);

ポアソン分布を使用して一般化線形モデルをあてはめます。

mdl = stepwiseglm(X,y,...“不变”“上”“线性”“分布”“泊松”
1.加上x5, Deviance = 134.439, Chi2Stat = 52.24814, PValue = 4.891229e-133.添加x15, Deviance = 106.285, Chi2Stat = 28.15393, PValue = 1.1204e-07加上x10, Deviance = 95.0207, Chi2Stat = 11.2644, PValue = 0.000790094
mdl =广义线性回归模型:log(y) ~ 1 + x5 + x10 + x15分布=泊松估计系数:估计SE tStat pValue ________ ________ ______ __________(截距)1.0115 0.064275 15.737 8.4217e-56 x5 0.39508 0.066665 5.9263 3.0977e-09 x10 0.18863 0.05534 3.4085 0.0006532 x15 0.29295 0.053269 5.4995 3.8089e-08 100个观测值,96个误差自由度离散度:1 Chi^2统计量vs常数模型:91.7,p值= 9.61e-20

開始モデルは,定数モデルです。stepwiseglmは既定でモデルの逸脱度を基準として使用します。最初に,x5がモデルに追加されます。これは,検定統計量である逸脱度 (2 つのモデルの逸脱度の違い) に対する p 値が既定のしきい値0.05より小さいためです。次に,连接が追加されます。これは,x5がモデル内に存在していると,连接を追加した場合にカ@ @二乗検定の p 値が0.05より小さくなるためです。次に,x10が追加されます。これは,x5连接がモデル内に存在していると,x10を追加した場合にカ@ @二乗検定の p 値が再び0.05より小さくなるためです。

入力引数

すべて折りたたむ

予測子変数と応答変数を含む入力デ,タ。テブルまたはデ,タセット配列として指定します。予測子変数と応答変数は、数値、logical、categorical、文字または string にすることができます。応答変数のデータ型を数値以外にすることができるのは、“分布”“二”である場合だけです。

  • 既定では,stepwiseglmは最後の変数を応答変数として,それ以外の変数を予測子変数として取ります。

  • 応答変数として異なる列を設定するには,名前と値のペア引数ResponseVarを使用します。

  • 列のサブセットを予測子として使用するには,名前と値のペア引数PredictorVarsを使用します。

  • モデル仕様を定義するには,式または項行列を使用して引数modelspecを設定します。式または項行列は,予測子または応答変数として使用する列を指定します。

テ,ブルの変数名は,有効なmatlab®識別子である必要はありません。ただし,名前が有効ではない場合,モデルをあてはめるまたは調整するときに式を使用することはできません。以下に例を示します。

  • 式を使用してmodelspecを指定することはできません。

  • 関数addTermsまたは関数removeTermsをそれぞれ使用するときに,式を使用して追加または削除する項を指定することはできません。

  • 名前と値のペアの引数“低”“上”を使用して関数一步または関数stepwiseglmをそれぞれ使用するときに,式を使用してモデルの下限と上限を指定することはできません。

関数isvarnameを使用して资源描述の変数名を検証できます。変数名が有効でない場合,関数matlab.lang.makeValidNameを使用してそれらを変換できます。

N行p列の行列として指定される予測子変数。ここで,nは観測値の数、p は予測子変数の数です。Xの各列が1の変数を表し,各行が1。

既定では,明示的に削除しない限り,モデルには定数項があるので,1の列をXに含めないでください。

デ,タ型:|

応答変数。ベクトルまたは行列として指定します。

  • “分布”“二”ではない場合,yは,n行1列のベクトルでなければなりません。ここで,nは観測値の数です。yの各エントリはXの対応する行に対する応答です。デ,タ型は单または,双でなければなりません。

  • “分布”“二”である場合,yはn行1列のベクトル,または列1にカウントを,列2にBinomialSizeをもn行2列の行列とすることができます。

デ,タ型:||逻辑|分类

以下のいずれかとして指定される,stepwiseglmの開始モデル。

  • モデルを指定する文字ベクトルまたは字符串スカラ。

    モデルタ@ @プ
    “不变” モデルは定数(切片)項だけを含みます。
    “线性” 切片と各予測子の線形項がモデルに含まれます。
    “互动” 切片,各予測子の線形項,および異なる予測子のペアすべての積がモデルに含まれます(二乗項はありません)。
    “purequadratic” 切片項と各予測子の線形項および二乗項がモデルに含まれます。
    “二次” 切片項,各予測子の線形項,二乗項,および異なる予測子のペアすべての積がモデルに含まれます
    “聚ijk モデルは多項式であり,1番目の予測子における次数までのすべての項,2番目の予測子における次数jまでのすべての項が含まれます。3.番目以降の項についても同様です。0 ~ 9 の数値を使用して、各予測子の最大次数を指定します。モデルには交互作用項が含まれますが、各交互作用項の次数は、指定された次数の最大値を超えません。たとえば、“poly13”には,切片,x1, x2, x22, x23., x1* x2およびx1* x22の各項が含まれます。x1およびx2はそれぞれ1番目および2番目の予測子です。
  • モデル内の項を指定するt行(p + 1)列の行列,まり項の行列。Tは項の個数,pは予測子変数の個数であり,+1は応答変数に相当します。項行列は,予測子の個数が多いときに項をプログラムで生成する場合に便利です。

  • 次の形式の文字ベクトルまたは字符串スカラ

    “y ~项”

    ここで,条款ウィルキンソンの表記法で表されます。式の変数名は资源描述の変数名またはVarnamesによって指定された変数名でなければなりません。また,変数名は有効なmatlab識別子でなければなりません。

    资源描述またはXの項の順序によって,あてはめたモデルの項の順序が決定されます。そのため,モデルの項の順序は,指定した式での項の順序とは異なる場合があります。

stepwiselmで近似するモデルに含まれている最小または最大の項の集合を指定するには,名前と値のペアの引数较低的およびを使用します。

デ,タ型:字符|字符串||

名前と値のペアの引数

オプションの名称,值引数のコンマ区切りペアを指定します。的名字は引数名で,价值は対応する値です。的名字は引用符で囲まなければなりません。Name1, Value1,…,的家のように,複数の名前と値のペアの引数を,任意の順番で指定できます。

例:另类投资会议”、“标准”、“‘分配’,‘泊松’,‘上’,‘互动’は,モデルに変数を追加または削除する基準として赤池情報量基準を,応答変数の分布としてポアソン分布を,近似を考慮する最大モデルとして,可能性のあるすべての交互作用をもつモデルを指定します。

二項分布の試行回数,まり標本サズ。“BinomialSize”资源描述の変数名,数値スカラー,または応答と同じ長さの数値ベクトルで構成されるコンマ区切りのペアとして指定します。これは近似した二項分布のためのnパラメ,タ,です。BinomialSizeは,分布パラメ,タ,が“二”であるときにだけ適用されます。

BinomialSizeがスカラ,値の場合は,すべての観測が同じ試行回数であることを意味します。

BinomialSizeの代替法として,列1にカウント,列2にBinomialSizeをも2列の行列として応答を指定できます。

デ,タ型:||字符|字符串

カテゴリカル変数のリスト。“CategoricalVars”と,テ,ブルまたはデ,タセット配列资源描述内のカテゴリカル変数名が含まれている文字ベクトルの细胞配列または字符串配列,またはどの列がカテゴリカルであるかを示す論理インデックスベクトルまたは数値インデックスベクトルから構成されるコンマ区切りのペアとして指定します。

  • デ,タがテ,ブルまたはデ,タセット配列资源描述に格納されている場合の既定では,stepwiseglmはカテゴリカル値,論理値,文字配列,字符串配列,および文字ベクトルの细胞配列をすべてカテゴリカル変数として扱います。

  • デ,タが行列Xに格納されている場合,“CategoricalVars”の既定値は空の行列[]です。まり,カテゴリカルとして指定しない限り,カテゴリカルになる変数はありません。

たとえば,以下のいずれかを使用して,6つのうちの2番目と3番目の変数をカテゴリカルとして指定できます。

例:“CategoricalVars”,[2,3]

例:'CategoricalVars',logical([0 1 1 0 0 0 0])

デ,タ型:||逻辑|字符串|细胞

項を追加または削除する基準。“标准”と以下のいずれかの値から構成されるコンマ区切りのペアとして指定します。

  • “异常”-項の追加または削除によって生じる逸脱度の変化に対するF検定またはカaapl二乗検定のp値。F検定では単一のモデルを検定し,カ▪▪二乗検定では2▪▪の異なるモデルを比較します。

  • 上交所的-項の追加または削除によって生じる二乗誤差の和の変化に対するF検定のp値。

  • “另类投资会议”-赤池情報量基準(aic)の値の変化。

  • “bic”—ベesc escズ情報量基準(bic)の値の変化。

  • “rsquared”- R2の値の増加。

  • “adjrsquared”-自由度調整済みr .2の値の増加

例:“标准”、“bic”

“二”および“泊松”分布の分散パラメタを計算するンジケタ。“DispersionFlag”と以下のいずれかで構成されるコンマ区切りのペアとして指定します。

真正的 標準誤差を計算するときに分散パラメ,タ,を推定します。分散パラメ,タ,の推定値は,ピアソン残差の二乗和を誤差の自由度(dfe)で除算した値です。
既定の設定。標準誤差を計算するときに理論値1を使用します。

近似関数は常に他の分布の分散を予測します。

例:“DispersionFlag”,真的

応答変数の分布。“分布”と以下のいずれかで構成されるコンマ区切りのペアとして指定します。

“正常” 正規分布
“二” 二項分布
“泊松” ポアソン分布
“伽马” ガンマ分布
逆高斯分布的 逆ガウス分布

例:“分布”、“伽马”

近似から除外する観測値。“排除”と,近似から除外する観測値を示す論理インデックスベクトルまたは数値インデックスベクトルで構成されるコンマ区切りのペアとして指定します。

たとえば,以下のいずれかの例を使用して,6つの観測値のうち観測値2および3を除外できます。

例:“排除”,[2,3]

例:'Exclude',logical([0 1 1 0 0 0 0])

デ,タ型:||逻辑

あてはめにおける定数項(切片)のンジケタ。“拦截”と,モデルに定数項を含める真正的またはモデルから定数項を削除するで構成されるコンマ区切りのペアとして指定します。

式または行列ではなく文字ベクトルまたは字符串スカラ,を使用してモデルを指定する場合のみ,“拦截”を使用します。

例:“拦截”,假的

モデルから削除できない項を表すモデル仕様。“低”と,モデルの名前を表すmodelspecに対するいずれかのオプションから構成されるコンマ区切りのペアとして指定します。

例:“低”,“线性”

実行する最大ステップ数。“NSteps”と正の整数から構成されるコンマ区切りのペアとして指定します。

例:“NSteps”,5

デ,タ型:|

近似のオフセット変数。“抵消”と,资源描述に含まれる変数名または応答と同じ長さの数値ベクトルで構成されるコンマ区切りのペアとして指定します。

stepwiseglmは,係数値を1で固定した追加の予測子として抵消を使用します。まり,当てはめの式は次のようになります。

f(μ)=偏移量+ X*b

ここで,fはリンク関数,μは平均応答,X*bは予測子Xの線形結合です。予測子抵消の係数は1です。

たとえば,ポアソン回帰モデルを検討してください。カウントの数が理論上の理由により予測子一个に対して比例していることがわかっていると仮定します。登录リンク関数を使用し,オフセットに日志(一)を指定することにより,この理論上の制約を満たすことをモデルに強制できます。

デ,タ型:||字符|字符串

項を追加する基準のしきい値。“囚禁”と次の表に記載されているスカラ,値から構成されるコンマ区切りのペアとして指定します。

規範 既定値 判定
“异常” 0.05 F統計量またはカesc二乗統計量のp値が被关闭的(入力に対するp値)未満である場合,項をモデルに追加します。
上交所的 0.05 F統計量のp値が被关闭的より小さい場合,項をモデルに追加します。
“另类投资会议” 0 モデルのaicの変化が被关闭的より小さい場合,項をモデルに追加します。
“BIC” 0 モデルのbicの変化が被关闭的より小さい場合,項をモデルに追加します。
“Rsquared” 0.1 モデルの決定係数値の増加が被关闭的より大きい場合,項をモデルに追加します。
“AdjRsquared” 0 モデルの自由度調整済み決定係数値の増加が被关闭的より大きい場合,項をモデルに追加します。

詳細は,名前と値のペアの引数标准を参照してください。

例:“囚禁”,0.075

あてはめで使用する予測子変数。“PredictorVars”と,テ,ブルまたはデ,タセット配列资源描述に格納されている変数の名前を表す文字ベクトルの细胞配列または字符串配列,またはどの列が予測子変数であるかを示す論理インデックスベクトルまたは数値インデックスベクトルから構成されるコンマ区切りのペアとして指定します。

字符串値または文字ベクトルは,资源描述に含まれている名前,または名前と値のペアの引数“VarNames”を使用して指定した名前でなければなりません。

既定の設定は,X内のすべての変数,またはResponseVarを除く,资源描述内のすべての変数です。

たとえば,以下のいずれかの例を使用して,2番目と3番目の変数を予測子変数として指定できます。

例:“PredictorVars”,[2,3]

例:'PredictorVars',logical([0 1 1 0 0 0 0])

デ,タ型:||逻辑|字符串|细胞

項を削除する基準のしきい値。“PRemove”と次の表に記載されているスカラ,値から構成されるコンマ区切りのペアとして指定します。

規範 既定値 判定
“异常” 0.10 F統計量またはカesc二乗統計量のp値がPRemove(削除するp値)より大きい場合,項をモデルから削除します。
上交所的 0.10 F統計量のp値がPRemoveより大きい場合,項をモデルから削除します。
“另类投资会议” 0.01 モデルのaicの変化がPRemoveより大きい場合,項をモデルから削除します。
“BIC” 0.01 モデルのbicの変化がPRemoveより大きい場合,項をモデルから削除します。
“Rsquared” 0.05 モデルの決定係数値の増加がPRemoveより小さい場合,項をモデルから削除します。
“AdjRsquared” -0.05 モデルの自由度調整済み決定係数値の増加がPRemoveより小さい場合,項をモデルから削除します。

各ステップで,関数stepwiseglmは項が現在のモデル内の他の項に対して冗長(線形従属)であるかどうかもチェックします。項が現在のモデル内の他の項に線形従属している場合,関数stepwiseglmは従属する項を基準値に関係なく削除します。

詳細は,名前と値のペアの引数标准を参照してください。

例:“PRemove”,0.05

あてはめで使用する応答変数。“ResponseVar”と,テ,ブルまたはデ,タセット配列资源描述内の変数名が格納されている文字ベクトルまたは字符串配列,またはどの列が応答変数であるかを示す論理インデックスベクトルまたは数値インデックスベクトルから構成されるコンマ区切りのペアとして指定します。通常,テ,ブルまたはデ,タセット配列资源描述を近似させる場合に“ResponseVar”を使用する必要があります。

たとえば,以下のいずれかの方法を使用して,6收益率を応答変数として指定できます。

例:“ResponseVar”、“收益”

例:“ResponseVar”,[4]

例:'ResponseVar',logical([0 0 0 0 1 0 0])

デ,タ型:||逻辑|字符|字符串

あてはめにおける最大の項集合を記述するモデル仕様。“上”とモデルを指定するmodelspecのいずれかのオプションから構成されるコンマ区切りのペアとして指定します。

例:“上”、“二次”

変数の名前。“VarNames”と,Xの列名が最初に,応答変数yの名前が最後に含まれている文字ベクトルの细胞配列または字符串配列から構成されるコンマ区切りのペアとして指定します。

テ,ブルまたはデ,タセット配列の変数には既に名前が設定されているため,“VarNames”はこれらの配列には適用されません。

変数名は,有効なmatlab識別子である必要はありません。ただし,名前が有効ではない場合,モデルをあてはめるまたは調整するときに式を使用することはできません。以下に例を示します。

  • 関数addTermsまたは関数removeTermsをそれぞれ使用するときに,式を使用して追加または削除する項を指定することはできません。

  • 名前と値のペアの引数“低”“上”を使用して関数一步または関数stepwiseglmをそれぞれ使用するときに,式を使用してモデルの下限と上限を指定することはできません。

VarNames, VarNamesを指定する前に,関数isvarnameを使用してvarNamesの変数名を検証できます。変数名が有効でない場合,関数matlab.lang.makeValidNameを使用してそれらを変換できます。

例:VarNames,{“马力”,“加速”,“Model_Year”,“英里”}

デ,タ型:字符串|细胞

情報の表示に関する制御。“详细”と以下のいずれかの値から構成されるコンマ区切りのペアとして指定します。

  • 0-すべての表示を抑制します。

  • 1-各ステップで実行されるアクションを表示します。

  • 2-評価プロセスと、各ステップで実行されるアクションを表示します。

例:“详细”,2

観測値の重み。“重量”と,非負のスカラー値のn行1列のベクトル(nは観測値の数)で構成されるコンマ区切りのペアとして指定します。

デ,タ型:|

出力引数

すべて折りたたむ

一般化線形回帰モデル。fitglmまたはstepwiseglmを使用して作成したGeneralizedLinearModelオブジェクトとして指定します。

詳細

すべて折りたたむ

項の行列

項行列Tは,モデル内の項を指定するt行(p + 1)列の行列です。Tは項の数,pは予測子変数の数であり,+1は応答変数に相当します。T (i, j)の値は,項の変数jの指数です。

たとえば,3の予測子変数x1x2x3と応答変数yx1x2x3yという順序で入力に含まれていると仮定します。Tの各行は1の項を表します。

  • [0 0 0 0]-定数項(切片)

  • [0 1 0 0]- - - - - -x2X1 ^0 * x2^1 * x3^0と等価)

  • [1 0 10 0]- - - - - -x1 * x3

  • [2 0 0 0]- - - - - -x1 ^ 2

  • [0 1 2 0]- - - - - -x2 * (x3 ^ 2)

各項の最後の0は,応答変数を表します。一般に,項行列内のゼロの列ベクトルは,応答変数の位置を表します。行列と列ベクトルに予測子と応答変数がある場合、各行の最後の列に応答変数を示す0を含めなければなりません。

モデル仕様の式はy条款という形式の文字ベクトルまたは字符串スカラ,です。

  • yは応答名です。

  • 条款は,ウィルキンソンの表記法を使用してモデル内の予測子の項を表します。

予測子と応答変数を表現するには,表入力资源描述の変数名,またはVarNamesを使用して指定された変数名を使用します。VarNamesの既定値は{x1, x2,…,‘xn’,‘y’}です。

以下に例を示します。

  • 'y ~ x1 + x2 + x3'は,切片がある3変数の線形モデルを指定します。

  • 'y ~ x1 + x2 + x3 - 1'は,切片がない3変数の線形モデルを指定します。既定では式に定数(切片)項が含まれることに注意してください。モデルから定数項を除外するには,1を式に含めなければなりません。

1を使用して項を明示的に削除しない限り,式は定数項を含みます。

ウィルキンソンの表記法

ウィルキンソンの表記法は,モデルに存在する項を記述します。この表記法は,モデルに存在する項に関係するものであり,それらの項の乗数(係数)に関係するものではありません。

ウィルキンソンの表記法では,以下の記号を使用します。

  • +は,次の変数を含むことを意味します。

  • - - - - - -は,次の変数を含まないことを意味します。

  • は,項の積である交互作用を定義します。

  • は,交互作用と,より低い次数の項すべてを定義します。

  • は,を繰り返した場合とまったく同じ方法で予測子をべき乗にします。このため,には,より低い次数の項も含まれます。

  • ()は,項をグル,プ化します。

次の表に,ウィルキンソンの表記法の代表的な例を示します。

ウィルキンソンの表記法 標準表記の項
1 定数 (切片) 項
x1 ^ kkは正の整数 x1x12、……x1k
X1 + x2 x1x2
x1 * x2 x1x2x1 * x2
x1, x2 x1 * x2のみ
x2 x2は含めない
X1 *x2 + x3 x1x2x3x1 * x2
X1 + x2 + x3 + X1 = x2 x1x2x3x1 * x2
X1 *x2*x3 - X1:x2:x3 x1x2x3x1 * x2x1 * x3x2 * x3
X1 *(x2 + x3) x1x2x3x1 * x2x1 * x3

詳細は,ウィルキンソンの表記法を参照してください。

正準関数

一般化線形モデルの既定のリンク関数は,“正準リンク関数”です。

分布 正準リンク関数名 リンク関数 平均 (逆) 関数
“正常” “身份” F (μ) = μ μ = Xb
“二” 分对数的 F (μ) = log(μ/(1 - μ)) = exp(Xb) / (1 + exp(Xb))
“泊松” “日志” F (μ) = log(μ) μ = exp(Xb)
“伽马” -1 F (μ) = 1/μ μ = 1/(Xb)
逆高斯分布的 -2 F (μ) = 1/μ2 μ = (Xb)1/2

ヒント

  • 正則化された線形モデルmdlは,別途分布名前と値のペアで指定しない限り,標準線形モデルです。

  • devianceTestなどの他のメソッドや,GeneralizedLinearModelオブジェクトのプロパティにいては,GeneralizedLinearModelを参照してください。

  • モデルに学習をさせた後で,新しいデタにいて応答を予測するc / c++コドを生成できます。C/ c++コ,ドの生成にはMATLAB编码器™が必要です。詳細にいては,コ,ド生成の紹介を参照してください。

アルゴリズム

  • “ステップワ电子邮箱ズ回帰”は,応答変数の説明としての各項の統計的な重要性に基づき,線形または一般化線形モデルの項を追加したり削除するための体系的な方法です。この方法は,まずmodelspecを使用して指定される初期モデルから開始して,徐々により大きいまたはより小さいモデルの説明能力を比較していきます。

    関数stepwiseglmは,変数増減法のステップワaaplズ回帰を使用して,最終的なモデルを決定します。各ステップで,名前と値のペアの引数“标准”の値に基づいて,モデルに追加する項またはモデルから削除する項が探索されます。

    線形回帰モデルでは,“标准”の既定値は上交所的です。この場合,LinearModel一步stepwiselmは,各ステップでF統計量のp値を使用して,ある項が存在する場合と存在しない場合のモデルを検定します。ある項が現在はモデルにない場合,帰無仮説は,項がモデルに追加された場合に係数ゼロをもつということです。帰無仮説を棄却する十分な証拠がある場合,その項がモデルに追加されます。逆に,ある項がモデルに現在ある場合,帰無仮説は,その項が係数ゼロをもことです。帰無仮説を棄却する十分な証拠がない場合,その項がモデルから削除されます。

    “标准”上交所的である場合,ステップワ。

    1. 初期モデルをあてはめます。

    2. 使用可能な一連の項の中でモデルに含まれていないものを調べます。いずれかの項に対するp値が開始許容誤差より小さい場合(つまり,モデルに追加すると係数がゼロになる可能性が低い場合),p値が最小である項を追加し,このステップを繰り返します。それ以外の場合,ステップ3を実行します。

    3. モデルに含まれている使用可能な項のいずれかに対するp値が終了許容誤差より大きい場合(つまり,係数がゼロになるという仮説を棄却できない場合),p値が最大である項を削除してステップ2に戻ります。それ以外の場合,このプロセスを終了します。

    高い次数の項は,その項のサブセットである低い次数の項のすべてもモデルに含まれている場合を除き,どの段階でも追加されません。たとえば,X1X2 ^ 2の両方が既にモデルに含まれている場合を除き,X1, X2 ^ 2という項の追加は試行されません。同様に,高い次数の項がモデルに残っている場合,そのサブセットである低い次数の項は削除されません。たとえば,X1, X2 ^ 2がモデルに残っている場合,X1またはX2 ^ 2の削除は試行されません。

    一般化線形モデルでは,“标准”の既定値は“异常”です。GeneralizedLinearModel一步stepwiseglmは,同様の手順に従って項を追加または削除します。

    名前と値のペアの引数“标准”を使用して,他の基準を指定できます。たとえば,赤池情報量基準、ベイズ情報量基準、決定係数または自由度調整済み決定係数の値の変化を、項の追加または削除の基準として指定できます。

    初期モデルに含まれている項と,項の追加および削除を行う順序によって,同じ一連の項から異なるモデルが構築される可能性があります。どのステップでもモデルが改良されなくなると,この関数は終了します。ただし,異なる初期モデルまたはステップの順序を使用しても,近似が向上するという保証はありません。この意味において,ステップワイズモデルは,局所的には最適でも大域的には最適ではないことがあります。

  • stepwiseglmでは,カテゴリカル予測子が次のように扱われます。

    • L個のレベル(カテゴリ)があるカテゴリカル予測子をもモデルには,L - 1個の指標変数が含まれています。1番目のカテゴリが基準レベルとして使用されるので、基準レベルに対する指標変数はモデルに含まれません。カテゴリカル予測子のデータ型が分类である場合,类别を使用してカテゴリの順序をチェックし,reordercatsを使用してカテゴリを並べ替えることにより,基準レベルをカスタマ。指標変数の作成の詳細にいては,ダミ,変数の自動作成を参照してください。

    • stepwiseglmは,L - 1個の指標変数のグル,プを単一の変数として扱います。指標変数を個別の予測子変数として扱うには,dummyvarを使用して指標変数を手動で作成します。そして,モデルをあてはめるときに,カテゴリカル変数の基準レベルに対応するものを除く指標変数を使用します。カテゴリカル予測子Xにいてdummyvar (X)のすべての列と切片項を予測子として指定した場合,計画行列はランク落となります。

    • L個のレベルをもカテゴリカル予測子と連続予測子の間の交互作用項は,L - 1個の指標変数と連続予測子の要素単位の積から構成されます。

    • L個のレベルをもつカテゴリカル予測子とM個のレベルをもつカテゴリカル予測子の間の交互作用項は,2つのカテゴリカル予測子のレベルについて可能なすべての組み合わせを含めるため,(l - 1)*(m - 1)個の指標変数から構成されます。

    • 指標の二乗はそれ自体に等しいので,より次数が高い項をカテゴリカル予測子に対して指定することはできません。

    したがって,stepwiseglmがカテゴリカル予測子を追加または削除する場合,実際には指標変数のグループが一度に追加または削除されます。同様に,カテゴリカル予測子が含まれている交互作用項をstepwiseglmが追加または削除する場合,実際には,カテゴリカル予測子が含まれている交互作用項のグループが追加または削除されます。

  • stepwiseglmは,资源描述XおよびYに含まれている(空の文字ベクトル),""(空のstring),< >失踪,および<定义>値を欠損値と見なします。stepwiseglmは,欠損値がある観測値をあてはめで使用しません。あてはめたモデルのObservationInfoプロパティは,stepwiseglmが各観測値をあてはめで使用したかどうかを示します。

代替方法

  • fitglmを使用して,固定された仕様のモデルを作成します。一步addTermsまたはremoveTermsを使用して近似モデルを調整します。

参照

[1] Collett, D.二进制数据建模。纽约:查普曼和霍尔,2002年。

[2]多布森,a.j.广义线性模型导论。纽约:查普曼和霍尔,1990年。

[3]麦cullagh P.和J. A. Nelder。广义线性模型。纽约:查普曼和霍尔,1990年。

R2013bで導入