主要内容

このページの翻訳は最新ではありません。ここをクリックして,英語の最新版を参照してください。

Fitglm.

一流化链形回帰モデル作作作作作者:作者

说明

MDL.= fitglm(资源描述的)は,テーブルまたはデータセット配列资源描述既定の変形当て般返し返しは返しででで,Fitglm.は最后の変数を応答変数として取ります。

MDL.= fitglm(Xy的)は,データ行列Xに当てはめる応答yの一般化纤モデルモデル返します。

MDL.= fitglm(___Modelspec.的)Modelspec.で指定したタイプの一般化線形モデルを返します。

MDL.= fitglm(___名称,价值的)は,1つまたは复数の名称,价值のペアの引数によって指定された追加オプションを使用して一般化線形モデルを返します。

たとえば,カテゴリカルカテゴリカル偏分,応答函数の分布,使応答するリンク关键词。

すべて折りたたむ

2次交互作用モデルを使用し,年齢,体重,性別を関数とする喫煙可能性の論理二項モデルを作成します。

データセット配列医院を読み込みます。

加载医院dsa =医院;

吃烟のは応答変ますますはは変変しますは応答変ですます。

modelspec =吸烟者年龄*体重*性别-年龄:体重:性别;

管理二项モデルをあてはめます。

mdl = fitglm(dsa,modelspec,“分布”'二重子'的)
MDL =广义线性回归模型:Logit(吸烟)〜1 +性别*年龄+性别*重量+年龄*重量分布=二项式估计系数:估计SE Tstat pvalue ___________ ________________________________________________________________0492 19.749 -0.3063 0.75938 SEX_MALE  -2。2859 12.424 -0.18399 0.85402 Age 0.11691 0.50977 0.22934 0.81861 Weight 0.031109 0.15208 0.20455 0.83792 Sex_Male:Age 0.020734 0.20681 0.10025 0.92014 Sex_Male:Weight 0.01216 0.053168 0.22871 0.8191 Age:Weight -0.00071959 0.0038964 -0.18468 0.85348 100 observations, 93 error degrees of freedom Dispersion: 1 Chi^2-statistic vs. constant model: 5.07, p-value = 0.535

すべてのp値(pValueの)は大きな値です。つまり,有色ななはありませんんんんん。 P. 値0.535はこのモデルが定数モデルとは統計的に異なっていない可能性があることを示しています。

20個の予測子で標本データを作成し,そのうちの3つのみの予測子と1つの定数を使ってポアソン応答を作成します。

rng (“默认”的)再现性的百分比x = randn(100,7);mu = exp(x(:,[1 3 6])* [。4; .2; .3] + 1);y = poissrnd(mu);

ポアソン分布を使用して一般化線形モデルをあてはめます。

mdl = fitglm(x,y,'线性'“分布”“泊松”的)
mdl =广义线性回归模型:log(y) ~ 1 + x1 + x2 + x3 + x4 + x5 + x6 + x7分布=泊松估计系数:估计SE tStat pValue _________ ________ ________ __________(截距)0.88723 0.070969 12.502 7.3149e-36 x1 0.44413 0.052337 8.4858 2.1416e-17 x2 0.0083388 0.056527 0.14752 0.88272 x3 0.21518 0.063416 3.3932 0.00069087 x4 -0.058386 0.065503 -0.89135 0.37274 x5 -0.060824 0.073441 -0.8282 0.40756 x6 0.34267 0.056778 6.0352 1.5878e-09 x7 0.043160.。0.6146 0.70225 0.48252 100 observations, 92 error degrees of freedom Dispersion: 1 Chi^2-statistic vs. constant model: 119, p-value = 1.55e-22

1.58 0.00069 2.14 e-17およびe-09というP.値は,遇数x1x3およびx6の係数が統計的に有意であることを示します。

入力引数

すべて折りたたむ

予測子変数と応答変数を含む入力データ。テーブルまたはデータセット配列として指定します。予測子変数と応答変数は、数値、logical、categorical、文字または string にすることができます。応答変数のデータ型を数値以外にすることができるのは、“分布”'二重子'である结合だけだけ。

  • 既定では,Fitglm.は最后の変数を応答変数として,それ以外の変数を予测子変数として取ります。

  • 応答応答数として异なる列を设定するには,名称と値のペア幂响应遗传を使用します。

  • 列のサブセットを予測子として使用するには,名前と値のペア引数预测orvarsを使用します。

  • モデル仕様を定義するには,式または項行列を使用して引数Modelspec.をまたは项ます。

テーブルの数名は,有效なmatlab®识别子である必要はありません。ただし,名前が有效ではない场合,モデルをあてはめるまたは调整するときに式を使用することはできません。以下に例を示します。

  • 式を使使使Modelspec.を指定することはできんん。

  • 关节有关部addterms.または関数removeTermsをを使使使とき,式式使使しし追または削除する项指定するはできませんませはできませませ

  • 名称とと値ののペアの“低”'上'をを用词相关数一步または関数挺身油をを使使ときに,式を使用してモデルのとを指定することできませませんするできませんんできませんんませません。

关节有关部Isvarname.を使用して资源描述の変数名を検証できます。変数名が有効でない場合,関数matlab.lang.makevalidname.を使用してそれらを変換できます。

n行P列の行列としてされる予测子幂。Xの各列が1つの変数を表し,各行が1つの観测値を表します。

既定では,明显的に削除しない限制,モデルにはは数项项あるので,1の列をXに含めないでください。

データ型:单身的|

応答変数。ベクトルまたは行列として指定します。

  • “分布”'二重子'ではない場合,yはn行1列のベクトルでなければなりません。ここでnは観測値の数です。yの各エントリはXのの対応する応答応答応答型型单または双重でなければなりません。

  • “分布”'二重子'であるである合,yはn行1列のベクトル,またはまたは1にカウント,列2にBinomialsize.をもつn行2列の行列とすることができます。

データ型:单身的||逻辑|分类

モデル仕様。次のいずれかの値を指定します。

  • モデルを指定する文ベクトルベクトルまたはまたはスカラー。

    モデルタイプ
    “不变” モデルモデル偏执(切片)项だけを含み。
    '线性' 切片と各予测子の线形项がモデルに含まれます。
    '互动' 切片,各予測子の線形項,および異なる予測子のペアすべての積がモデルに含まれます(二乗項はありません)。
    'purequadratic' 切片項と各予測子の線形項および二乗項がモデルに含まれます。
    “二次” 切片項,各予測子の線形項,二乗項,および異なる予測子のペアすべての積がモデルに含まれます。
    'Poly.ijk' モデルは多重式式,1番目のの子における数一世までのすべての项,2番目のの子における数jまでのすべてすべての项が含まれますますますますについて同様同様.0〜9の数据を使し,各各子の最大声を指定ますます。たとえばが,各交互作用项,指定指定された次の最最たとえばたとえばたとえば,“poly13”には,切片,x1,X2,X22,X23.,X1*X2およびX.1*X22の各項が含まれます。x1およびX.2はそれぞれ1番目および2番目の予测子です。
  • モデル内の项をを指定t行(p + 1)列の行列,つまり項の行列。は予测子数目のであり,+ 1は応答ににします。

  • 次の形式の文字ベクトルまたは字符串スカラー

    “y ~条款”

    ここで,条款ウィルキンソンの表記法で表されます。式式数は资源描述の数名またはvarnames.また,幂名,はなな识别んんませませんませませませませませなませませませませませませませませませませませませななりなりませませませませませませませませませませませませませませませませませませませ识别识别识别识别识别

    资源描述またはXの项の顺序によって,あてはめたモデルの项の顺序が决定されます。そのため,モデルの项の顺序は,指定した式での项の顺序とは异なる场合があります。

例:“二次”

名称とと値ののペアの

オプションの名称,价值名称は数名で,价值は対応する値です。名称は引用符で囲まなければなりません。Name1, Value1,…,的家のように,复数の名前とのペアののを,任意の顺番で指定でき。

例:“分布”,“正常”,“链接”,“概率”,“排除”[23,59]は応答の分布が正式であることを指定し,プロビットリンク关键词使し近似から23番目と59番目の観测値を除するFitglm.に指示します。

二项分布の行流数,つまり标本サイズ。'binomialsize'资源描述の源名,数码スカラー,または応答と同じささ区切りのペアとして指定コンマ近似し二项ますます。N.パラメーターです。Binomialsize.分配パラメーターが'二重子'であるときにだけ适适れ。

Binomialsize.がスカラー値の场合は,すべての観测が同じ试行回数であることを意味します。

Binomialsize.の代替法として,列1にカウント,列2にBinomialsize.をもつ2列の行列として応答を指定できます。

データ型:单身的||字符|字符串

既定としてします。

データ型:单身的|

カテゴリカル変数のリスト。“CategoricalVars”と,テーブルまたはデータセット配列资源描述内のカテゴリカル数名が含まれているいる字のの配列または字符串配列,またはどの列がであるかを示すインデックスまたは资料。

  • データがテーブルまたはデータセット配列资源描述に格式されてて结合の既定では,Fitglm.はは値,论论,文章配列,字符串配列,および文字の细胞

  • データが行列Xに格納されている場合,“CategoricalVars”のの既定値はは空行为[]です,カテゴリカルとして指定ない限制,カテゴリカルになるなるははありん。

たとえば,以下のいずれかを使用して,6つのうちの2番目と3番目の変数をカテゴリカルとして指定できます。

例:'patoricalvars',[2,3]

例:'pationoricalvars',逻辑([0 1 1 0 0 0])

データ型:单身的||逻辑|字符串|细胞

'二重子'および“泊松”分布の分パラメーターを计算する。“DispersionFlag”と以下のいずれかで构成されるコンマ区切りのペアとして指定します。

真的 標準誤差を計算するときに分散パラメーターを推定します。分散パラメーターの推定値は,ピアソン残差の二乗和を誤差の自由度(DFE)で除算した値です。
错误的 标准既定误差を计算するするときに値値値値値値値値値値値値値

近似关数は常に他の分布の分散を予测します。

例:'DispersensionFlag',真实

応答分数の分布。“分布”と以下のいずれかで构成されるコンマ区切りのペアとして指定します。

'普通的' 正規分布
'二重子' 二项分布
“泊松” ポアソン分布
'伽玛' ガンマ分布
'逆高斯' 逆ガウス分布

例:'分布','伽玛'

近似から除外する観測値。“排除”と,近似から除外する観測値を示す論理インデックスベクトルまたは数値インデックスベクトルで構成されるコンマ区切りのペアとして指定します。

たとえば,以下のいずれかの例を使用して,6つの観測値のうち観測値2および3を除外できます。

例:'排除',[2,3]

例:“排除”,逻辑([0 1 1 0 0 0])

データ型:单身的||逻辑

あてはめあてはめ分数项(切片)のインジケーター。'截距'と,モデルに分数项を含める真的またはモデルから定数項を削除する错误的で構成されるコンマ区切りのペアとして指定します。

式または行列ではなく文字ベクトルまたは字符串スカラーを使用してモデルを指定する場合のみ,'截距'を使用します。

例:“拦截”,假的

最適化オプション。構造体を指定します。この引数は、Fitglm.が使用する反復アルゴリズムの制御パラメーターを決定します。

“选项”ののを作用成するには,关联statsetを使用するか,次の表に記載されているフィールドと値が含まれている構造体配列を作成します。

フィールド名 既定値
展示

アルゴリズムで表示される情報量

  • “关闭”- 情表示

  • “最后一次”- 最终最终力を表示

“关闭”
麦克斯特

許容される最大反復回数。正の整数として指定

100.
托克斯

パラメーターの终了许容误差。正のスカラーとして指定

1 e-6

コマンドウィンドウで「statset ('Fitglm.')「とと力して,Fitglm.が名称と値値の数“选项”で受け入れるフィールドの名前と既定値を表示することもできます。

例:'选项',statset('显示','最终','maxiter',1000)は,反復アルゴリズムの結果の最終情報を表示し,許容される最大反復回数を1000に変更するよう指定します。

データ型:塑造

近似のオフセット変数。'抵消'资源描述に含まれる変数名または応答と同じ长さの数値ベクトルで构成されるコンマ区切りのペアとして指定します。

Fitglm.は,系数値を1で固定した追追の子として抵消を使用します。つまり,当てはめの式は次のようになります。

f(μ)= offset + x * b

ここで,fはリンク关联,μsは平均応答,x * bはは子xの形形结合。抵消のの数は1です。

たとえば,ポアソン回帰モデルを検討してください。カウントの数が理論上の理由により予測子一个に対してに対して比例していることがわかっていると仮定しし.logリンク关关数を使用し,オフセットに日志(一)を指定することにより,この理論上の制約を満たすことをモデルに強制できます。

データ型:单身的||字符|字符串

あてはめあてはめ使使する子数量。'predictorvars'と,テーブルまたはデータセット配列资源描述に格式されているいるいる名前を表すベクトルの细胞。

字符串値または文库ベクトルは,资源描述に含まれてて名称,または名前と値のペアの'varnames'を使用して指定した名前でなければなりません。

既定の设定は,X内のすべてすべて数,または响应遗传を除く,资源描述内内すべてのの数。

たとえば,以下のいずれかの例を使用して,2-番目と3番目の変数を予测子変数として指定できます。

例:'predictorvars',[2,3]

例:'predictorvars',逻辑([0 1 1 0 0 0])

データ型:单身的||逻辑|字符串|细胞

あてはめあてはめ使使する応答数。'responsevar'と,テーブルまたはデータセット配列资源描述内内源名称が格式されている字ベクトル字符串配列,またはどの列が応答変であるを示す列インデックスまたはまたはインデックスベクトルからからからささコンマ区切りのペアペア指定しし区切りののペアとしてしし常常常ののののテーブルまたはテーブルのまたはまたはまたはテーブルテーブルテーブルまたはデータセット配列资源描述を近似させる场合'responsevar'を使用する必要があります。

たとえば,以下のいずれかの方法を使用して,6つの変数のうち4番目の変数,つまり屈服を応答分数として指定できます。

例:“ResponseVar”、“收益”

例:'ResponalVar',[4]

例:'ResponalVar',逻辑([0 0 0 1 0 0])

データ型:单身的||逻辑|字符|字符串

変数の名。'varnames'Xの列名录が最初に,応答函数yの名前が​​最后ににてている字ベクトルの

テーブルまたはデータセット配列の変数には既に名前が設定されているため,'varnames'はこれらの配列には适用されません。

変数名は,有効なMATLAB識別子である必要はありません。ただし,名前が有効ではない場合,モデルをあてはめるまたは調整するときに式を使用することはできません。以下に例をます。

  • 关节有关部addterms.または関数removeTermsをを使使使とき,式式使使しし追または削除する项指定するはできませんませはできませませ

  • 名称とと値ののペアの“低”'上'をを用词相关数一步または関数挺身油をを使使ときに,式を使用してモデルのとを指定することできませませんするできませんんできませんんませません。

'varnames',varnamesを指定指定する前,关键Isvarname.を使用してvarnames.の変数名を検証できます。変数名が有効でない場合,関数matlab.lang.makevalidname.を使用してそれらを変換できます。

例:'varnames',{'horsepower','加速','model_year','mpg'}

データ型:字符串|细胞

観测値の重み。'重量'と,非负のスカラー値のn行1列のベクトル(nは観测値値数)

データ型:单身的|

出力数

すべて折りたたむ

一流化链形モデル。Fitglm.または挺身油を使用して作成したGeneralizedLinearModel.オブジェクトとして指定します。

详细

すべて折りたたむ

項の行列

项行列T.は,モデル内の項を指定するt行(p + 1)列の行列です。tは項の数,pは予測子変数の数であり,+ 1は応答変数に相当します。T(i,j)のの値,项一世の変数jの指数です。

たとえば3つの予測子変数x1x2x3と応答数yx1x2x3yという順序で入力に含まれていると仮定します。T.の各行は1つの項を表します。

  • [0 0 0 0]——定数項(切片)

  • [0 1 0 0]-x2X1 ^0 * x2^1 * x3^0と等価)

  • [1 0 1 0]-x1 * x3

  • [2 0 0 0]-X1 ^ 2

  • [0 1 2 0]-x2 * (x3 ^ 2)

各项の最后の0.は,応答応答数を表します。一流に,项行列のゼロのベクトルは,応答変列の位置表し表し表し列ベクトルに予测に応答応答ががある场场とを示す0.を含めなければなりません。

モデル仕様の式は'y条款'という形式の文字ベクトルまたは字符串スカラーです。

  • yは応答名です。

  • 条款は,ウィルキンソンの表记法を使用してモデル内の予测子の项を表します。

予測子と応答変数を表現するには,表入力资源描述の数名,またはVarNamesを使用して指定された変数名を使用します。VarNamesの既定値は{'x1','x2',...,'xn','y'}です。

以下に例をます。

  • 'y ~ x1 + x2 + x3'は,切片がある3

  • 'y〜x1 + x2 + x3 - 1'は,切片がない3次数の形モデルモデルますますますますがが含まれることに注意てくださいモデルてててくださいてててててくださいてててててににににににににににににに-1を式に含めなければなりません。

-1をを用しし项明显的ににしないない含み。

ウィルキンソンの表記法

ウィルキンソンの表记法,モデルに现处于するするを记述ます。

ウィルキンソンの表记法で,以下の编号ををし。

  • +は,次の変数を含むことを意味します。

  • -は,次の変数を含まないことを意味します。

  • は,项の积である交互

  • *は,交互作用と,より低い次数の項すべてを定義します。

  • ^*を繰り返した場合とまったく同じ方法で予測子をべき乗にします。このため,^には,より低い次数の项も含まれます。

  • ()は,项项をグループグループし

次の表に,ウィルキンソンの表記法の代表的な例を示します。

ウィルキンソンの表記法 標準表記の項
1 参数(切片)项
X1 ^ K.K.は正の整数 x1x12,......,x1K.
x1 + x2 x1x2
x1 * x2 x1x2x1 * x2
X1:X2 x1 * x2のみ
-x2 x2は含めない
x1 * x2 + x3 x1x2x3x1 * x2
X1 + x2 + x3 + X1:x2 x1x2x3x1 * x2
x1 * x2 * x3 - x1:x2:x3 x1x2x3x1 * x2x1 * x3x2 * x3
x1 *(x2 + x3) x1x2x3x1 * x2x1 * x3

詳細は,ウィルキンソンの表記法を参照してください。

正准リンク有关部

一般化線形モデルの既定のリンク関数は,“正准关关”です。

分布 正准关节名称 リンク関数 平衡(逆)关节
'普通的' “身份” f(μ)=μ μ= XB.
'二重子' 'logit' f(μ)= log(μ/(1 - μ)) μ= exp(xb)/(1 + exp(xb))
“泊松” '日志' f(μ)= log(μ) μ= exp(XB)
'伽玛' -1 f(μ)= 1 /μ μ= 1 / (Xb)
'逆高斯' -2 f(μ)= 1 /μ2 μ= (Xb)-1/2

ヒント

  • 正式化さた形形モデルMDL.は,别途分配名称前値のペア指定しない限制。

  • plotResidualsまたはDevianceTest.などのメソッドや,GeneralizedLinearModel.オブジェクトのプロパティについては,GeneralizedLinearModel.を参照してください。

  • モデルに学習をさせた後で,新しいデータについて応答を予測するC / c++コードを生成できます。C / c++コードの生成にはMatlab Coder™が必要です。详细详细について,コード生成の紹介を参照してください。

アルゴリズム

  • Fitglm.では,カテゴリカル予测子が次のように扱われます。

    • l个个の(カテゴリ)があるカテゴリカルカテゴリカル子をもつモデルは,L - 1個の指標変数が含まれています。1番目のカテゴリが基準レベルとして使用されるので、基準レベルに対する指標変数はモデルに含まれません。カテゴリカル予測子のデータ型が分类であるである合,类别を使用してカテゴリの順序をチェックし,雷德斯を使用してカテゴリを並べ替えることにより,基準レベルをカスタマイズできます。指標変数の作成の詳細については,ダミー函数の自动作作作作者を参照してください。

    • Fitglm.L - 1個の指標変数のグループを単一の変数として扱います。指標変数を個別の予測子変数として扱うには,戴维尔を使用して指标変数を手动で作成します。そして,モデルをあてはめるときに,カテゴリカル変数の基准レベルに対応するものを除く指标変数を使用します。カテゴリカル予测子Xについてdummyvar(x)のすべての列と切片項を予測子として指定した場合,計画行列はランク落ちとなります。

    • l个のレベルをもつカテゴリカル子と连続连続子の间の交互作用L - 1个の指标変数と连続予测子の要素単位の积から构成されます。

    • l个个のレベルレベルをもつカテゴリカル子とm个ののをカテゴリカルカテゴリカル子间の交互作用项は,2つのカテゴリカルカテゴリカル子のについてななののわせをため(L - 1)*(M - 1)个个指标指标数からから成されます。

    • 指標の二乗はそれ自体に等しいので,より次数が高い項をカテゴリカル予測子に対して指定することはできません。

  • Fitglm.资源描述Xおよびyに含まれている''(空の文字ベクトル),(空の字符串),< >失踪,および<未定义>値を欠損値と見なします。Fitglm.は,欠损欠损値がある観测値をあてはめででででませませませませモデルモデルモデルモデルモデルモデルモデルモデルObservationInfoプロパティは,Fitglm.が各観测値をあてはめで使用したかどうかを示します。

代替機能

  • モデル仕様を自动的にするするは,挺身油を使用します。一步addterms.またはremoveTermsを使用して近似モデルを調整します。

参照

建模二进制数据。纽约:查普曼与霍尔出版社,2002年。

广义线性模型概论。纽约:查普曼与霍尔出版社,1990年。

[3] McCullagh, P.和J. A. Nelder。广义线性模型。纽约:查普曼与霍尔出版社,1990年。

拡張機能

R2013bで导入