主要内容

このペ,ジの翻訳は最新ではありません。ここをクリックして,英語の最新版を参照してください。

plotDiagnostics

線形回帰モデルの観測値の診断情報をプロット

説明

plotDiagnosticsは,影響力が大きい観測値および外れ値を識別するための,観測値の診断情報(てこ比,クックの距離,1標本を取り除いたときの統計量(Delete-1統計量)など)のプロットを作成します。

plotDiagnostics (mdlは、線形回帰モデル(mdl)の観測値のてこ比プロットを作成します。プロット内の点線は,推奨されるしきい値を表します。

plotDiagnostics (mdlplottypeは,観測値の診断情報のタplottypeを指定します。

plotDiagnostics (mdlplottype名称,值は1つ以上の名前と値のペアの引数を使用して,診断データ点のグラフィックプロパティを指定します。たとえば,デタ点のマカ記号やサズを指定できます。

h= plotDiagnostics (___は,前の構文におけるいずれかの入力引数の組み合わせを使用して,プロット内のラインまたは等高線のグラフィックスオブジェクトを返します。プロットの作成後に特定のラ电子邮箱ンまたは等高線のプロパティを修正するには,hを使用します。プロパティの一覧にいては,热线のプロパティおよび轮廓のプロパティを参照してください。

すべて折りたたむ

観測値のてこ比の値とクックの距離をプロットして,外れ値を検出します。

carsmallデータセットを読み込み,モデル年,重量,および重量の二乗の関数として,燃費の線形回帰モデルをあてはめます。

负载carsmalltbl = table(MPG,Weight);资源描述。Year = categorical(Model_Year);MDL = fitlm(tbl,MPG ~年+重量^2);

てこ比値をプロットします。

plotDiagnostics (mdl)传说(“显示”%显示图例

图中包含一个轴对象。标题为Case order plot的axis对象包含2个类型为line的对象。这些对象代表杠杆,参考线。

点線は,推奨されるしきい値2*p/nを表します。pは係数の数,nは観測値の数です。NumCoefficientsおよびNumObservationsプロパティを使用して,しきい値を求めます。

t_leverage = 2* mll . numcoefficients / mll . numobservations
T_leverage = 0.1064

てこ比の値がしきい値を超えている観測値を検出します。

找到(mdl.Diagnostics。杠杆> t_leverage)
ans =3×126 32 35

デ,タヒントを使用して観測値の番号を確認することもできます。しきい値のラインより上にあるデータ点を選択すると、データ ヒントが表示されます。データ ヒントには、選択した点のx軸およびy軸の値と,観測値の番号が含まれます。

クックの距離の値をプロットします。

plotDiagnostics (mdl“cookd”

图中包含一个轴对象。Cook’s distance Case order plot的坐标轴对象包含2个类型为line的对象。这些物体代表库克的距离,参考线。

点線は,推奨されるしきい値を表します。しきい値t_cookdを計算します。

t_cookd = 3*mean(mld . diagnostics . cooksdistance,“omitnan”
T_cookd = 0.0320

クックの距離の値がしきい値を超えている観測値を検出します。

找到(mdl.Diagnostics。> t_cookd)
ans =6×126 35 80 90 92 97

2つの観測値(26および35)は両方の尺度で外れ値です,がいくつかの点(80、90、92および97)は一方の尺度のみで外れ値です。

入力引数

すべて折りたたむ

線形回帰モデル。fitlmまたはstepwiselmを使用して作成したLinearModelオブジェクトとして指定します。

プロットのタ@ @プ。次の表のいずれかの値を指定します。

プロットタ@ @プ プロット内の点線の基準線 目的
“轮廓” クックの距離の等高線を重ね合わせた,残差対てこ比 クックの距離の等高線 残差,てこ比およびクックの距離の値が大きい観測値を特定。
“cookd” クックの距離 3 *意味着(mdl.Diagnostics.CooksDistance)によって計算された,推奨されるしきい値 クックの距離の値が大きい観測値を特定。
“covratio” 共分散の行列式の删除-1比 1±3 * p / nによって計算された,推奨されるしきい値。pは係数の個数(mdl。NumCoefficients)、nは観測値の個数(mdl。NumObservations 推奨されるしきい値の範囲に删除-1統計量の値が含まれない観測値を特定。
“dfbetas” 係数推定値のスケリングされた删除-1差分 3 /√(n)によって計算された,推奨されるしきい値 删除-1統計量の値が大きい観測値を特定。
“dffits” 近似値のスケリングされた删除-1差分 2 *倍根号(p / n)によって絶対値で計算された,推奨されるしきい値 删除-1統計量の絶対値が大きい観測値を特定。
“杠杆” てこ比 2 * p / nによって計算された,推奨されるしきい値 てこ比が大きい観測値を特定。
“s2_i” 1標本を取り除いたときの分散 平均二乗誤差 (mdl。均方误差 删除-1分散と平均二乗誤差を比較。

“轮廓”を除くすべてのプロットタプで,x軸は観測値の行番号(ケス順)です。

mdl诊断プロパティには,plotDiagnosticsがプロットの作成に使用した診断値が格納されます。

観測値の診断情報の詳細にいては,クックの距離1標本を取り除いたときの統計およびてこ比を参照してください。

名前と値の引数

例:“颜色”、“蓝”、“标记”,“o”

オプションの名称,值引数のコンマ区切りペアを指定します。名字は引数名で,价值は対応する値です。名字は引用符で囲まなければなりません。Name1, Value1,…,的家のように,複数の名前と値のペアの引数を,任意の順番で指定できます。

メモ

ここでは,グラフィックプロパティの一部だけを紹介しています。完全な一覧にいては,热线のプロパティを参照してください。指定したプロパティによって,診断デ,タ点の外観が決まります。

ラ@ @ンの色。“颜色”とRGB 3成分,16進数のカラーコード,または,以下の表に記載されているいずれかの色オプションに対応する色の名前または省略名から構成されるコンマ区切りのペアとして指定します。

“MarkerEdgeColor”“汽车”(既定)であり“MarkerFaceColor”“汽车”である場合,名前と値のペアの引数“颜色”はマカの輪郭の色とマカの塗りぶし色も決定します。

カスタム色の場合は,rgb 3成分または16進数のカラコドを指定します。

  • RGB 3成分は,色の赤,緑,青成分の強度を指定する3要素の行ベクトルです。強度は範囲[0, 1]に含まれていなければなりません。たとえば[0.4 0.6 0.7]のようになります。

  • 16進数のカラ、コ、ドは、ハッシュ記号()で始まり,0からFの範囲にある16進数が3つまたは6つ続く,文字ベクトルまたは字符串スカラーです。この値では,大文字と小文字は区別されません。したがって,カラ,コ,ド“# FF8800”“# ff8800”“# F80”“# f80”は等価です。

あるいは,一部の一般的な色を名前で指定できます。次の表は,名前が付いた色のオプション,等価なRGB 3成分,および16進数のカラーコードの一覧です。

色の名前 省略名 RGB 3成分 16進数のカラコド 外観
“红色” “r” [10 0 0] “# FF0000”

样品的颜色为红色

“绿色” ‘g’ [0 10 0] “# 00 ff00”

样品的颜色为绿色

“蓝” “b” [0 0 1] “# 0000 ff”

样品的颜色为蓝色

“青色” “c” [0 1 1] “# 00飞行符”

样品的颜色为青色

“红色” “米” [10 0 1] “#就”

样品的颜色为洋红色

“黄色” “y” [11 10 0] “# FFFF00”

样品的颜色为黄色

“黑” “k” [0 0 0] # 000000的

样品颜色为黑色

“白色” ' w ' [1 1 1] “# FFFFFF”

样品颜色为白色

“没有” 該当なし 該当なし 該当なし 色なし

以下は,matlab®が多くのタイプのプロットで使用する既定の色に対するRGB 3成分および16進数のカラーコードです。

RGB 3成分 16進数のカラコド 外観
[0 0.4470 0.7410] “# 0072 bd”

RGB三联体[0 0.4470 0.7410]样品,呈深蓝色

[0.8500 0.3250 0.0980] “# D95319”

RGB三联体样品[0.8500 0.3250 0.0980],呈暗橙色

[0.9290 0.6940 0.1250] “# EDB120”

RGB三联体样品[0.9290 0.6940 0.1250],呈暗黄色

[0.4940 0.1840 0.5560] “# 7 e2f8e”

RGB三联体样品[0.4940 0.1840 0.5560],呈深紫色

[0.4660 0.6740 0.1880] “# 77 ac30”

RGB三联体[0.4660 0.6740 0.1880]样本,呈现中绿色

[0.3010 0.7450 0.9330] “# 4 dbeee”

RGB三联体样品[0.3010 0.7450 0.9330],呈浅蓝色

[0.6350 0.0780 0.1840] “# A2142F”

RGB三联体样品[0.6350 0.0780 0.1840],呈暗红色

例:“颜色”、“蓝”

ラ@ @ンの幅。“线宽”と正の値(ポaapl .ント単位)から構成されるコンマ区切りのペアとして指定します。ランにマカがある場合,ラン幅はマカエッジにも影響を与えます。

例:“线宽”,0.75

マ,カ,記号。“标记”と次の表のいずれかの値から構成されるコンマ区切りのペアとして指定します。

マカ 説明 結果として得られるマカ
“o”

圆形记号笔样品

“+” プラス記号

加号标记的样本

‘*’ アスタリスク

星号标记样本

“。”

点标样本

“x” 十字

十字标记样本

“_” 水平線

水平线标记样本

“|” 垂直線

垂直线标记的样本

“年代” 正方形

方形记号笔样本

' d ' 菱形

钻石线标记的样品

“^” 上向き三角形

向上三角形标记的样本

“v” 下向き三角形

向下指向三角形标记的样本

“>” 右向き三角形

右指向三角形标记的样本

“<” 左向き三角形

左指向三角形标记的样本

“p” 星形五角形

五角星记号笔样本

“h” 星形六角形

六芒标记的样本

“没有” マ,カ,なし 該当なし

例:“标记”,“+”

マ,カ,の輪郭の色。“MarkerEdgeColor”とRGB 3成分,16進数のカラコド,または,名前と値のペアの引数颜色に記載されているいずれかの色オプションに対応する色の名前または省略名から構成されるコンマ区切りのペアとして指定します。

既定値“汽车”では,“颜色”を使用して指定されるものと同じ色が使用されます。

例:“MarkerEdgeColor”、“蓝”

マカの塗りぶし色。“MarkerFaceColor”とRGB 3成分,16進数のカラコド,または,名前と値のペアの引数颜色に記載されているいずれかの色オプションに対応する色の名前または省略名から構成されるコンマ区切りのペアとして指定します。

“汽车”では,“颜色”を使用して指定されるものと同じ色が使用されます。

例:“MarkerFaceColor”、“蓝”

マカサズ。“MarkerSize”と正の値(ポaapl .ント単位)から構成されるコンマ区切りのペアとして指定します。

例:“MarkerSize”,2

出力引数

すべて折りたたむ

プロット内のラ@ @ンまたは等高線に対応するグラフィックスオブジェクト。グラフィックス配列として返されます。グラフィックスオブジェクトのプロパティのクエリと設定を行うには,ドット表記を使用します。詳細にいては,热线のプロパティおよび轮廓のプロパティを参照してください。

名前と値のペアの引数を使用して,1番目のグラフィックスオブジェクトh (1)に対応する,診断デ,タ点の外観を指定できます。plottype“dfbetas”である場合,各係数に対応する行オブジェクトがプロットに含まれます。名前と値のペアの引数は,すべての係数の行オブジェクトのプロパティを指定します。対応するグラフィックスオブジェクトを使用して,各係数のプロパティを個別に修正できます。

詳細

すべて折りたたむ

クックの距離

クックの距離は近似値におけるスケーリングされた変化であり,Xの値(予測子変数に対する観測値)から外れ値を特定する場合に便利です。クックの距離は,近似応答値に対する各観測値の影響を示します。平均のクックの距離の3倍を超える観測は外れ値の可能性があります。

クックの距離dの各要素は,観測値の削除による近似応答値の変化を正規化した値です。観測値我のクックの距離は次のようになります。

D j 1 n y j y j 2 p 年代 E

ここで

  • y j は,j番目の近似応答値です。

  • y j は,i番目の観測値を除いて近似したj番目の応答値です。

  • Mseは,平均二乗誤差です。

  • Pは回帰モデルの係数の数です。

クックの距離は代数的には次の式と等価です。

D r 2 p 年代 E h 1 h 2

ここでrはI番目の残差,h2は我番目のてこ比値です。

詳細は,クックの距離を参照してください。

1標本を取り除いたときの統計

1標本を取り除いたときの統計量(Delete-1統計量)は,各観測値の影響を特定するために便利です。これらの統計量は,各観測値を順番にあてはめから除外することによって生じる変化を取得します。すべての観測値を使用するモデルとDelete-1統計量が大きく異なる場合,その観測値には大きい影響力があります。

删除-1統計量の定義と使用法にいては,1標本を取り除いたときの統計を参照してください。

てこ比

てこ比は,入力空間で特定の観測の位置が原因で発生した,回帰予測におけるその観測値の影響を測定します。

観測値iのてこ比はハット行列Hのi番目の対角項H2の値です。ハット行列hは,デ,タ行列xに関して次のように定義されます。

H = x (xTX)1XT

ハット行列は“射影行列”とも呼ばれます。これは,観測値のベクトルyを予測値のベクトル y に射影するので“ハット”がyの上に置かれるためです。

てこ比値の合計はp(回帰モデルの係数の個数)なので,てこ比がp / n (nは観測値の個数)を大幅に超える場合,観測値我は外れ値であると考えることができます。

詳細は,ハット行列とてこ比を参照してください。

ヒント

  • データカーソルを使用すると,選択したプロットの点の値がデータヒント(データ点の横にある小さいテキストボックス)に表示されます。デ,タヒントには,選択した点のx軸およびy軸の値と,観測値の名前または番号が含まれます。

  • 事前設定済みの凡例を表示するには,传奇(显示)を使用します。

代替機能

  • LinearModelオブジェクトには,複数のプロット関数が用意されています。

    • モデルを作成するときに,予測子変数の追加または削除による効果を理解するには,plotAddedを使用します。

    • モデルを検証するときに,問題があるデ,タを探し,各観測値の効果を理解するには,plotDiagnosticsを使用します。また,モデルの残差を分析するには,plotResidualsを使用します。

    • モデルをあてはめた後で,特定の予測子の効果を理解するには,plotAdjustedResponseplotPartialDependenceおよびplotEffectsを使用します。2つの予測子の間の交互作用効果を理解するには、plotInteractionを使用します。また,予測曲面を通るスラplotSliceを使用します。

参照

[1]内特,J., M. H.库特纳,C. J.纳赫茨海姆和W.沃瑟曼。应用线性统计模型,第四版。芝加哥:McGraw-Hill Irwin, 1996。

拡張機能

バ,ジョン履歴

R2012aで導入