カテゴリ平均値の差分の検定

この例で，，，，，，，，，因子因子因子因子因子因子，，，，，，，，分散，，，，，，，，，，，，，，，，，

この検定は、自動車のガロンあたりの想定走行マイル数が生産年代で異なるのか、それとも生産地で異なるのかを判別するために行います。

メモ

nominal配列データ型およびordinal配列データ推奨れません。付き顺序付けの离散离散非数値データをを表す表す代わり代わり代わり分类配列データ型を使用します。

标本データをます。

load('carsmall') unique(Model_Year)

ANS = 70 76 82

変数MPGには、100 台の標本の自動車で測定したガロンあたりの走行マイル数が格納されています。変数model_yearおよび起源には、それぞれの自動車のモデル年と生産国が格納されています。

最初の因子は製造年代です。データには 3 種類の製造年が存在します。

製造年代を示す因子を作成します。

70年と76年の観測値を1970sというラベルのカテゴリにマージし、82年の観測値を1980sというラベルのカテゴリに入れることで、Decadeという名前の順序配列を作成します。

Decade = ordinal(Model_Year,{'1970s',“ 1980年代”}，[]，[70 77 82]）;GetLevels（十年）

ans = 1970s 1980s

カテゴリ別にデータをプロットします。

ガロンあたりの走行マイル数の箱ひげ図を、製造年代ごとに作成します。

figure() boxplot(MPG,Decade) title('Miles per Gallon, Grouped by Decade of Manufacture')

1980年年代年代年代ようようようよう制造された车のの方方方方がが，，，，，、170年代年代年代年代年代年代に制造制造された自动自动よりもももガロン

要約統計を計算します。

各年代でガロンあたりの走行マイル数の平均と分散を計算します。

[xbar，s2，grp] = grpstats（mpg，十年，{'mean','var','gname'})

xbar = 19.7857 31.7097 s2 = 35.1429 29.0796 grp = '1970s' '1980s'

この出力結果では、1980 年代に製造された自動車のガロンあたりの走行マイル数は31.71であり、1970 年代に製造された自動車は19.79となっています。2 つのアンサンブルの分散は類似しています。

2 つの標本 t 検定を実行して、アンサンブルの平均が等しいか確認します。

分散が等しいと仮定して 2 つの標本の t 検定を実行し、アンサンブルの平均に有意差があるか確認します。仮説は以下のとおりです。

$\begin{array}{l} H_{0} : μ_{70} = μ_{80} \\ H_{A} : μ_{70} \neq μ_{80} . \end{array}$

MPG70 = MPG(Decade=='1970s'); MPG80 = MPG(Decade==“ 1980年代”); [h,p] = ttest2(MPG70,MPG80)

h = 1 p = 3.4809e-15

論理値1は、既定の有意水準 0.05 で帰無仮説が棄却されていることを示します。この検定の p 値は非常に小さくなっています。1980 年代と 1970 年代に製造された自動車では、ガロンあたりの走行マイル数の平均が異っているという十分な証拠が存在しています。

生産地を示す因子を作成します。

2 番目の因子は生産地です。最初に、起源をノミナル配列に変換します。

位置=名义（原始）;表（位置）

表（位置）Value Count Percent France 4 4.00% Germany 9 9.00% Italy 1 1.00% Japan 15 15.00% Sweden 2 2.00% USA 69 69.00%

生産国は 6 か国あります。ヨーロッパの国での観測数が比較的少なくなっています。

カテゴリをマージします。

カテゴリ法国、Germany、Italy、SwedenをEuropeという新しいカテゴリにまとめます。

Location = mergelevels(Location,...{'France','Germany','Italy','Sweden'},'欧洲'); tabulate(Location)

Value Count Percent Japan 15 15.00% USA 69 69.00% Europe 16 16.00%

要約統計を計算します。

ガロンあたりマイル数平均を，别计算计算ますます。

[xbar,grp] = grpstats(MPG,Location,{'mean','gname'})

xbar = 31.8000 21.1328 26.6667 grp = 'Japan' 'USA' 'Europe'

この結果、ガロンあたりの走行マイル数の平均が最も低いのは、米国製の自動車の標本ということがわかります。

2 因子 ANOVA を実行します。

2因子方差分析ををし，，DecadeとLocationの因子レベルの間にガロンあたりの想定走行マイル数の差があるか検定します。

統計モデルは次のとおりです。

$M P G_{i j} = μ + α_{i} + β_{j} + ε_{i j}, i = 1, 2; j = 1, 2, 3,$

ここで,英里/加仑_ijは製造年代 i に生産地 j で生産された自動車の応答 (ガロンあたりの走行マイル数) を表します。最初の因子 (製造年代) の処理効果は α_i项（合计はにます）。2（生产地）のは_j項です (合計はゼロになります)。ε_ijは無相関の正規分布ノイズ項です。

検定する仮説は、製造年代の効果の等価性と、

$\begin{array}{l} H_{0} : α_{1} = α_{2} = 0 \\ H_{A} : a t l e a s t o n e α_{i} \neq 0, \end{array}$

生産地の効果の等価性です。

$\begin{array}{l} H_{0} : β_{1} = β_{2} = β_{3} = 0 \\ H_{A} : a t l e a s t o n e β_{j} \neq 0。 \end{array}$

阿诺牛を使用すると複数因子 ANOVA を実行できます。

阿诺牛(MPG,{Decade,Location},'varnames'，{'Decade','地点'});

この出力结果结果结果因子のの结果てい。制造年代の效果效果の等価等価性をを検定検定しした结果结果2.88503e-180.05でで弃却されれます。。生产地のの性をを検定検定ししたたた结果7.40416e-10で、この帰無仮説も棄却されます。

ANOCOVA 分析を実行します。

この解析での交絡因子として、自動車の重量が考えられます。重量が大きい自動車の方が、燃費効率が低くなると予想されます。変数Weightを ANOVA の連続共変量として使用し、ANOCOVA 分析を実行します。

平行ラインを仮定すると,統計モデルは次のようになります。

$M P G_{i j k} = μ + α_{i} + β_{j} + γ W e i g h t_{i j k} + ε_{i j k}, i = 1, 2; j = 1, 2, 3; k = 1, ..., 100.$

このモデルと 2 因子 ANOVA モデルの違いは、連続予測子 Weight_ijkの有無です。これは i 番目の年代に j 番目の場所で生産された k 番目の自動車の重量を表します。勾配パラメーターは γ です。

阿诺牛の 2 番目の入力引数の 3 つ目のグループとして、連続共変量を追加します。名前と値の対の形をとる変数Continuousを使用して、Weight(3 番目のグループ) を連続に指定します。

阿诺牛(MPG,{Decade,Location,Weight},'Continuous',3,...'varnames'，{'Decade','地点','Weight'});

この出力结果は，自動車の重量について、生産地による効果の十分な証拠は存在しません (p 値 =0。1044)。

対話型ツールを使用します。

対話型のaoctoolを使用すると、この結果を調査することができます。

aoctool(Weight,MPG,Location);

このコマンドを実行すると、3 つのダイアログボックスが開きます。[ANOCOVA 予測プロット] ダイアログボックスで[異なる平均]モデルを選択します。

この出力结果は，Weightがモデル内に含まれていない場合、3 か所の生産地の間でガロンあたりの想定走行マイル数に大きな差が出ることがわかります。なお、このモデルでは、製造年代の調整はされていません。

次に、[平行ライン]モデルを選択します。

Weightがモデル内に含まれている場合、3 か所の生産地の間でのガロンあたりの想定走行マイル数の差はかなり小さくなります。

参考