主要内容

このページの翻訳は最新ではありません。ここをクリックして,英語の最新版を参照してください。

ダミー変数

このトピックでは,ダミー変数を紹介します。分類および回帰問題でソフトウェアによってダミー変数が作成される方法と,関数dummyvarを使用してダミー変数を作成する方法を説明します。

ダミー変数とは

分類と回帰解析を実行するとき,連続的(定量的)予測子変数とカテゴリカル(定性的)予測子変数の両方が必要になることがよくあります。カテゴリカル変数は,数値配列として含めてはなりません。数値配列には順序と大きさがあります。カテゴリカル変数は順序は持つことができますが(順序変数などの場合),大きさはありません。数値配列を使用すると,カテゴリ間に既知の”距離”があると想定されてしまいます。カテゴリカル予測子は,ダミー変数として使用するのが適切です。ダミー変数を定義するには、0 と 1 の値を持つ指標変数を使用します。

以降のセクションで説明するように,解析のタイプに基づいて4つのスキームのうち1つがソフトウェアによって選択され,ダミー変数が定義されます。たとえば,很酷的冷却器最酷的という3つのカテゴリを持つカテゴリカル変数を考えてみます。

完全なダミー変数

カテゴリごとに1つずつ,3つのダミー変数を使用して,3つのカテゴリを持つカテゴリカル変数を表します。

X0は,很酷的に対しては値が1,それ以外については値が0のダミー変数です。X1は,冷却器に対しては値が1,それ以外については値が0のダミー変数です。X2は,最酷的に対しては値が1,それ以外については値が0のダミー変数です。

基準グループを使用したダミー変数

3つのカテゴリを持つカテゴリカル変数を,基準グループを持つ2つのダミー変数を使用して表します。

X0を使用せずにX1とX2だけで很酷的冷却器最酷的を区別することができます。很酷的の観測値は,どちらのダミー変数も0になっています。すべての変数の値が0で表されるカテゴリは“基準グループ”と呼ばれています。

順序付けされたカテゴリカル変数のダミー変数

カテゴリの数学的順序が很酷的<冷却器<最酷的であると仮定します。この符号化方式は1および1の値を使用します。上位のカテゴリにはより多くの1を使用して,順序を示します。

X1は,冷却器最酷的に対しては値が1,很酷的に対しては値が1のダミー変数です。X2は,最酷的に対しては値が1,それ以外については値が1のダミー変数です。

カテゴリカル変数に数学的順序があることを示すには,関数分类の名前と値のペアの引数“顺序”を使用します。

エフェクトコーディングで作成されたダミー変数

エフェクトコーディングでは,1,0,および1を使用してダミー変数を作成します。エフェクトコーディングでは,基準グループを使用したダミー変数のように値0を使用して基準グループを表すのではなく,1を使用して最後のカテゴリを表します。

ダミー変数の作成

ダミー変数の自動作成

统计和机器学习工具箱™には,カテゴリカル予測子を受け入れる分類および回帰近似関数が複数あります。いくつかの近似関数は,カテゴリカル予測子を処理するためのダミー変数を作成します。

カテゴリカル予測子の特定について,近似関数の既定の動作は以下のとおりです。

  • 予測子データがテーブル内にある場合,関数は,その変数が逻辑ベクトル,直言ベクトル,文字配列,字符串配列または文字ベクトルの细胞配列のいずれかである場合に,変数を直言であると見なします。決定木を使用する近似関数は,順序付けされた直言ベクトルを連続変数と仮定します。

  • 予測子データが行列の場合,すべての予測子が連続的であると見なされます。

他の予測子をカテゴリカル予測子として指定するには,名前と値のペアの引数“CategoricalPredictors”または“CategoricalVars”を使用してそれらを指定します。

近似関数は,特定されたカテゴリカル予測子を次のように処理します。

ダミー変数の手動作成

この例では,関数dummyvarを使用して独自のダミー変数計画行列を作成する方法を説明します。この関数はグループ化変数を受け入れ,0と1が含まれている行列を返します。この行列の列は,グループ化変数に対するダミー変数です。

性別を指定して,カテゴリカルデータの列ベクトルを作成します。

性别=分类({“男”“女”“女”“男”“女”});

性别についてダミー変数を作成します。

dv = dummyvar(性别)
dv =5×20 1 1 0 1 1 0 1 1 0

dvの行数は性别の行数と同じ5行です。また,列数は,一意のグループ男性に対応して2列です。列の順序は性别のレベルの順序に対応しています。分类配列の場合、既定の順序はアルファベットの昇順です。順序をチェックするには、関数类别を使用します。

类别(性别)
ans =2 x1细胞{'女'}{‘男性’}

ダミー変数を回帰モデルで使用するには,いずれかの列を削除する(基準グループを作成する)か,切片の項を使用せずに回帰モデルを近似しなければなりません。この例では2つの性別を表すのに必要なダミー変数は1つだけです。完成している計画行列dvに切片の項を追加するとどうなるか見てみましょう。

X = [ones(5,1) dv]
X =5×31个1个1个1个1个1个1个1个
排名(X)
ans = 2

切片の項がある計画行列はフルランクではなく,可逆になりません。このような線形依存性が存在するため,切片の項がある回帰モデルでc個のカテゴリがある場合,カテゴリカル変数はc- 1個の指標変数で表します。

参考

|

関連するトピック