主要内容

このペ,ジの翻訳は最新ではありません。ここをクリックして,英語の最新版を参照してください。

templateNaiveBayes

単純ベ▪▪ズ分類器テンプレ▪▪ト

説明

t= templateNaiveBayes ()は,ecoc(誤り訂正出力符号)マルチクラスモデルの学習に適した単純ベ@ @ズテンプレ,トを返します。

既定のテンプレ,トを指定する場合,学習中のすべての入力引数には既定値が使用されます。

tfitcecocの学習器として指定します。

t= templateNaiveBayes (名称,值は,1以上の名前と値のペアの引数で指定された追加オプションを使用してテンプレ。tペア引数を使用して指定する場合を除き,名称,值のすべてのプロパティは空です。

たとえば,予測子の分布を指定できます。

コマンドウィンドウにtを表示する場合,すべてのオプションは,名前と値のペア引数を使用して指定する場合を除き,空([])で表示されます。学習中,空のオプションに既定値が使用されます。

すべて折りたたむ

templateNaiveBayesを使用して,既定の単純ベ。

t = templateNaiveBayes()
t =拟合模板用于分类NaiveBayes。DistributionNames: [1x0 double]内核:[]支持:[]宽度金宝app:[]版本:1方法:'NaiveBayes'类型:'classification'

方法类型を除き,テンプレ,トオブジェクトのすべてのプロパティは空です。tを学習関数に渡す場合,空のプロパティはそれぞれの既定値で入力されます。たとえば,各セルが“正常”である1行D列の文字ベクトルのcell配列がDistributionNamesプロパティに入力されます。Dは予測子の個数です。他の既定値の詳細は,fitcnbを参照してください。

tは単純ベ▪▪▪▪ズ分類器の計画であるため,これを指定する場合,計算は実行されません。tfitcecocに渡して,ecocマルチクラス学習の単純ベeconcズ分類器を指定できます。

fitcecocで使用する既定以外の単純ベ▪▪ズテンプレ▪▪トを作成します。

フィッシャ,のアヤメのデ,タセットを読み込みます。

负载fisheriris

単純ベズバナリ分類器のテンプレトを作成し,すべての予測子のカネル分布を指定します。

t = templateNaiveBayes(“DistributionNames”“内核”
t =拟合模板用于分类NaiveBayes。DistributionNames: 'kernel'内核:[]支持:[]宽度金宝app:[]版本:1方法:'NaiveBayes'类型:'classification'

DistributionNames方法および类型を除き,テンプレ,トオブジェクトのすべてのプロパティは空です。tを学習関数に渡す場合,空のプロパティはそれぞれの既定値で入力されます。

tをecocマルチクラスモデルのバescナリ学習器として指定します。

Mdl = fitcecoc(meas,species,“学习者”t);

既定の設定では,Mdlは1対1の符号化設計を使用の学習が実行されます。

標本内(再代入)誤分類誤差を表示します。

L = resubLoss(Mdl,“LossFun”“classiferror”
L = 0.0333

入力引数

すべて折りたたむ

名前と値の引数

例:“DistributionNames”、“锰”は,すべての予測子を多項モデルのト,クン数として処理するように指定します。

オプションの名称,值引数のコンマ区切りペアを指定します。的名字は引数名で,价值は対応する値です。的名字は引用符で囲まなければなりません。Name1, Value1,…,的家のように,複数の名前と値のペアの引数を,任意の順番で指定できます。

デ,タをモデル化するためにfitcnbが使用するデ,タ分布。“DistributionNames”と次の表の値をもつ文字ベクトル,字符串スカラー,字符串配列,または文字ベクトルの细胞配列から構成されるコンマ区切りのペアとして指定します。

説明
“内核” カ,ネル平滑化密度推定。
“锰” 多項分布。を指定するとすべての特徴量は多項分布の成分となります。したがって,“锰”を文字ベクトルのcell配列または字符串配列の要素として含めることはできません。詳細は,アルゴリズムを参照してください。
“mvmn” 多変量多項分布。詳細は,アルゴリズムを参照してください。
“正常” 正規(ガウス)分布。

文字ベクトルまたは字符串スカラーを指定した場合,その分布を使用してすべての特徴量がモデル化されます。1行 P 列の文字ベクトルの cell 配列または string 配列を指定した場合、配列の要素 j の分布を使用して特徴量 j がモデル化されます。

既定では、カテゴリカル予測子として指定されたすべての予測子は(CategoricalPredictors名前と値のペア引数を使用して)“mvmn”に設定されます。それ以外の場合,既定の分布は“正常”となります。

内核金宝appまたは宽度を追加で指定するには,少なくとも1の予測子が分布“内核”をもように指定しなければなりません。

例:“DistributionNames”、“锰”

例:DistributionNames,{“内核”、“正常”、“内核”}

カネル平滑化のタプ。“内核”と文字ベクトル,弦スカラー,字符串配列,または文字ベクトルの细胞配列から構成されるコンマ区切りのペアとして指定します。

次の表は,カ,ネル平滑化密度領域の設定に使用できるオプションの一覧です。I{u}はンジケタ関数を表すとします。

カネル
“盒子” ボックス(一様)

f x 0.5 | x | 1

“epanechnikov” Epanechnikov

f x 0.75 1 x 2 | x | 1

“正常” ガウス

f x 1 2 π 经验值 0.5 x 2

“三角形” 三角形

f x 1 | x | | x | 1

配列の各要素に表のいずれかの値が格納されている状態で1行P列の字符串配列または细胞配列を指定する場合,Xの特徴jに対して,要素jのカネル平滑化タプを使用して分類器の学習が実行されます。分布が“内核”である予測子に対応しない内核の要素は無視されます。

内核金宝appまたは宽度を追加で指定するには,少なくとも1の予測子が分布“内核”をもように指定しなければなりません。

例:“内核”,{“epanechnikov”、“正常”}

カ,ネル平滑化密度のサポ,ト。“金宝app支持”“积极”“无限”、字符串配列,细胞配列または数値行ベクトルから構成されるコンマ区切りのペアとして指定します。カ,ネル平滑化密度が指定した領域に適用されます。

次の表は,カ,ネル平滑化密度領域の設定に使用できるオプションの一覧です。

説明
1行2列の数値行ベクトル たとえば,(L U)のように指定します。lUはそれぞれ,密度サポ,トの下限と上限を表します。
“积极” 密度サポ,トはすべて正の実数です。
“无限” 密度サポ,トはすべて実数です。

字符串配列の各要素に表内のテキスト値が,细胞配列の各要素に表内の値が含まれている状態で1行P列の字符串配列または细胞配列を指定した場合,X内の特徴量jに対して要素jのカ,ネルサポ,トを使用して,分類器の学習が実行されます。分布が“内核”である予測子に対応しない内核の要素は無視されます。

内核金宝appまたは宽度を追加で指定するには,少なくとも1の予測子が分布“内核”をもように指定しなければなりません。

例:KSS金宝appupport,{[-10, 20],“无界”}

デ,タ型:字符|字符串|细胞|

カ,ネル平滑化ウィンドウ幅。“宽度”と数値の行,列数値列ベクトル,数値行ベクトルまたはスカラーで構成される,コンマ区切りのペアとして指定します。

K個のクラスレベルとp個の予測子があるとします。次の表は,カ,ネル平滑化ウィンドウ幅の設定に使用できるオプションをまとめています。

説明
数値のk行p列の行列 要素(k,j)はクラスkの予測子jの幅を指定します。
K行1列の数値列ベクトル 要素kはクラスkのすべての予測子の幅を指定します。
1行p列の数値行ベクトル 要素jは予測子jのすべてのクラスレベルの幅を指定します。
スカラ すべてのクラスのすべての特徴量に帯域幅を指定します。

既定の設定では,ガウス分布に最適な値を使用して,予測子およびクラスの各組み合わせに対して既定の幅が自動的に選択されます。指定した宽度が含まれる場合,を含む要素に幅が選択されます。

内核金宝appまたは宽度を追加で指定するには,少なくとも1の予測子が分布“内核”をもように指定しなければなりません。

例:“宽度”,南南

デ,タ型:|结构体

出力引数

すべて折りたたむ

Ecoc(誤り訂正出力符号)マルチクラスモデルの学習に適した単純ベズ分類テンプレト。テンプレ,トオブジェクトとして返します。tfitcecocに渡し,ecocモデルの単純ベeconcズ分類器を作成する方法を指定します。

コマンドウィンドウにtを表示する場合、すべての未指定のオプションは空([])で表示されます。しかし,空のオプションは学習中に対応する既定値に置き換えられます。

詳細

すべて折りたたむ

代币袋モデル

bag-of-tokensモデルでは,予測子jの値は観測値のトークンjの発生数を表す非負の数値です。この多項モデルのカテゴリ(ビン)の数は,異なるトクンの数(予測子の数)です。

単純ベ@ @ズ

“単純ベ电子邮箱ズ”は密度推定をデ,タに適用する分類アルゴリズムです。

アルゴリズムはベイズの定理を活用し,クラスが与えられる場合,予測子が条件付きで独立していると(単純に)仮定します。通常,実際はこの仮定に反して,単純ベイズ分類器から得られる事後分布は,バイアス付きのクラス密度を推定する場合,特に事後分布が0.5(判定境界)であれば,信頼性が高い傾向があります[1]

単純ベesc esc esc esc esc esc esc esc esc"最大事後確率"決定ル,ルです)。明示的に,アルゴリズムは以下の手順を実行します。

  1. 各クラス内の予測子の密度を推定します。

  2. ベ。まり,k = 1,…, kにいて,次のようになります。

    P Y k | X 1 .. X P π Y k j 1 P P X j | Y k k 1 K π Y k j 1 P P X j | Y k

    ここで

    • Yは観測のクラスescンデックスに対応する確率変数です。

    • X1X、…Pは観測の無作為な予測子です。

    • π Y k は,クラスaaplンデックスがkである事前確率です。

  3. 各クラスの事後確率を推定して観測値を分類し,最大の事後確率を発生するクラスに観測値を割り当てます。

予測子が多項分布を構成する場合,事後確率は P Y k | X 1 .. X P π Y k P n X 1 ... X P | Y k になります。ここで, P n X 1 ... X P | Y k は多項分布の確率密度関数です。

アルゴリズム

  • 予測子変数jが条件付き正規分布をも場合(名前と値の引数DistributionNamesを参照),クラス固有の加重平均,および加重標準偏差の不偏推定を計算することにより,この分布がデータに当てはめられます。各クラスkに対して以下を実行します。

    • 予測子jの加重平均は次のようになります。

      x ¯ j | k y k w x j y k w

      ここでwは観測値我の重みです。クラス内の重みは、その合計がクラスの事前確率になるように正規化されます。

    • 予測子jの加重標準偏差の不偏推定器は次のようになります。

      年代 j | k y k w x j x ¯ j | k 2 z 1 | k z 2 | k z 1 | k 1 / 2

      ここでz1 | kはクラスk内の重みの合計,z2 | kはクラスk内の重みの2乗の合計です。

  • すべての予測子変数が条件付き多項分布(“DistributionNames”、“锰”を指定)を構成する場合,代币袋モデルを使用して,この分布が当てはめられます。トクンjがプロパティDistributionParameters {kjのクラスkに出現する確率が保存されます。加法平滑化[2]を使用すると,推定確率は次のようになります。

    P 令牌 j | k 1 + c j | k P + c k

    ここで

    • c j | k n k y k x j w y k w はクラスkにおけるト,クンjの重み付き発生数です。

    • nkはクラスk内の観測数です。

    • w は観測値我の重みです。クラス内の重みは、その合計がクラスの事前確率になるように正規化されます。

    • c k j 1 P c j | k は,クラスkに含まれているすべてのト,クンの重み付き発生数の合計です。

  • 予測子変数jが条件付き多変量多項分布を持場合,次のようになります。

    1. 一意のレベルのリストが収集され,並べ替えられたリストはCategoricalLevelsに保存され,各レベルはビンと見なされます。予測子とクラスの各組み合わせは,個別の独立した多項確率変数です。

    2. 各クラスkに対して,CategoricalLevels {jに保存されたリストを使用して,カテゴリカルレベルごとの。

    3. クラスkの予測子jが,プロパティDistributionParameters {kjにおいてレベルlをも場合,すべてのレベルの確率はCategoricalLevels {jに保存されます。加法平滑化[2]を使用すると,推定確率は次のようになります。

      P 预测 j l | k 1 + j | k l j + k

      ここで

      • j | k l n k y k x j l w y k w は,クラスk内の予測子jがLに等しい観測値の重み付き個数です。

      • nkはクラスk内の観測数です。

      • xij= lの場合は x j l 1 ,それ以外の場合は0です。

      • w は観測値我の重みです。クラス内の重みは、その合計がクラスの事前確率になるように正規化されます。

      • jは予測子jの異なるレベルの数です。

      • kはクラスk内の重み付けされた観測値の数です。

参照

哈斯蒂、T.、R.蒂布谢拉尼和J.弗里德曼。统计学习的要素,第二版。纽约:施普林格,2008。

[2]曼宁,克里斯托弗·D,普拉巴卡尔·拉格哈万,辛里奇Schütze。《信息检索导论》,纽约:剑桥大学出版社,2008年。

バ,ジョン履歴

R2014bで導入