kfoldLoss

学習で使用しない観測値の分類損失

構文

L = kfoldLoss(cvdl)

L = kfoldLoss(CVMdl,Name,Value)

説明

l= kfoldLoss (CVMdl）は，交差検証済みのバCVMdlによって取得した交差検証分類損失を返します。まり，他のすべての観測値を使用して学習を行うときにホ，ルドアウトする観測値の分類損失を，kfoldLossはすべての分割にいて推定します。

lには，CVMdlを構成する線形分類モデルの各正則化強度に対する分類損失が格納されます。

例

l= kfoldLoss (CVMdl，名称,值）は，1以上の名称,值引数のペアによって指定された追加オプションを使用します。たとえば，損失の計算に使用する分割や分類損失関数を指定します。

入力引数

すべて展開する

`CVMdl`- - - - - -交差検証済みのバ@ @ナリ線形分類モデル
`ClassificationPartitionedLinear`モデルオブジェクト

交差検証済みバ@ @ナリ線形分類モデル。ClassificationPartitionedLinearモデルオブジェクトとして指定します。ClassificationPartitionedLinearモデルオブジェクトを作成するには，fitclinearを使用し，交差検証用の名前と値のペアの引数のいずれかCrossValなど)を指定します。

推定値を取得するため，kfoldLossは線形分類モデルの交差検証に使用したものと同じデ，タ(XおよびY)を適用します。

名前と値のペアの引数

オプションの名称,值引数のコンマ区切りペアを指定します。的名字は引数名で，价值は対応する値です。的名字は引用符で囲まなければなりません。Name1, Value1,…,的家のように，複数の名前と値のペアの引数を，任意の順番で指定できます。

`折叠`- - - - - -分類スコアの予測に使用する分割の@ @ンデックス
`1: CVMdl。KFold`(既定値) |正の整数の数値ベクトル

分類スコアの予測に使用する分割の@ @ンデックス。“折叠”と正の整数の数値ベクトルから構成されるコンマ区切りのペアとして指定します。折叠の要素は1からCVMdl。KFoldの範囲でなければなりません。

例:“折叠”，[1 4 10]

デ，タ型:单|双

`LossFun`- - - - - -損失関数
`“classiferror”`(既定値) |`“binodeviance”`|`“指数”`|`“枢纽”`|`分对数的`|`“mincost”`|`“二次”`|関数ハンドル

損失関数。“LossFun”と組み込みの損失関数名または関数ハンドルから構成されるコンマ区切りのペアとして指定します。

次の表は，使用可能な損失関数の一覧です。対応する文字ベクトルまたは字符串スカラ，を使用して，いずれかを指定します。

値	説明
`“binodeviance”`	二項分布からの逸脱度
`“classiferror”`	10進数の誤分類率
`“指数”`	指数損失
`“枢纽”`	ヒンジ損失
`分对数的`	ロジスティック損失
`“mincost”`	最小予測誤分類コスト(事後確率である分類スコアの場合)
`“二次”`	二次損失

“mincost”は，事後確率である分類スコアに適しています。線形分類モデルの場合,既定の設定ではロジスティック回帰学習器は事後確率を分類スコアとして返しますが,SVM学習器はそうではありません(预测を参照)。

関数ハンドル表記を使用して独自の関数を指定します。
nをX内の観測値数，Kを異なるクラスの数(元素个数(Mdl.ClassNames)、Mdlは入力モデル)とします。使用する関数のシグネチャは次のようになっていなければなりません。
```
lossvalue =lossfun(C、S、W、成本)
```
ここで，
- 出力引数lossvalueはスカラ，です。
- 関数名 (lossfun)を選択します。
- Cはn行K列の逻辑行列で，行は対応する観測値が属するクラスを示しています。列の順序はMdl。ClassNamesのクラスの順序に対応します。
  Cを作成するには，各行にいて観測値pがクラス问に含まれている場合にC(p,q) = 1を設定します。行pの他のすべての要素を0に設定します。
- 年代は，分類スコアのn行K列の行列です。列の順序はMdl。ClassNamesのクラスの順序に対応します。年代は分類スコアの行列で，预测の出力と同様です。
- Wは，観測値の重みのn行1列の数値ベクトルです。Wを渡す場合，要素は正規化され，合計が1になります。
- 成本は誤分類コストのk行K列の数値行列です。たとえば，成本=单位(K) -眼(K)は，正しい分類のコストとして0を，誤分類のコストとして1を指定します。
“LossFun”@lossfunを使用して独自の関数を指定します。

デ，タ型:字符|字符串|function_handle

`模式`- - - - - -損失の集約レベル
`“平均”`(既定値) |`“个人”`

損失の集約レベル。“模式”と“平均”または“个人”から構成されるコンマ区切りのペアとして指定します。

値	説明
`“平均”`	分割全体で平均した損失を返す
`“个人”`	各分割にいて損失を返す

例:“模式”,“个人”

出力引数

すべて展開する

`l`-交差検証分類損失
数値スカラ，|数値ベクトル，|数値行列

交差検証分類損失。数値スカラ，ベクトルまたは行列として返されます。lの解釈はLossFunによって異なります。

交差検証済みモデルの正則化強度の数(元素个数(CVMdl.Trained {1} .Lambda)に格納)をR、分割数 (CVMdl。KFoldに格納)をFとします。

模式が“平均”の場合，lは1行R列のベクトルになります。L (j）は，正則化強度jを使用する交差検証済みモデルのすべての分割に対する平均分類損失です。
それ以外の場合，lはF行R列の行列になります。L (我，j）は，正則化強度jを使用する交差検証済みモデルの分割我に対する分類損失です。

kfoldLossはlを推定するため，CVMdlを作成したデタを使用します(XとYを参照)。

例

すべて展開する

k分割交差検証の分類誤差の推定

ラ@ @ブスクリプトを開く

NLPのデ，タセットを読み込みます。

负载nlpdata

Xは予測子デ，タのスパ，ス行列，Yはクラスラベルの分类ベクトルです。デタには2を超えるクラスがあります。

モデルでは,あるWebページの単語数が统计和机器学习工具箱™ドキュメンテーションによるものであるかどうかを識別できなければなりません。したがって、统计和机器学习工具箱™のドキュメンテーションWebページに対応するラベルを識別します。

Ystats = Y ==“统计数据”；

あるドキュメンテーションWebページの単語数が统计和机器学习工具箱™ドキュメンテーションによるものであるかどうかを識別できるバイナリ線形分類モデルの交差検証を行います。

rng (1);%用于再现性CVMdl = fitclinear(X,Ystats，“CrossVal”，“上”）;

CVMdlはClassificationPartitionedLinearモデルです。既定では，10分割交差検証が実行されます。“KFold”名前と値のペアの引数を使用して分割数を変更できます。

分割外分類誤差率の平均を推定します。

ce = kfoldLoss(cvdl)

Ce = 7.6017e-04

または，名前と値のペアの引数“模式”,“个人”をkfoldLossで指定することにより，分割ごとの分類誤差率を取得できます。

カスタムな分類損失の指定

ラ@ @ブスクリプトを開く

NLPのデ，タセットを読み込みます。K分割交差検証の分類誤差の推定で説明されているようにデ，タを前処理し，予測子デ，タを転置します。

负载nlpdataYstats = Y ==“统计数据”；X = X';

5分割の交差検証を使用してバescナリ線形分類モデルを交差検証します。SpaRSAを使用して目的関数を最適化します。予測子の観測値が列に対応することを指定します。

rng (1);%用于再现性CVMdl = fitclinear(X,Ystats，“规划求解”，“sparsa”，“KFold”5,.．.“ObservationsIn”，“列”）;CMdl = cvmdl .训练{1};

CVMdlはClassificationPartitionedLinearモデルです。このモデルに含まれている训练有素的プロパティは，各分割の学習セットを使用して学習を行ったClassificationLinearモデルが格納されている5行1列のcell配列です。

次の線形損失を評価する無名関数を作成します。

$l ＝ \frac{\sum_{j} - w_{j} y_{j} f_{j}}{\sum_{j} w_{j}} ．$

$w_{j}$ は観測値jの重み，y_jは応答j(陰性クラスの場合は-1，それ以外の場合は1)，f_jは観測値jの生の分類スコアです。カスタム損失関数は特定の形式で記述しなければなりません。カスタム損失関数の記述に関するルルにいては，名前と値のペアの引数LossFunを参照してください。この関数では分類コストを使用しないので，～を使用してkfoldLossに分類コストの位置を無視させます。

linearloss = @ (C, S W ~)和(- W。*总和(S . C * 2) / (W)之和;

線形損失関数を使用して平均の交差検証分類損失を推定します。また，各分割の損失を取得します。

ce = kfoldLoss(CVMdl，“LossFun”linearloss)

Ce = -8.0982

ceFold = kfoldLoss(CVMdl，“LossFun”linearloss,“模式”，“个人”）

ceFold =5×1-8.3165 -8.7633 -7.4342 -8.0423 -7.9347

k分割分類損失の使用による適切な套索ペナルティの特定

ラ@ @ブスクリプトを開く

ロジスティック回帰学習器を使用する線形分類モデルに適した套索ペナルティの強度を決定するため,検定標本の分類誤差率を比較します。

NLPのデ，タセットを読み込みます。カスタムな分類損失の指定で説明されているようにデ，タを前処理します。

负载nlpdataYstats = Y ==“统计数据”；X = X';

$1 0^{- 6}$ ～ $1 0^{0 ． 5}$ の範囲で対数間隔で配置された11個の正則化強度を作成します。

Lambda = logspace(-6，-0.5,11);

5分割の交差検証を使用してバescナリ線形分類モデルを交差検証します。各正則化強度を使用します。年代paRSA を使用して目的関数を最適化します。目的関数の勾配の許容誤差を1 e-8に下げます。

rng (10);%用于再现性CVMdl = fitclinear(X,Ystats，“ObservationsIn”，“列”，.．.“KFold”5,“学习者”，“物流”，“规划求解”，“sparsa”，.．.“正规化”，“套索”，“λ”λ,“GradientTolerance”1 e-8)

CVMdl = ClassificationPartitionedLinear CrossValidatedModel: 'Linear' ResponseName: 'Y' NumObservations: 31572 KFold: 5 Partition: [1x1 cvpartition] ClassNames: [0 1] ScoreTransform: 'none'属性，方法

学習済みの線形分類モデルを抽出します。

Mdl1 = CVMdl。训练有素的{1}

Mdl1 = ClassificationLinear ResponseName: 'Y' ClassNames: [0 1] ScoreTransform: 'logit' Beta: [34023x11 double]偏差:[1x11 double] Lambda: [1x11 double]学习者:'logistic'属性，方法

Mdl1はClassificationLinearモデルオブジェクトです。λは正則化強度のシ，ケンスなので，Mdlはそれぞれがλの各正則化強度に対応する11個のモデルであると考えることができます。

交差検証分類誤差を推定します。

ce = kfoldLoss(CVMdl);

11個の正則化強度があるので，ceは1行11列の分類誤差率のベクトルです。

λの値が大きくなると，予測子変数がスパ，スになります。これは分類器の品質として優れています。データセット全体を使用し,モデルの交差検証を行ったときと同じオプションを指定して,各正則化強度について線形分類モデルに学習をさせます。モデルごとに非ゼロの係数を特定します。

Mdl = fitclinear(X,Ystats，“ObservationsIn”，“列”，.．.“学习者”，“物流”，“规划求解”，“sparsa”，“正规化”，“套索”，.．.“λ”λ,“GradientTolerance”1 e-8);numNZCoeff = sum(Mdl.Beta~=0);

同じ図に，各正則化強度にいての交差検証分類誤差率と非ゼロ係数の頻度をプロットします。すべての変数を対数スケ，ルでプロットします。

图;[h,hL1,hL2] = plotyy(log10(Lambda)，log10(ce)，.．.log10(λ)log10 (numNZCoeff));hL1。标志=“o”；hL2。标志=“o”；ylabel (h (1),'log_{10}分类错误') ylabel (h (2),'log_{10}非零系数频率')包含(“log_{10}λ的)标题(测试样本统计的)举行从

图包含2个轴。标题为Test-Sample Statistics的坐标轴1包含一个类型为line的对象。axis2包含一个line类型的对象。

予測子変数のスパス性と分類誤差の低さのバランスがとれている正則化強度のンデックスを選択します。この場合， $1 0^{- 4}$ ～ $1 0^{- 1}$ の値で十分なはずです。

idxFinal = 7;

選択した正則化強度のモデルをMdlから選択します。

MdlFinal = selectModels(Mdl,idxFinal);

MdlFinalは，1の正則化強度が含まれているClassificationLinearモデルです。新しい観測値のラベルを推定するには，MdlFinalと新しいデ，タを预测に渡します。

詳細

すべて展開する

分類損失

"分類損失"関数は分類モデルの予測誤差を評価します。複数のモデルで同じタイプの損失を比較した場合,損失が低い方が予測モデルとして優れていることになります。

以下のシナリオを考えます。

Lは加重平均分類損失です。
Nは標本サescズです。
バ@ @ナリ分類は以下です。
- y_jは観測されたクラスラベルです。陰性クラスを示す-1または陽性クラスを示す1(あるいは，一会プロパティの最初のクラスを示す1または2番目のクラスを示す1)を使用して符号化されます。
- f (X_j)は予測子デ，タXの観測値(行)jに対する陽性クラスの分類スコアです。
- 米_j= y_jf (X_j)は，y_jに対応するクラスに観測値jを分類する分類スコアです。正の値のm_jは正しい分類を示しており，平均損失に対する寄与は大きくありません。負の値のm_jは正しくない分類を示しており，平均損失に大きく寄与します。
マルチクラス分類(;K≥3)をサポ，トするアルゴリズムの場合，次のようになります。
- y_j^＊は，K - 1個の0と，観測された真のクラスy_jに対応する位置の1から構成されるベクトルです。たとえば，2番目の観測値の真のクラスが 3 番目のクラスでありK = 4の場合，y₂^＊= [0 0 1 0] 'になります。クラスの順序は入力モデルの一会プロパティ内の順序に対応します。
- f (X_j)は予測子デ，タXの観測値jに対するクラススコアのベクトルで，長さはKです。スコアの順序は入力モデルの一会プロパティ内のクラスの順序に対応します。
- 米_j= y_j^＊“f (X_j）.したがってm_jは，観測された真のクラスにいてモデルが予測するスカラ分類スコアです。
観測値jの重みはw_jです。観測値の重みは正規化され，合計は対応するクラスの事前確率になります。また，事前確率は合計が1になるように正規化されます。そのため，次のようになります。

$\sum_{j ＝ 1}^{n} w_{j} ＝ 1.$

この状況では，名前と値のペアの引数“LossFun”を使用して指定できる，サポ，トされる損失関数は次の表のようになります。

損失関数	`LossFun`の値	式
二項分布からの逸脱度	`“binodeviance”`	$l ＝ \sum_{j ＝ 1}^{n} w_{j} 日志｛ 1 + 经验值［ - 2 米_{j} ］｝．$
10進数の誤分類率	`“classiferror”`	$l ＝ \sum_{j ＝ 1}^{n} w_{j} 我｛ {\overset{＾}{y}}_{j} \neq y_{j} ｝．$ ${\overset{＾}{y}}_{j}$ は，スコアが最大であるクラスに対応するクラスラベルです。I{·}はンジケタ関数です。
クロスエントロピ，損失	`“crossentropy”`	`“crossentropy”`はニュ，ラルネットワ，クモデルのみに適しています。加重クロスエントロピ，損失は次となります。 $l ＝ - \sum_{j ＝ 1}^{n} \frac{{\tilde{w}}_{j} 日志（米_{j} ）}{K n} ，$ ここで重み ${\tilde{w}}_{j}$ は，合計が1ではなくnになるように正規化されます。
指数損失	`“指数”`	$l ＝ \sum_{j ＝ 1}^{n} w_{j} 经验值（ - 米_{j} ）．$
ヒンジ損失	`“枢纽”`	$l ＝ \sum_{j ＝ 1}^{n} w_{j} 马克斯｛ 0 ， 1 - 米_{j} ｝．$
ロジット損失	`分对数的`	$l ＝ \sum_{j ＝ 1}^{n} w_{j} 日志（ 1 + 经验值（ - 米_{j} ））．$
最小予測誤分類コスト	`“mincost”`	`“mincost”`は，分類スコアが事後確率の場合にのみ適しています。重み付きの最小予測分類コストは，次の手順を観測値j = 1，…， nにいて使用することにより計算されます。観測値x_jをクラスkに分類するための予測誤分類コストを推定します。 $γ_{j k} ＝ {（ f {（ X_{j} ）}^{”} C ）}_{k} ．$ f (X_j)は観測値x_jのバ@ @ナリおよびマルチクラス分類におけるクラスの事後確率の列ベクトルです。Cはモデルの`成本`プロパティに格納されるコスト行列です。最小予測誤分類コストに対応するクラスラベルを観測値jにいて予測します。 ${\overset{＾}{y}}_{j} ＝ \underset{k ＝ 1 ， .．. ， K}{argmin} γ_{j k} ．$ C .を使用して，予測を行うために必要なコスト_j)を求めます。最小予測誤分類コスト損失の加重平均は次となります。 $l ＝ \sum_{j ＝ 1}^{n} w_{j} c_{j} ．$ 既定のコスト行列(正しい分類の場合の要素値は0,誤った分類の場合の要素値は1)を使用する場合,`“mincost”`損失は`“classiferror”`損失と等価になります。
二次損失	`“二次”`	$l ＝ \sum_{j ＝ 1}^{n} w_{j} {（ 1 - 米_{j} ）}^{2} ．$

次の図では，1の観測値のスコアmに対する損失関数(“crossentropy”および“mincost”を除く)を比較しています。いくかの関数は，点(0,1)を通過するように正規化されています。

参考

ClassificationPartitionedLinear|ClassificationLinear|kfoldPredict|损失

R2016aで導入

kfoldLoss

構文

説明

入力引数

`CVMdl`- - - - - -交差検証済みのバ@ @ナリ線形分類モデル
`ClassificationPartitionedLinear`モデルオブジェクト

名前と値のペアの引数

`折叠`- - - - - -分類スコアの予測に使用する分割の@ @ンデックス
`1: CVMdl。KFold`(既定値) |正の整数の数値ベクトル

`LossFun`- - - - - -損失関数
`“classiferror”`(既定値) |`“binodeviance”`|`“指数”`|`“枢纽”`|`分对数的`|`“mincost”`|`“二次”`|関数ハンドル

`模式`- - - - - -損失の集約レベル
`“平均”`(既定値) |`“个人”`

出力引数

`l`-交差検証分類損失
数値スカラ，|数値ベクトル，|数値行列

例

k分割交差検証の分類誤差の推定

カスタムな分類損失の指定

k分割分類損失の使用による適切な套索ペナルティの特定

詳細

分類損失

参考

统计和机器学习工具箱ドキュメンテ，ション

サポト

機械学習をマスタする:matlabステップ·バステップガド

kfoldLoss

構文

説明

入力引数

CVMdl- - - - - -交差検証済みのバ@ @ナリ線形分類モデルClassificationPartitionedLinearモデルオブジェクト

名前と値のペアの引数

折叠- - - - - -分類スコアの予測に使用する分割の@ @ンデックス1: CVMdl。KFold(既定値) |正の整数の数値ベクトル

LossFun- - - - - -損失関数“classiferror”(既定値) |“binodeviance”|“指数”|“枢纽”|分对数的|“mincost”|“二次”|関数ハンドル

模式- - - - - -損失の集約レベル“平均”(既定値) |“个人”

出力引数

l-交差検証分類損失数値スカラ，|数値ベクトル，|数値行列

例

k分割交差検証の分類誤差の推定

カスタムな分類損失の指定

k分割分類損失の使用による適切な套索ペナルティの特定

詳細

分類損失

参考

统计和机器学习工具箱ドキュメンテ，ション

サポト

機械学習をマスタする:matlabステップ·バステップガド

`CVMdl`- - - - - -交差検証済みのバ@ @ナリ線形分類モデル
`ClassificationPartitionedLinear`モデルオブジェクト

`折叠`- - - - - -分類スコアの予測に使用する分割の@ @ンデックス
`1: CVMdl。KFold`(既定値) |正の整数の数値ベクトル

`LossFun`- - - - - -損失関数
`“classiferror”`(既定値) |`“binodeviance”`|`“指数”`|`“枢纽”`|`分对数的`|`“mincost”`|`“二次”`|関数ハンドル

`模式`- - - - - -損失の集約レベル
`“平均”`(既定値) |`“个人”`

`l`-交差検証分類損失
数値スカラ，|数値ベクトル，|数値行列