主要内容

このペ,ジの翻訳は最新ではありません。ここをクリックして,英語の最新版を参照してください。

边缘

クラス:ClassificationLinear

線形分類モデルの分類エッジ

説明

e=边缘(MdlXYは,Xの予測子デ,タとYの対応するクラスラベルを使用して,バMdl分類エッジを返します。eには,Mdlの各正則化強度の分類エッジが格納されます。

e=边缘(Mdl资源描述ResponseVarNameは,资源描述に含まれている予測子デ,タと资源描述。ResponseVarNameに含まれているクラスラベルを使用して,学習済み線形分類器Mdlの分類エッジを返します。

e=边缘(Mdl资源描述Yは,表资源描述内の予測子デ,タとベクトルY内のクラスラベルを使用して,分類器Mdlの分類エッジを返します。

e=边缘(___名称,值では,前の構文におけるいずれかの入力引数の組み合わせに加えて,1つ以上の名前と値のペアの引数を使用してオプションを指定します。たとえば,予測子デ,タの列が観測値に対応するように指定したり,観測値の重みを与えることができます。

入力引数

すべて展開する

バ@ @ナリ線形分類モデル。ClassificationLinearモデルオブジェクトとして指定します。ClassificationLinearモデルオブジェクトは,fitclinearを使用して作成できます。

予測子デ,タ。N行p列の非スパ,ス行列またはスパ,ス行列を指定します。このXの配置は,各行が個々の観測値に,各列が個々の予測子変数に対応することを示しています。

メモ

観測値が列に対応するように予測子行列を配置して“ObservationsIn”、“列”を指定すると,計算時間が大幅に短縮される可能性があります。

Yの長さとXの観測値数は同じでなければなりません。

デ,タ型:|

クラスラベル。绝对配列,文字配列,弦配列,逻辑ベクトル,数値ベクトル,または文字ベクトルの细胞配列を指定します。

  • Yのデ,タ型はMdl。一会のデ,タ型と同じでなければなりません。(字符串配列は文字ベクトルのcell配列として扱われます)。

  • Yの各クラスはMdl。一会のサブセットでなければなりません。

  • Yが文字配列の場合,各要素は配列の1の行に対応しなければなりません。

  • Yの長さはXまたは资源描述の観測値の数と等しくなければなりません。

デ,タ型:分类|字符|字符串|逻辑|||细胞

モデルを学習させるために使用する標本デ,タ。テ,ブルとして指定します。资源描述の各行は1の観測値に,各列は1。必要に応じて,応答変数用および観測値の重み用の追加列を资源描述に含めることができます。资源描述には,Mdlを学習させるために使用したすべての予測子が含まれていなければなりません。文字ベクトルのcell配列ではない cell 配列と複数列の変数は使用できません。

Mdlを学習させるために使用した応答変数が资源描述に含まれている場合,ResponseVarNameまたはYを指定する必要はありません。

テ,ブルに格納されている標本デ,タを使用してMdlの学習を行った場合,边缘の入力デ,タもテ,ブルに格納されていなければなりません。

応答変数の名前。资源描述内の変数の名前で指定します。Mdlを学習させるために使用した応答変数が资源描述に含まれている場合,ResponseVarNameを指定する必要はありません。

ResponseVarNameを指定する場合は,文字ベクトルまたは字符串スカラ,として指定しなければなりません。たとえば,応答変数が资源描述。Yとして格納されている場合,ResponseVarNameとして“Y”を指定します。それ以外の場合,资源描述の列は资源描述。Yを含めてすべて予測子として扱われます。

応答変数は,绝对配列,文字配列,字符串配列,逻辑ベクトル,数値ベクトル,または文字ベクトルの细胞配列でなければなりません。応答変数が文字配列の場合,各要素は配列の1の行に対応しなければなりません。

デ,タ型:字符|字符串

名前と値の引数

オプションの名称,值引数のコンマ区切りペアを指定します。名字は引数名で,价值は対応する値です。名字は引用符で囲まなければなりません。Name1, Value1,…,的家のように,複数の名前と値のペアの引数を,任意の順番で指定できます。

予測子デ,タにおける観測値の次元。“行”または“列”として指定します。

メモ

観測値が列に対応するように予測子行列を配置して“ObservationsIn”、“列”を指定すると,計算時間が大幅に短縮される可能性があります。表の予測子デ,タに対して“ObservationsIn”、“列”を指定することはできません。

デ,タ型:字符|字符串

観測値の重み。“重量”と数値ベクトル,または资源描述に含まれる変数の名前から構成されるコンマ区切りのペアとして指定します。

  • 权重として数値ベクトルを指定する場合,权重のサ@ @ズはXまたは资源描述内の観測値の個数と等しくなければなりません。

  • 权重として资源描述内の変数名を指定する場合,名前は文字ベクトルまたは字符串スカラ,でなければなりません。たとえば,重みが资源描述。Wとして格納されている場合,权重として' W 'を指定します。それ以外の場合,资源描述の列は资源描述。Wを含めてすべて予測子として扱われます。

重みを指定した場合,各正則化強度にいて,边缘は,加重分類エッジを計算し,合計がそれぞれのクラスの事前確率の値になるように重みを正規化します。

デ,タ型:|

出力引数

すべて展開する

分類エッジ。数値スカラ,または行ベクトルとして返されます。

eのサ@ @ズはMdl。λと同じです。e (jは,正則化強度Mdl。λ(jを使用して学習を行った線形分類モデルの分類エッジです。

すべて展開する

NLPのデ,タセットを読み込みます。

负载nlpdata

Xは予測子デ,タのスパ,ス行列,Yはクラスラベルの分类ベクトルです。デタには2を超えるクラスがあります。

モデルでは,あるWebページの単語数が统计和机器学习工具箱™ドキュメンテーションによるものであるかどうかを識別できなければなりません。したがって、统计和机器学习工具箱™のドキュメンテーションWebページに対応するラベルを識別します。

Ystats = Y ==“统计数据”

あるドキュメンテーションWebページの単語数が统计和机器学习工具箱™ドキュメンテーションによるものであるかどうかを識別できるバイナリ線形分類モデルに学習をさせます。観測値の30%をホ,ルドアウトするように指定します。SpaRSAを使用して目的関数を最適化します。

rng (1);%用于再现性CVMdl = fitclinear(X,Ystats,“规划求解”“sparsa”“坚持”, 0.30);CMdl = cvmdl .训练{1};

CVMdlClassificationPartitionedLinearモデルです。これには训练有素的プロパティが含まれています。これは1行1列のcell配列で,学習セットにより学習させたClassificationLinearモデルが格納されています。

学習デ,タと検定デ,タを分割の定義から抽出します。

trainIdx = training(CVMdl.Partition);testdx = test(CVMdl.Partition);

学習標本と検定標本のエッジを推定します。

eTrain = edge(CMdl,X(trainIdx,:),Ystats(trainIdx)))
eTrain = 15.6660
eTest = edge(CMdl,X(testdx,:),Ystats(testdx)))
eTest = 15.4767

特徴選択を行う方法の1として,複数のモデルから検定標本エッジを比較します。この条件のみに基づくと,エッジが最高となる分類器が最善の分類器となります。

NLPのデ,タセットを読み込みます。

负载nlpdata

Xは予測子デ,タのスパ,ス行列,Yはクラスラベルの分类ベクトルです。デタには2を超えるクラスがあります。

モデルでは,あるWebページの単語数が统计和机器学习工具箱™ドキュメンテーションによるものであるかどうかを識別できなければなりません。したがって、统计和机器学习工具箱™のドキュメンテーションWebページに対応するラベルを識別します。実行時間を短縮するため,各観測値が列に対応するように予測子デ,タを配置します。

Ystats = Y ==“统计数据”;X = X';rng (1);%用于再现性

検定用に観測値の30%をホルドアウトするデタ分割を作成します。

分区= cvpartition(Ystats,“坚持”, 0.30);testdx = test(分区);%测试集指数XTest = X(:, testdx);YTest = Ystats(testdx);

分区は,デ,タセットの分割を定義するcvpartitionオブジェクトです。

予測子変数の半分を無作為に選択します。

p = size(X,1);%预测因子的数量idxPart = randsample(p,ceil(0.5*p));

2。1つではすべての予測子を、もう 1 つでは半分の予測子を使用します。観測値が列に対応することを指定し、SpaRSA を使用して目的関数を最適化します。

CVMdl = fitclinear(X,Ystats,“CVPartition”分区,“规划求解”“sparsa”...“ObservationsIn”“列”);PCVMdl = fitclinear(X(idxPart,:)),Ystats,“CVPartition”分区,“规划求解”“sparsa”...“ObservationsIn”“列”);

CVMdlおよびPCVMdlClassificationPartitionedLinearモデルです。

学習済みのClassificationLinearモデルを交差検証済みモデルから抽出します。

CMdl = cvmdl .训练{1};PCMdl = pcvmdl .训练{1};

分類器ごとに検定標本エッジを推定します。

fullEdge = edge(CMdl,XTest,YTest,“ObservationsIn”“列”
fullEdge = 15.4767
partEdge = edge(PCMdl,XTest(idxPart,:),YTest,“ObservationsIn”“列”
partEdge = 13.4458

検定標本のエッジに基づくと,すべての予測子を使用する分類器の方がモデルとして優れています。

ロジスティック回帰学習器を使用する線形分類モデルに適した套索ペナルティの強度を決定するため,検定標本のエッジを比較します。

NLPのデ,タセットを読み込みます。検定標本のエッジを使用した特徴選択で説明されているようにデ,タを前処理します。

负载nlpdataYstats = Y ==“统计数据”;X = X';分区= cvpartition(Ystats,“坚持”, 0.30);testdx = test(分区);XTest = X(:, testdx);YTest = Ystats(testdx);

1 0 - 8 1 0 1 の範囲で対数間隔で配置された11個の正則化強度を作成します。

Lambda = logspace(-8,1,11);

各正則化強度を使用するバ@ @ナリ線形分類モデルに学習をさせます。SpaRSAを使用して目的関数を最適化します。目的関数の勾配の許容誤差を1 e-8に下げます。

rng (10);%用于再现性CVMdl = fitclinear(X,Ystats,“ObservationsIn”“列”...“CVPartition”分区,“学习者”“物流”“规划求解”“sparsa”...“正规化”“套索”“λ”λ,“GradientTolerance”1 e-8)
CVMdl = ClassificationPartitionedLinear CrossValidatedModel: 'Linear' ResponseName: 'Y' NumObservations: 31572 KFold: 1 Partition: [1x1 cvpartition] ClassNames: [0 1] ScoreTransform: 'none'属性,方法

学習済みの線形分類モデルを抽出します。

Mdl = CVMdl。训练有素的{1}
Mdl = ClassificationLinear ResponseName: 'Y' ClassNames: [0 1] ScoreTransform: 'logit' Beta: [34023x11 double]偏差:[-11.5378 -11.5378 -11.5378 -11.5378 -11.5378 -11.5378…[1.0000e-08 7.9433e-08 6.3096e-07 5.0119e-06…]学习者:“逻辑”属性,方法

MdlClassificationLinearモデルオブジェクトです。λは正則化強度のシ,ケンスなので,Mdlはそれぞれがλの各正則化強度に対応する11個のモデルであると考えることができます。

検定標本のエッジを推定します。

e = edge(Mdl,X(:, testdx),Ystats(testdx),“ObservationsIn”“列”
e =1×110.9986 0.9986 0.9986 0.9986 0.9932 0.9765 0.9205 0.8332 0.8128 0.8128

11個の正則化強度があるので,eは1行11列のエッジのベクトルです。

各正則化強度にいて検定標本のエッジをプロットします。グリッド全体でエッジを最大化する正則化強度を特定します。

图;情节(log10(λ)log10 (e),“o”) [~, maxEIdx] = max(e);maxLambda = Lambda(maxEIdx);持有情节(log10 (maxLambda) log10 (e (maxEIdx)),“罗”);ylabel ('log_{10} test-sample edge')包含(“log_{10}λ的)传说(“边缘”的最大优势)举行

图中包含一个轴对象。axis对象包含2个line类型的对象。这些对象表示边,最大边。

いくかのλの値で同じようにエッジが高くなっています。λの値が大きくなると、予測子変数がスパースになります。これは分類器の品質として優れています。

エッジが低下する直前にある正則化強度を選択します。

LambdaFinal = Lambda(5);

デ,タセット全体を使用して線形分類モデルに学習をさせ,エッジが最大になる正則化強度を指定します。

MdlFinal = fitclinear(X,Ystats,“ObservationsIn”“列”...“学习者”“物流”“规划求解”“sparsa”“正规化”“套索”...“λ”, LambdaFinal);

新しい観測値のラベルを推定するには,MdlFinalと新しいデ,タを预测に渡します。

詳細

すべて展開する

アルゴリズム

既定の設定では,観測値の重みはクラスの事前確率です。权重を使用して重みを指定した場合,合計がそれぞれのクラスの事前確率になるように正規化されます。重み付きエッジの推定には,正規化された重みが使用されます。

拡張機能

バ,ジョン履歴

R2016aで導入