このペ,ジの翻訳は最新ではありません。ここをクリックして,英語の最新版を参照してください。
边缘
線形分類モデルの分類エッジ
説明
は,e
=边缘(Mdl
,资源描述
,ResponseVarName
)资源描述
に含まれている予測子デ,タと资源描述。ResponseVarName
に含まれているクラスラベルを使用して,学習済み線形分類器Mdl
の分類エッジを返します。
入力引数
Mdl
- - - - - -バ@ @ナリ線形分類モデル
ClassificationLinear
モデルオブジェクト
バ@ @ナリ線形分類モデル。ClassificationLinear
モデルオブジェクトとして指定します。ClassificationLinear
モデルオブジェクトは,fitclinear
を使用して作成できます。
X
- - - - - -予測子デ,タ
非スパ,ス行列|スパ,ス行列
予測子デ,タ。N行p列の非スパ,ス行列またはスパ,ス行列を指定します。このX
の配置は,各行が個々の観測値に,各列が個々の予測子変数に対応することを示しています。
メモ
観測値が列に対応するように予測子行列を配置して“ObservationsIn”、“列”
を指定すると,計算時間が大幅に短縮される可能性があります。
Y
の長さとX
の観測値数は同じでなければなりません。
デ,タ型:单
|双
Y
- - - - - -クラスラベル
分类配列|文字配列|字符串配列|逻辑ベクトル|数値ベクトル|文字ベクトルのcell配列
资源描述
- - - - - -標本デ,タ
テブル
モデルを学習させるために使用する標本デ,タ。テ,ブルとして指定します。资源描述
の各行は1の観測値に,各列は1。必要に応じて,応答変数用および観測値の重み用の追加列を资源描述
に含めることができます。资源描述
には,Mdl
を学習させるために使用したすべての予測子が含まれていなければなりません。文字ベクトルのcell配列ではない cell 配列と複数列の変数は使用できません。
Mdl
を学習させるために使用した応答変数が资源描述
に含まれている場合,ResponseVarName
またはY
を指定する必要はありません。
テ,ブルに格納されている標本デ,タを使用してMdl
の学習を行った場合,边缘
の入力デ,タもテ,ブルに格納されていなければなりません。
ResponseVarName
- - - - - -応答変数名
资源描述
内の変数の名前
応答変数の名前。资源描述
内の変数の名前で指定します。Mdl
を学習させるために使用した応答変数が资源描述
に含まれている場合,ResponseVarName
を指定する必要はありません。
ResponseVarName
を指定する場合は,文字ベクトルまたは字符串スカラ,として指定しなければなりません。たとえば,応答変数が资源描述。Y
として格納されている場合,ResponseVarName
として“Y”
を指定します。それ以外の場合,资源描述
の列は资源描述。Y
を含めてすべて予測子として扱われます。
応答変数は,绝对配列,文字配列,字符串配列,逻辑ベクトル,数値ベクトル,または文字ベクトルの细胞配列でなければなりません。応答変数が文字配列の場合,各要素は配列の1の行に対応しなければなりません。
デ,タ型:字符
|字符串
名前と値の引数
オプションの名称,值
引数のコンマ区切りペアを指定します。名字
は引数名で,价值
は対応する値です。名字
は引用符で囲まなければなりません。Name1, Value1,…,的家
のように,複数の名前と値のペアの引数を,任意の順番で指定できます。
ObservationsIn
- - - - - -予測子デ,タにおける観測値の次元
“行”
(既定値) |“列”
予測子デ,タにおける観測値の次元。“行”
または“列”
として指定します。
メモ
観測値が列に対応するように予測子行列を配置して“ObservationsIn”、“列”
を指定すると,計算時間が大幅に短縮される可能性があります。表の予測子デ,タに対して“ObservationsIn”、“列”
を指定することはできません。
デ,タ型:字符
|字符串
权重
- - - - - -観測値の重み
(大小(X, 1), 1)
(既定値) |数値ベクトル|资源描述
内の変数の名前
観測値の重み。“重量”
と数値ベクトル,または资源描述
に含まれる変数の名前から構成されるコンマ区切りのペアとして指定します。
权重
として数値ベクトルを指定する場合,权重
のサ@ @ズはX
または资源描述
内の観測値の個数と等しくなければなりません。权重
として资源描述
内の変数名を指定する場合,名前は文字ベクトルまたは字符串スカラ,でなければなりません。たとえば,重みが资源描述。W
として格納されている場合,权重
として' W '
を指定します。それ以外の場合,资源描述
の列は资源描述。W
を含めてすべて予測子として扱われます。
重みを指定した場合,各正則化強度にいて,边缘
は,加重分類エッジを計算し,合計がそれぞれのクラスの事前確率の値になるように重みを正規化します。
デ,タ型:双
|单
出力引数
例
検定標本のエッジの推定
NLPのデ,タセットを読み込みます。
负载nlpdata
X
は予測子デ,タのスパ,ス行列,Y
はクラスラベルの分类ベクトルです。デタには2を超えるクラスがあります。
モデルでは,あるWebページの単語数が统计和机器学习工具箱™ドキュメンテーションによるものであるかどうかを識別できなければなりません。したがって、统计和机器学习工具箱™のドキュメンテーションWebページに対応するラベルを識別します。
Ystats = Y ==“统计数据”;
あるドキュメンテーションWebページの単語数が统计和机器学习工具箱™ドキュメンテーションによるものであるかどうかを識別できるバイナリ線形分類モデルに学習をさせます。観測値の30%をホ,ルドアウトするように指定します。SpaRSAを使用して目的関数を最適化します。
rng (1);%用于再现性CVMdl = fitclinear(X,Ystats,“规划求解”,“sparsa”,“坚持”, 0.30);CMdl = cvmdl .训练{1};
CVMdl
はClassificationPartitionedLinear
モデルです。これには训练有素的
プロパティが含まれています。これは1行1列のcell配列で,学習セットにより学習させたClassificationLinear
モデルが格納されています。
学習デ,タと検定デ,タを分割の定義から抽出します。
trainIdx = training(CVMdl.Partition);testdx = test(CVMdl.Partition);
学習標本と検定標本のエッジを推定します。
eTrain = edge(CMdl,X(trainIdx,:),Ystats(trainIdx)))
eTrain = 15.6660
eTest = edge(CMdl,X(testdx,:),Ystats(testdx)))
eTest = 15.4767
検定標本のエッジを使用した特徴選択
特徴選択を行う方法の1として,複数のモデルから検定標本エッジを比較します。この条件のみに基づくと,エッジが最高となる分類器が最善の分類器となります。
NLPのデ,タセットを読み込みます。
负载nlpdata
X
は予測子デ,タのスパ,ス行列,Y
はクラスラベルの分类ベクトルです。デタには2を超えるクラスがあります。
モデルでは,あるWebページの単語数が统计和机器学习工具箱™ドキュメンテーションによるものであるかどうかを識別できなければなりません。したがって、统计和机器学习工具箱™のドキュメンテーションWebページに対応するラベルを識別します。実行時間を短縮するため,各観測値が列に対応するように予測子デ,タを配置します。
Ystats = Y ==“统计数据”;X = X';rng (1);%用于再现性
検定用に観測値の30%をホルドアウトするデタ分割を作成します。
分区= cvpartition(Ystats,“坚持”, 0.30);testdx = test(分区);%测试集指数XTest = X(:, testdx);YTest = Ystats(testdx);
分区
は,デ,タセットの分割を定義するcvpartition
オブジェクトです。
予測子変数の半分を無作為に選択します。
p = size(X,1);%预测因子的数量idxPart = randsample(p,ceil(0.5*p));
2。1つではすべての予測子を、もう 1 つでは半分の予測子を使用します。観測値が列に対応することを指定し、SpaRSA を使用して目的関数を最適化します。
CVMdl = fitclinear(X,Ystats,“CVPartition”分区,“规划求解”,“sparsa”,...“ObservationsIn”,“列”);PCVMdl = fitclinear(X(idxPart,:)),Ystats,“CVPartition”分区,“规划求解”,“sparsa”,...“ObservationsIn”,“列”);
CVMdl
およびPCVMdl
はClassificationPartitionedLinear
モデルです。
学習済みのClassificationLinear
モデルを交差検証済みモデルから抽出します。
CMdl = cvmdl .训练{1};PCMdl = pcvmdl .训练{1};
分類器ごとに検定標本エッジを推定します。
fullEdge = edge(CMdl,XTest,YTest,“ObservationsIn”,“列”)
fullEdge = 15.4767
partEdge = edge(PCMdl,XTest(idxPart,:),YTest,“ObservationsIn”,“列”)
partEdge = 13.4458
検定標本のエッジに基づくと,すべての予測子を使用する分類器の方がモデルとして優れています。
エッジの使用による適切な套索ペナルティの特定
ロジスティック回帰学習器を使用する線形分類モデルに適した套索ペナルティの強度を決定するため,検定標本のエッジを比較します。
NLPのデ,タセットを読み込みます。検定標本のエッジを使用した特徴選択で説明されているようにデ,タを前処理します。
负载nlpdataYstats = Y ==“统计数据”;X = X';分区= cvpartition(Ystats,“坚持”, 0.30);testdx = test(分区);XTest = X(:, testdx);YTest = Ystats(testdx);
~ の範囲で対数間隔で配置された11個の正則化強度を作成します。
Lambda = logspace(-8,1,11);
各正則化強度を使用するバ@ @ナリ線形分類モデルに学習をさせます。SpaRSAを使用して目的関数を最適化します。目的関数の勾配の許容誤差を1 e-8
に下げます。
rng (10);%用于再现性CVMdl = fitclinear(X,Ystats,“ObservationsIn”,“列”,...“CVPartition”分区,“学习者”,“物流”,“规划求解”,“sparsa”,...“正规化”,“套索”,“λ”λ,“GradientTolerance”1 e-8)
CVMdl = ClassificationPartitionedLinear CrossValidatedModel: 'Linear' ResponseName: 'Y' NumObservations: 31572 KFold: 1 Partition: [1x1 cvpartition] ClassNames: [0 1] ScoreTransform: 'none'属性,方法
学習済みの線形分類モデルを抽出します。
Mdl = CVMdl。训练有素的{1}
Mdl = ClassificationLinear ResponseName: 'Y' ClassNames: [0 1] ScoreTransform: 'logit' Beta: [34023x11 double]偏差:[-11.5378 -11.5378 -11.5378 -11.5378 -11.5378 -11.5378…[1.0000e-08 7.9433e-08 6.3096e-07 5.0119e-06…]学习者:“逻辑”属性,方法
Mdl
はClassificationLinear
モデルオブジェクトです。λ
は正則化強度のシ,ケンスなので,Mdl
はそれぞれがλ
の各正則化強度に対応する11個のモデルであると考えることができます。
検定標本のエッジを推定します。
e = edge(Mdl,X(:, testdx),Ystats(testdx),“ObservationsIn”,“列”)
e =1×110.9986 0.9986 0.9986 0.9986 0.9932 0.9765 0.9205 0.8332 0.8128 0.8128
11個の正則化強度があるので,e
は1行11列のエッジのベクトルです。
各正則化強度にいて検定標本のエッジをプロットします。グリッド全体でエッジを最大化する正則化強度を特定します。
图;情节(log10(λ)log10 (e),“o”) [~, maxEIdx] = max(e);maxLambda = Lambda(maxEIdx);持有在情节(log10 (maxLambda) log10 (e (maxEIdx)),“罗”);ylabel ('log_{10} test-sample edge')包含(“log_{10}λ的)传说(“边缘”,的最大优势)举行从
いくかのλ
の値で同じようにエッジが高くなっています。λの値が大きくなると、予測子変数がスパースになります。これは分類器の品質として優れています。
エッジが低下する直前にある正則化強度を選択します。
LambdaFinal = Lambda(5);
デ,タセット全体を使用して線形分類モデルに学習をさせ,エッジが最大になる正則化強度を指定します。
MdlFinal = fitclinear(X,Ystats,“ObservationsIn”,“列”,...“学习者”,“物流”,“规划求解”,“sparsa”,“正规化”,“套索”,...“λ”, LambdaFinal);
新しい観測値のラベルを推定するには,MdlFinal
と新しいデ,タを预测
に渡します。
詳細
分類エッジ
“分類エッジ”は,分類マ,ジンの加重平均です。
特徴選択を実行する場合などに複数の分類器から選択する方法の1つは,エッジが最大になる分類器を選択することです。
分類マ,ジン
バ@ @ナリ分類の“分類マ,ジン”は,各観測値における真のクラスの分類スコアと偽のクラスの分類スコアの差です。
このソフトウェアでは,バ。
Xは観測値です。xの真のラベルが陽性クラスである場合、y は 1、それ以外の場合は –1 です。f(x) は観測値 x についての陽性クラスの分類スコアです。一般的には、分類マージンはM = yf(x)と定義されています。
各マ,ジンのスケ,ルが同じである場合,マ,ジンを分類の信頼尺度として使用できます。複数の分類器の中で,マ,ジンが大きい分類器の方が優れています。
分類スコア
線形分類モデルの場合,行ベクトルである観測値xを陽性クラスに分類する生の“分類スコア”は次により定義されます。
正則化強度がjのモデルでは,
は推定された係数の列ベクトル(モデルのβ(:,j)
プロパティ),
は推定されたスカラバアス(モデルの偏见(j)
プロパティ)です。
Xを陰性クラスに分類する生の分類スコアは-f(X)です。このソフトウェアでは、スコアが正になるクラスに観測値が分類されます。
線形分類モデルがロジスティック回帰学習器から構成されている場合,このソフトウェアでは分对数的
スコア変換が生の分類スコアに適用されます(ScoreTransform
を参照)。
アルゴリズム
既定の設定では,観測値の重みはクラスの事前確率です。权重
を使用して重みを指定した場合,合計がそれぞれのクラスの事前確率になるように正規化されます。重み付きエッジの推定には,正規化された重みが使用されます。
拡張機能
高配列
メモリの許容量を超えるような多数の行を含む配列を計算します。
バ,ジョン履歴
Matlabコマンド
次のmatlabコマンドに対応するリンクがクリックされました。
コマンドをmatlabコマンドウィンドウに入力して実行してください。Webブラウザ,はMATLABコマンドをサポ,トしていません。
您也可以从以下列表中选择一个网站:
如何获得最佳的网站性能
选择中国站点(中文或英文)以获得最佳站点性能。其他MathWorks国家站点没有针对您所在位置的访问进行优化。