분류할데이터를선택하거나저장한앱세션열기
분류학습기앱을처음실행할때데이터를가져오거나이전에저장한앱세션을열도록선택할수있습니다。데이터를가져오려면작업공간에서데이터선택하기및파일에서데이터가져오기항목을참조하십시오。저장한세션을열려면앱세션저장및열기항목을참조하십시오。
작업공간에서데이터선택하기
팁
분류학습기에서테이블은숫자형데이터및레이블데이터를포함할수있기때문에데이터를사용하기위한가장쉬운방법입니다。가져오기툴을사용하여데이터를테이블형식으로matlab®작업공간으로가져오거나테이블함수를사용하여작업공간변수에서表格
을만듭니다。테이블항목을참조하십시오。
Matlab작업공간으로데이터를불러옵니다。
예측변수와응답변수는숫자형,直言형,字符串형또는논리형벡터,문자형벡터로구성된셀형배열또는문자형배열일수있습니다。응답변수는500개가넘는고유한클래스레이블을포함할수없습니다。참고:응답변수가字符串형벡터인경우훈련된모델의예측은문자형벡터로구성된셀형배열을형성합니다。
예측변수데이터를테이블또는행렬하나의변수로결합합니다。예측변수데이터와응답변수를추가로결합하거나별개로유지할수있습니다。
예제데이터세트는분류를위한예제데이터항목을참조하십시오。
앱탭에서분류학습기를클릭합니다。
분류학습기탭에 있는파일섹션에서새세션>작업공간에서를클릭합니다。
“작업공간에서새세션”대화상자에있는데이터세트변수아래의작업공간변수목록에서테이블이나행렬을선택합니다。
행렬을선택하는경우옵션버튼을클릭하여관측값에대해행을사용할지,열을사용할지를선택합니다。
응답 변수아래에서디폴트응답변수를관측합니다。이앱은데이터세트변수에서적절한응답변수를선택하려고시도하며다른변수를모두예측변수로처리합니다。
다른응답변수를사용하려는경우다음과같이할수있습니다。
목록을사용하여데이터세트변수에서다른변수를선택할수있습니다。
작업공간에서옵션버튼을클릭한다음목록에서변수를선택하여별도의작업공간변수를선택할수있습니다。
예측 변수아래에서체크박스를사용하여예측변수를추가하거나제거합니다。모두 추가또는모두지우기를클릭하여모든예측변수를추가하거나제거합니다。테이블에서여러예측변수를선택한다음N개추가또는N개제거를클릭하여추가하거나제거할수도있습니다。여기서N은선택한예측변수의개수입니다。예측변수를여러개선택하면모두 추가버튼과모두지우기버튼이N추가버튼과N제거버튼으로바뀝니다。
디폴트검방식을수락하고계속하려면세션 시작을클릭합니다。디폴트검옵션은과적합을방지하는5겹교차검입니다。
팁
대규모데이터세트가있는경우홀드아웃검으로전환해야할수도있습니다。자세한내용은검방식선택하기항목을참조하십시오。
참고
명령줄에서직접앱으로데이터를불러오는것을선호하는경우classificationLearner
에대한명령줄호출에서분류학습기에사용할예측변수데이터,응답변수,검증유형을지정할수있습니다。자세한내용은분류학습기를참조하십시오。
다음단계는분류학습기앱에서분류모델을훈련시키기항목을참조하십시오。
파일에서데이터가져오기
분류학습기탭에 있는파일섹션에서새 세션>파일에서를선택합니다。
목록에서스프레드시트,텍스트파일또는쉼
. csv
)파일과같은파일형식을선택하거나모든 파일을선택하여.dat
와같은다른파일형식을찾습니다。
분류를위한예제데이터
분류학습기를사용하려면다음예제데이터세트를사용해보십시오。
이름 | 크기 | 설명 |
---|---|---|
费舍尔虹膜 | 예측변수개수:4 |
세종의붓꽃에서얻은측정값입니다。종을분류해보십시오。 단계별예제는使用分类学习应用程序训练决策树항목을참조하십시오。 |
다음과같이 渔场=可读表(“fisheriris.csv”);
|
||
信用评级 | 예측변수개수:6 |
기업고객목록에대한재무비율및산업부문정보입니다。응답변수는평가기관에서지정한신용등급(AAA、AA、A, BBB, BB, B, CCC)으로구성됩니다。 |
다음과같이 信用评级=可读(“CreditRating_Historical.dat”);
|
||
汽车 | 예측변수개수:7 |
1970년,1976년,1982년의차량측정값입니다。원산지를분류해보십시오。 |
다음과같이 负载carsmallcartable = table(加速度,气缸,位移,...马力,型号,年,MPG,重量,起源); |
||
心律失常 | 예측변수개수:279 |
심장부정맥의유무를나타내는환자정보및응답변수입니다。환자를”정상”으로잘못분류하면”부정맥있음”으로분류된거짓양성보다더심각한결과가초래됩니다。 |
다음과같이 负载心律失常心律失常= array2table(X);心律失常。类=分类(Y);
|
||
卵巢癌 | 예측변수개수:4000 |
Wcx2단백질배열을사용하여생성된난소암데이터입니다。95개대조군과121개난소암을포함합니다。 |
다음과같이 负载ovariancancer卵巢癌= array2table(obs);ovariancancer。Group = categorical(grp);
|
||
电离层 | 예측변수개수:34 |
16개의고주파테나로구성된위상배열의신호입니다。반환된양질의(“g”)레이더신호는전리층에존재하는어떤유형의구조에대한증거를보여주는신호입니다。불량(“b”)신호는전리층을통과하는신호입니다。 |
다음과같이 负载电离层电离层= array2table(X);电离层。组= Y;
|
검방식선택하기
피팅된모델의예측정확도를검토하는검방법을선택합니다。검증을통해훈련데이터와비교하여새데이터에대한모델성능을추정하여최상의모델을선택할수있습니다。검은과적합을방지합니다。모델을훈련하기전에검증방식을선택하면같은검증방식을사용하여세션의모든모델을비교할수있습니다。
팁
디폴트검방식을시도하고세션 시작을클릭하여계속합니다。디폴트옵션은과적합을방지하는5겹교차검입니다。
대규모데이터세트가있고훈련모델에서교차검증을사용하는데너무오래걸리는경우데이터를다시가져와서더빠른홀드아웃검증을대신시도하십시오。
예약된데이터가없다고가정합니다(디폴트설정이그러함)。
교차검:데이터세트를분할하는겹(또는분할)의개수를선택합니다。
K겹을선택하면앱이다음작업을수행합니다。
데이터를k개의서로소집합또는겹으로분할합니다。
각검겹에대해다음을수행합니다。
훈련겹관측값(검겹에없는관측값)을사용하여모델을훈련시킵니다。
검겹데이터를사용하여모델성능을평가합니다。
모든겹에대한평균검오차를계산합니다。
이방법은모든데이터로훈련된최종모델의예측정확도에대한양호한추정치를제공합니다。이방법은여러번의피팅을필요로하지만모든데이터를효율적으로사용하므로,작은데이터세트에권장됩니다。
홀드아웃검:검세트로사용할데이터의백분율을선택합니다。앱이훈련세트에서모델을훈련시키고검세트로성능을평가합니다。검에사용된모델은데이터의일부만을기반으로하므로,홀드아웃검은대규모데이터세트에만권장됩니다。최종모델은전체데이터세트로훈련됩니다。
재대입검:과적합을방지하지않습니다。앱이훈련에모든데이터를사용하고동일한데이터에대한오차율을계산합니다。별도의검증데이터가없으면새데이터에대해비현실적인모델성능추정치를얻게됩니다。즉,훈련표본정확도가비현실적으로높을가능성이있고예측정확도가더낮을가능성이있습니다。
훈련데이터에대한과적합을방지하려면다른검방식을대신선택하십시오。
참고
이검방식은분류학습기가검메트릭을계산하는방식에만향을미칩니다。최종모델은검정을위해예약된데이터를제외하고항상전체데이터세트를사용하여훈련됩니다。
데이터를선택한후훈련시키는모든분류모델은이대화상자에서선택한것과똑같은검증방식을사용합니다。같은검방식을사용하여세션의모든모델을비교할수있습니다。
검증선택을변경하고새모델을훈련시키기위해데이터를다시선택할수있지만,훈련된모델을잃게됩니다。앱에서는데이터를가져오면새세션이시작된다는경고를@ @시합니다。유지하려는훈련된모델을모두작업공간에저장한다음,데이터를가져오십시오。
모델을훈련시키는다음단계는분류학습기앱에서분류모델을훈련시키기항목을참조하십시오。
(선택사항)검정에사용할데이터예약하기
데이터를분류학습기로가져올때검정을위해일정비율의데이터를예약하도록지정할수있습니다。새세션대화상자의테스트섹션에서체크박스를클릭하여검정데이터세트를확보합니다。가져온데이터중에서검정세트로사용할데이터의비율을지정합니다。원한다면앱세션을시작한후별도의검정데이터세트를가져오도록선택할수도있습니다。
검정세트를사용해훈련된모델의성능을평가할수있습니다。특히,검증메트릭이새데이터에대한모델성능의양호한추정치를제공하는지여부를확인할수있습니다。자세한내용은评估测试集模型性能항목을참조하십시오。예제는在分类学习App中使用超参数优化训练分类器항목을참조하십시오。
참고
이앱은모델훈련을위해검정데이터를사용하지않습니다。앱에서내보낸모델은검정을위해예약된데이터를제외하고전체훈련및검증데이터에대해훈련됩니다。
앱세션저장및열기
분류학습기에서현재앱세션을저장하고이전에저장한앱세션을열수있습니다。
현재앱세션을저장하려면분류학습기탭의파일섹션에서저장을클릭하십시오。현재세션을처음저장할때세션파일이름과파일위치를지정해야합니다。세션 저장옵션을선택하면현재세션이저장되고세션을다른이름으로저장옵션을선택하면현재세션이새파일에저장됩니다。
저장한앱세션을열려면파일섹션에서열기를클릭하십시오。“열려는파일선택”대화상자에서열고싶은저장된세션을선택합니다。