이번역최신을있지않습니다않습니다。최신내용으로보려면를하십시오하십시오하십시오。
암검출
이예제단백질에대한분석데이터사용하여검출검출하도록신경망을훈련훈련시키는방법방법을을보여보여。
소개
혈청의을하면이환자에게서한샘플과질병이없는환자에게서에게서채취한샘플샘플구분구분할할수있습니다있습니다。Seldi(表面增强激光解吸和电离)단백질단백질분석을됩니다됩니다됩니다됩니다됩니다。이기술하면병리학의임상진단를할수있습니다있습니다。
문제:암암
목표는데이터암환자와구분하는분류기것입니다입니다입니다。
이예제분류기사용하여암환자대조군구분하는데사용할수있는있는측정(“”)의의의의의의의의의의의의수할할할할할할할할할사용사용사용사용할할사용사용사용할할사용할할할할할할할할할사용사용할할사용할할할할사용할할할할할할할사용사용사용할사용사용할이러한/전하/전하전하의이온수준입니다입니다입니다。
데이터형식지정하기
FDA-NCI临床蛋白质组学程序数据库의의의의데이터사용합니다(파일)ovarian_dataset.mat
에서)。이데이터에자세한은[1]과[2]를하십시오。
使用顺序和并行计算对光谱进行批处理处理(生物信息学工具箱)항목의에따라데이터파일ovariancancerqaqccdataset.mat
를만듭니다。새로만든파일변수y
,,,,MZ
,,,,grp
를포함합니다。
y
의각로부터측정값나타냅니다나타냅니다나타냅니다。y
에는환자216
명에대응하는216
개의있습니다。그중에서121
명이난소암이고95
명이환자입니다。
y
의각행은MZ
에-지정-전하전하의이온강도을나타냅니다나타냅니다나타냅니다。MZ
에는15000
개-의-전하전하이,y
의-각-전하-전하에서의의강도수준을나타냅니다나타냅니다나타냅니다
변수grp
에는샘플것암이고어느이환자인지나타내는인덱스정보가있습니다있습니다있습니다。
주요특징들에지정하기
이작업특징개수가관측의보다많더라도한개의특징만만으로올바른올바른분류를를찾는찾는전형적적적인인인인분류분류분류문제문제문제합니다합니다합니다합니다。따라서목표개특징에적절하게하는방법을학습하면서동시동시에과적합과적합되지않은일반화화된된매핑매핑매핑을을을생성생성생성하는하는분류기를찾는찾는찾는。
유의미m/z값값값값값값이독립이라고가정하고이원이원이원이원이원검정검정검정계산하는것입니다입니다입니다입니다。rankfeatures
M/z값의의인덱스인덱스,예를,검정검정의절댓값을기준으로순위가가지정지정지정지정된된된된된된된된된된개개개개개개의의인덱스인덱스합니다합니다
ovariancancerqaqccdataset.mat
를,rankfeatures
(生物信息学工具箱)100개개의측정값을값값값X
로선택합니다。
ind = rankfeatures(y,grp,'标准',,,,'ttest',,,,'numberOfIndices',100);x = y(ind,:);
다음과22개의에대한목표값값t
를정의합니다。
t = double(strcmp(strcmp)('癌症',grp));t = [t;1-t];
위에스크립트전처리단계예제는및특징선택을수행하기위한대표대표적적인절차절차를보여주고주고있습니다있습니다있습니다。처리단계를사용하면가달라질있으며경우따라더나나은결과를를얻을있습니다있습니다있습니다。
[x,t] = ovarian_dataset;谁是Xt
名称大小字节类属性t 2x216 3456 double x 100x216 172800 double double
X
216명명환자중하나나타냅니다나타냅니다나타냅니다。
X
의각각에대한대한대한-전하-전하-전하에서의이온강도수준나타냅니다나타냅니다나타냅니다나타냅니다。
변수t
216개의으로구성된된개개의을갖습니다갖습니다갖습니다。[1; 0]은암[0; 1]은정상나타냅니다나타냅니다。
피드포워드을사용한분류
몇개한을확인이제이를사용암암샘플과정상샘플샘플을분류분류할할수수。
신경망은임의가중치로되므로을훈련후의는예제를실행할때마다달라집니다달라집니다달라집니다。이러한임의성하기난수시드값설정매번같은를생성하도록하십시오하십시오。그러나자신고유응용프로그램인경우난수값을할필요가없습니다없습니다。
setDemorandStream(672880951)
1개개이은닉계층의의의개인피드포워드을훈련시킵니다훈련시킵니다훈련시킵니다입력값목표샘플은자동으로훈련,검증세트,테스트세트로나뉩니다나뉩니다나뉩니다나뉩니다나뉩니다나뉩니다。훈련세트는을데됩니다됩니다。훈련은신경망이에계속해서향상한됩니다됩니다됩니다。테스트세트는정확도가늠하는독립인를제공합니다합니다。
신경망이아직목표에맞춰구성않았으므로입력과출력값의의크기크기는는는는는는는는는는는는는는는는는는는는과과과과과과값값값값값값값값값값값값값값값값값값값값입력입력입력입력입력입력입력0입니다。이구성신경망훈련시킬수행됩니다됩니다。
net = patternnet(5);查看(网)
이제신경망훈련준비되었습니다되었습니다。샘플은으로세트,검증,테스트세트로。훈련세트는을데됩니다됩니다。훈련은신경망이에계속해서향상한됩니다됩니다됩니다。테스트세트는정확도가늠하는독립인를제공합니다합니다。
神经网络培训툴은훈련신경망과에사용알고리즘표시합니다합니다합니다합니다。또한훈련상태표시하며훈련중지기준을으로강조표시합니다합니다。
하단의클릭하면한열립니다열립니다열립니다。플롯은훈련과을마친후열있습니다있습니다있습니다。알고리즘이름버튼에있는링크클릭해당항목대한문서가열립니다열립니다。
[net,tr] =火车(net,x,t);
훈련하는신경망성능이얼마나향상향상되는지의의의의의의의의의의의의의의의의의버튼버튼버튼PlotPerform
함수를하십시오。
성능은오차로되어스케일스케일됩니다됩니다됩니다。신경망이훈련됨따라빠르게했습니다했습니다。
훈련,검증,테스트테스트에성능됩니다됩니다。
PlotPerform(TR)
이제훈련을데이터셋에서분할테스트을사용테스트할수있습니다있습니다。테스트데이터식으로도훈련사용되지않았으므로테스트테스트할할할샘플샘플외외외이를세계데이터로테스트했을신경망이잘동작가늠할수있습니다있습니다。
신경망의출력은0-1범위있습니다있습니다있습니다。출력값값적용하여암환자를나타내는내는내는내는과과정상환자를를나타나타나타내는내는내는내는0。
testx = x(:,tr.testind);testt = t(:,tr.testind);testy = net(testx);testClasses = testy> 0.5
TestClasses =2x32逻辑数组0 1 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 01 1 1 1 0 1 1 1 1 1 1 1 1 1 1 1
신경망이데이터잘했는지알있는한는정오입니다입니다입니다。
혼동행렬은와된분류의을줍니다줍니다줍니다。올바른분류대각선에녹색정사형표시됩니다됩니다됩니다。빨간색정사각형잘못분류나타냅니다나타냅니다。
신경망이정확정사각의비율은오분류가적었음것입니다입니다입니다。
신경망이정확을더오래하거나더은닉을사용하여신경망을훈련훈련수수수。
plotConfusion(testt,testy)
올바른분류된의비율다음과같습니다같습니다。
[c,cm] =混淆(testt,testy);fprintf('百分比正确分类:%f %% \ n',100*(1-C));
正确分类百分比:90.625000%
fprintf('百分比不正确分类:%f %% \ n',100*c);
百分比不正确分类:9.375000%
신경망이데이터얼마나피팅했는지알수있는다른다른척도는는는는는는는는는는는는는는는는는다른플롯플롯플롯플롯플롯플롯。roc플롯은출력임계값이이이이이이까지변함거짓양성률과참양성률의관계가어떻게되는지되는지보여줍니다。
선이왼쪽가까울수록참양성률을얻기허용하는거짓양성개수가줄어듭니다줄어듭니다줄어듭니다。가장좋은왼쪽아래코너왼쪽위또는위코너로향하거나그에가까운가까운로로로。
1은암를를,클래스클래스는정상나타냅니다나타냅니다나타냅니다나타냅니다。
PlotRoc(testt,testy)
이예제암을위한신경망을하는방법살펴보았습니다살펴보았습니다살펴보았습니다。분류기의개선주성분분석기법을하여신경망에에사용되는데이터의의차원을을줄여볼줄여볼수수。
참고문헌
[1] T.P.Conrads等人,“卵巢检测的高分辨率血清蛋白质组学特征”,内分泌相关癌症,第11期,2004年,第163-178页。
[2] E.F. Petricoin等人,“在血清中使用蛋白质组学模式来鉴定卵巢癌”,《柳叶刀》,359(9306),2002年,2002年,第572-577页。