主要内容

选择数据和验证分类问题

从工作区中选择数据

小费

在分类学习者中,表是使用数据的最简单方法,因为它们可以包含数字和标签数据。使用导入工具将数据带入MATLAB®工作区作为表,或使用表函数来创建一个桌子从工作区变量。看桌子

  1. 将数据加载到MATLAB工作区中。

    预测变量和响应变量可以是数字、分类、字符串或逻辑向量、字符向量的单元数组或字符数组。注意:如果响应变量是字符串向量,则训练模型的预测将形成字符向量的单元数组。

    将预测器数据组合成一个变量,无论是表还是矩阵。您可以另外组合您的预测器数据和响应变量,或者您可以将它们分开。

    例如,数据集,请参阅分类的示例数据

  2. 在这一点应用选项卡,单击分类学习者

  3. 在分类学习者中,在分类学习者标签,在文件部分,点击新会话>从工作区

  4. 在“从工作区”对话框中的“新会话”中数据集变量,从工作区变量列表中选择表或矩阵。

    如果选择一个矩阵,通过单击选项按钮选择是使用行还是列进行观察。

  5. 在下面响应,请遵循默认响应变量。该应用程序尝试从数据集变量选择合适的响应变量,并将所有其他变量视为预测器。

    如果要使用其他响应变量,可以:

    • 使用列表从数据集变量中选择另一个变量。

    • 单击选择单独的工作区变量来自工作区选项按钮,然后从列表中选择变量。

  6. 在下面预测因子,使用复选框添加或删除预测器。通过单击添加或删除所有预测器都加进去移除所有.通过在表中选择多个预测器,然后单击,还可以添加或删除多个预测器加入n删除n, 在哪里N.是所选预测器的数量。这都加进去移除所有按钮改变为加入n删除n当您选择多个预测器时。

  7. 要接受默认验证方案并继续,请单击开始课程.默认验证选项是5倍交叉验证,可防止过度装备。

    小费

    如果您有大数据集,则可能需要切换到持续验证。要了解更多信息,请参阅选择验证方案

笔记

如果您更喜欢直接从命令行将数据加载到应用程序中,则可以在命令行调用中指定用于分类学习者的预测数据,响应变量和验证类型ClassificationSlearner..有关更多信息,请参阅分类学习者

对于下一步,请参阅在分类学习者应用中列车分类模型

从文件导入数据

  1. 在这一点分类学习者标签,在文件部分,选择新会话>从文件

  2. 在列表中选择文件类型,例如电子表格,文本文件或逗号分隔值(.csv.)文件,或选择全部文件浏览其他文件类型,如.DAT.

分类的示例数据

要使用分类学习者开始,请尝试以下示例数据集。

名称 尺寸 描述
Fisher Iris.

预测因素数量:4
观察次数:150
课程数量:3个
响应:物种

三种虹膜的测量。尝试对物种进行分类。

对于逐步示例,请参阅使用分类学习者APP列车决策树

创建一个表.csv.文件:

fishertable =可读性('fisheriris.csv');

信用评级

预测因素数量:6
观察次数:3932
课程数量:7个
回应:评级

财务比率和行业部门的企业客户列表。响应变量由评级机构分配的信用评级(AAA,AA,A,BBB,BB,B,CCC)组成。

创建一个表Creditrating_Historical.dat.文件:

信用=可读性('信用_historical.dat');

汽车

预测因素数量:7
观察次数:100
课程数量:7个
响应:原产地

汽车的测量,1970年,1976年和1982年。试图对原籍国进行分类。

中的变量创建一个表carsmall.mat文件:

加载Carsmall.Cartable =桌子(加速,气瓶,位移,......马力,model_year,mpg,重量,起源);

心律失常

预测因素数量:279
观察次数:452
班级数目:16
响应:类(y)

患者信息和响应变量,表明心脏心律失常存在和不存在。将患者分类为“正常”具有比归类为“具有心律失常”的假阳性更严重的后果。

创建一个表。垫文件:

加载心律失常心律失常= Array2table(x);心律失常.Class =分类(y);

卵巢癌

预测因素数量:4000
观察次数:216
班级数量:2个
回应:组

使用WCX2蛋白质阵列产生的卵巢癌数据。包括95个对照和121个卵巢癌。

创建一个表。垫文件:

加载卵巢癌卵巢癌= Array2Table(OBS);ovararcancer.group =分类(GRP);

电离层

预测因素数量:34
观察次数:351
班级数量:2个
回应:集团(Y)

来自16个高频天线的相位阵列的信号。良好(“G”)返回的雷达信号是显示在电离层中某种结构的证据的雷达信号。坏(“B”)信号是那些通过电离层的信号。

创建一个表。垫文件:

加载电离层IonoSphere = Array2Table(X);Ionophery.group = Y;

选择验证方案

选择验证方法以检查拟合型号的预测精度。验证与培训数据相比,验证在新数据上的模型性能,并帮助您选择最佳模型。验证防止过度装备。在培训任何模型之前选择验证方案,以便您可以使用相同的验证方案比较会话中的所有模型。

小费

尝试默认验证方案,然后单击开始课程接着说。默认选项是5倍交叉验证,可防止过度装备。

如果您有大型数据集和培训模型,使用交叉验证需要太长,请重新移动数据并尝试更快的阻止验证。

  • 交叉验证:选择要分区数据集的折叠(或划分)。

    如果你选择K.折叠,然后是应用程序:

    1. 将数据分区K.脱节集或折叠

    2. 对于每个验证折叠:

      1. 使用培训折叠观察训练模型(未在验证折叠中的观察)

      2. 使用验证折叠数据评估模型性能

    3. 通过所有折叠计算平均验证错误

    该方法提供了对所有数据训练的最终模型的预测准确性的良好估计。它需要多个适合,但有效地使用所有数据,因此建议用于小数据集。

  • 禁止验证:选择要用作验证集的数据百分比。该应用程序列举了培训集的模型,并使用验证集进行评估其性能。用于验证的模型仅基于数据的一部分,因此禁止验证建议仅适用于大型数据集。最终模型用完整数据集接受培训。

  • 重新验证验证:没有防止过度装备。该应用程序使用所有数据进行培训,并计算相同数据的错误率。如果没有任何单独的验证数据,则会在新数据上对模型的性能进行不切实际的估计。也就是说,训练样本精度可能是不切实际的高,预测精度可能会降低。

    为帮助您避免对培训数据过度提供,请选择另一种验证方案。

笔记

验证方案仅影响分类学习者计算验证度量的方式。最终模型始终使用完整数据集进行培训。

选择数据后,您列出的所有分类模型都使用与在此对话框中选择的相同的验证方案使用相同的验证方案。您可以使用相同的验证方案比较会话中的所有模型。

要更改验证选择和培训新模型,您可以再次选择数据,但您丢失了任何培训的型号。该应用程序警告您,导入数据启动一个新会话。保存要保留的培训型号,然后将其留给工作区,然后导入数据。

对于下一个步骤培训模型,请参阅在分类学习者应用中列车分类模型

相关的话题