主要内容

选择分类数据或打开保存的应用程序会话

当你第一次启动分类学习者应用程序时,你可以选择导入数据或打开以前保存的应用程序会话。导入数据,请参见从工作区选择数据而且从文件导入数据.若要打开已保存的会话,请参见保存并打开应用程序会话

从工作区选择数据

提示

在Classification Learner中,表是使用数据的最简单方法,因为它们可以包含数字和标签数据。使用导入工具将数据导入MATLAB®工作区作为表,或使用表函数创建表格来自工作空间变量。看到

  1. 将数据加载到MATLAB工作区中。

    预测变量和响应变量可以是数字、分类、字符串或逻辑向量、字符向量的单元格数组或字符数组。注意:如果你的响应变量是一个字符串向量,那么训练模型的预测会形成一个字符向量的单元格数组。

    将预测数据合并为一个变量,可以是表格或矩阵。您还可以结合您的预测数据和响应变量,或者您可以将它们分开。

    有关示例数据集,请参见分类示例数据

  2. 应用程序选项卡上,单击分类学习者

  3. 分类学习者选项卡,在文件部分中,点击从工作区中创建会话>

  4. 在“从工作区新建会话”对话框中,下面数据集变量,从工作区变量列表中选择表格或矩阵。

    如果您选择一个矩阵,请单击选项按钮,选择是使用行还是列进行观察。

  5. 响应,观察默认响应变量。该应用程序试图从数据集变量中选择一个合适的响应变量,并将所有其他变量视为预测变量。

    如果你想使用不同的响应变量,你可以:

    • 使用列表从数据集变量中选择另一个变量。

    • 控件选择单独的工作区变量从工作空间选项按钮,然后从列表中选择一个变量。

  6. 预测,使用复选框添加或删除预测器。单击,添加或删除所有预测器添加所有删除所有.还可以通过在表中选择多个预测器,然后单击,来添加或删除多个预测器添加N删除N,在那里N所选预测因子的数目。的添加所有而且删除所有按钮更改为添加N而且删除N当您选择多个预测因子时。

  7. 若要接受默认验证方案并继续,请单击开始会议.默认的验证选项是5倍交叉验证,这可以防止过拟合。

    提示

    如果你有一个大的数据集,你可能想切换到坚持验证。要了解更多信息,请参见选择验证方案

请注意

如果你喜欢直接从命令行将数据加载到应用程序中,你可以在命令行调用中指定在Classification Learner中使用的预测器数据、响应变量和验证类型classificationLearner.有关更多信息,请参见分类学习者

有关后续步骤,请参见在分类学习App中训练分类模型

从文件导入数据

  1. 分类学习者选项卡,在文件部分中,选择新会话>从文件

  2. 在列表中选择文件类型,如电子表格、文本文件或以逗号分隔的值(. csv)文件,或选择所有文件浏览其他文件类型,例如.dat

分类示例数据

要开始使用分类学习器,请尝试以下示例数据集。

的名字 大小 描述
费舍尔虹膜

预测因子数量:4
观察数:150
班级数量:3个
回应:物种

对三种虹膜的测量。试着把物种分类。

有关详细示例,请参见使用分类学习应用程序训练决策树

属性创建一个表. csv文件:

渔场=可读表(“fisheriris.csv”);

信用评级

预测因子数量:6
观察数:3932
班级数量:7个
回应:评级

公司客户列表的财务比率和行业部门信息。响应变量由评级机构分配的信用评级(AAA, AA, A, BBB, BB, B, CCC)组成。

属性创建一个表CreditRating_Historical.dat文件:

信用评级=可读(“CreditRating_Historical.dat”);

汽车

预测因子数量:7
观察数:100
班级数量:7个
回应:起源

1970年,1976年和1982年对汽车的测量。试着把原产国分类。

类中的变量创建一个表carsmall.mat文件:

负载carsmallcartable = table(加速度,气缸,位移,...马力,型号,年,MPG,重量,起源);

心律失常

预测数:279
观察数:452
班级数量:16个
回应:班级(Y)

患者信息和反应变量,表明是否有心律失常。误将病人归类为“正常”比误将病人归类为“有心律失常”的后果更严重。

属性创建一个表.mat文件:

负载心律失常心律失常= array2table(X);心律失常。类=分类(Y);

卵巢癌

预测因子数量:4000个
观察数:216
类数:2
回应:组

使用WCX2蛋白阵列生成卵巢癌数据。包括95例对照组和121例卵巢癌。

属性创建一个表.mat文件:

负载ovariancancer卵巢癌= array2table(obs);ovariancancer。Group = categorical(grp);

电离层

预测因子数量:34
观察数:351
类数:2
回应:组(Y)

由16个高频天线组成的相控阵信号。良好(“g”)返回的雷达信号是在电离层中显示某种类型结构的证据。坏(“b”)信号是那些通过电离层的信号。

属性创建一个表.mat文件:

负载电离层电离层= array2table(X);电离层。组= Y;

选择验证方案

选择一种验证方法来检验拟合模型的预测准确性。验证评估模型在新数据上与训练数据相比的性能,并帮助您选择最佳模型。验证可以防止过拟合。在训练任何模型之前选择一个验证方案,这样您就可以使用相同的验证方案来比较会话中的所有模型。

提示

尝试默认验证方案,然后单击开始会议继续。默认选项是5倍交叉验证,防止过拟合。

如果你有一个大的数据集,并且使用交叉验证训练模型花费了太长时间,那么重新导入你的数据并尝试更快的坚持验证。

假设没有为测试保留数据,默认情况下为true。

  • 交叉验证:选择一定数量的折叠(或分割)来划分数据集。

    如果你愿意k折叠,然后应用程序:

    1. 将数据划分为k不相交的组或褶皱

    2. 对于每个验证折叠:

      1. 使用训练折叠观察(不在验证折叠中的观察)训练模型

      2. 使用验证折叠数据评估模型性能

    3. 计算所有折叠的平均验证错误

    这种方法很好地估计了用所有数据训练的最终模型的预测精度。它需要多次拟合,但可以有效地利用所有数据,因此建议用于小型数据集。

  • 坚持验证:选择要用作验证集的数据的百分比。该应用程序在训练集上训练模型,并使用验证集评估其性能。用于验证的模型仅基于部分数据,因此坚持验证建议仅用于大数据集。最后的模型使用完整的数据集进行训练。

  • Resubstitution验证:没有防过拟合保护。该应用程序使用所有数据进行训练,并在相同的数据上计算错误率。如果没有任何单独的验证数据,就会对模型在新数据上的性能进行不切实际的估计。也就是说,训练样本的准确率可能会高得不现实,而预测准确率可能会低一些。

    为了避免过度拟合训练数据,请选择另一种验证方案。

请注意

验证方案只影响分类学习器计算验证指标的方式。最终的模型总是使用完整的数据集进行训练,不包括任何为测试保留的数据。

选择数据后训练的所有分类模型都使用在此对话框中选择的相同验证方案。您可以使用相同的验证方案比较会话中的所有模型。

要更改验证选择并训练新模型,您可以再次选择数据,但会丢失所有训练过的模型。应用程序会警告你,导入数据会启动一个新的会话。将任何经过训练的模型保存到工作区中,然后导入数据。

有关训练模型的下一步步骤,请参见在分类学习App中训练分类模型

(可选)为测试预留数据

当您将数据导入Classification Learner时,您可以指定为测试保留一定百分比的数据。在测试部分的“新建会话”对话框中,单击复选框留出测试数据集。指定要用作测试集的导入数据的百分比。如果您愿意,您仍然可以选择在启动应用程序会话后导入单独的测试数据集。

您可以使用测试集来评估经过训练的模型的性能。特别是,您可以检查验证度量是否为新数据上的模型性能提供了良好的估计。有关更多信息,请参见评估测试集模型性能.有关示例,请参见在分类学习App中使用超参数优化训练分类器

请注意

该应用程序不使用测试数据进行模型训练。从应用程序导出的模型使用完整的训练和验证数据进行训练,不包括用于测试的任何数据。

保存并打开应用程序会话

在“分类学习器”中,您可以保存当前应用程序会话,并打开以前保存的应用程序会话。

  • 单击,保存当前app会话保存文件部份分类学习者选项卡。第一次保存当前会话时,必须指定会话文件名和文件位置。的保存会话选项保存当前会话,而另存会话为选项将当前会话保存到一个新文件。

  • 单击,打开已保存的应用程序会话开放文件部分。在“选择要打开的文件”对话框中,选择要打开的已保存会话。

相关的话题