主要内容

选择数据分类或打开保存应用程序会话

当您第一次启动分类学习者应用程序,您可以选择导入数据或打开之前保存应用程序会话。导入数据,看看选择数据从工作区从文件中导入数据。打开一个保存的会话,明白了保存并打开应用程序会话

选择数据从工作区

提示

在分类学习者,使用你的数据表是最简单的方法,因为它们可以包含数字和标签数据。使用工具将数据导入MATLAB®工作空间表,或者使用创建一个表函数从工作空间变量。看到

  1. 你的数据加载到MATLAB工作区。

    预测和响应变量可以是数字,直言,字符串,或逻辑向量,细胞阵列的特征向量,或字符数组。响应变量不能包含超过500个独特的类标签。注意:如果你的反应变量是一个字符串向量,那么训练有素的预测模型形成一个单元阵列的特征向量。

    将预测数据组合成一个变量,一个表或一个矩阵。另外你可以结合你的预测数据和响应变量,或者你可以将它们区分开来。

    例如数据集,明白了示例数据的分类

  2. 应用程序选项卡上,单击分类学习者

  3. 分类学习者选项卡,文件部分中,点击新会话>从工作区

  4. 新会话从工作区对话框,下数据集变量从列表中,选择一个表或矩阵的工作空间变量。

    如果你选择了一个矩阵,选择是否使用行或列观察通过单击选项按钮。

  5. 响应,观察默认响应变量。应用程序试图选择一个合适的变量和响应变量数据集将所有其他变量视为预测。

    如果你想使用一个不同的响应变量,您可以:

    • 使用列表中选择另一个变量的数据集变量。

    • 通过单击选择一个单独的工作空间变量从工作空间选项按钮,然后从列表中选择一个变量。

  6. 预测使用复选框,添加或删除预测。通过点击添加或删除所有的预测指标添加所有删除所有。你也可以添加或删除多个预测表中选择他们,然后点击添加N删除N,在那里N是选择的数量预测。的添加所有删除所有按钮改变添加N删除N当您选择多个预测。

  7. 接受默认的验证方案和继续,点击开始会议。默认的验证选项是5倍交叉验证,防止过度拟合。

    提示

    如果你有一个大数据集你可能想切换到抵抗验证。欲了解更多,请看选择验证方案

请注意

如果你喜欢数据加载到应用程序直接从命令行,您可以指定预测数据,响应变量,验证类型在分类学习者使用命令行调用classificationLearner。有关更多信息,请参见分类学习者

下一步,请参阅训练分类模型的分类学习者应用

从文件中导入数据

  1. 分类学习者选项卡,文件部分中,选择新会话>从文件

  2. 选择一个文件类型列表中,如电子表格、文本文件,或逗号分隔值(. csv)文件,或选择所有文件浏览其他文件类型等.dat

示例数据的分类

开始使用分类学习者,试试下面的示例数据集。

的名字 大小 描述
费舍尔虹膜

预测数量:4
数量的观察:150
类的数量:3
回应:物种

测量从三个种类的虹膜。尝试对该物种进行分类。

一个循序渐进的例子,看到火车使用分类学习者应用决策树

创建一个表的. csv文件:

fishertable = readtable (“fisheriris.csv”);

信用评级

预测数量:6
数量的观察:3932
类的数量:7
回应:评级

财务比率分析和行业信息企业客户的列表。响应变量由信用评级(AAA、AA、A, BBB, BB, B, CCC)指定的评级机构。

创建一个表的CreditRating_Historical.dat文件:

creditrating = readtable (“CreditRating_Historical.dat”);

汽车

预测数量:7
数量的观察:100
类的数量:7
回应:起源

测量的汽车,1970年,1976年和1982年。试着在原产国进行分类。

创建一个表的变量carsmall.mat文件:

负载carsmallcartable =表(加速、气缸、位移,马力,Model_Year MPG、重量、产地);

心律失常

预测数量:279
数量的观察:452
类的数量:16
回应:类(Y)

患者信息和响应变量表示的存在和缺乏心律失常。将患者划分为“正常”的严重后果比假阳性列为“心律失常。”

创建一个表的.mat文件:

负载心律失常心律失常= array2table (X);心律失常。类=分类(Y);

卵巢癌

预测数量:4000
数量的观察:216
类的数量:2
回应:组

卵巢癌使用WCX2蛋白质生成的数据数组。控制包括95和121卵巢癌。

创建一个表的.mat文件:

负载ovariancancerovariancancer = array2table(观察);ovariancancer。组=分类(grp);

电离层

预测数量:34
数量的观察:351
类的数量:2
回应:集团(Y)

16高频信号从一个相控阵天线。好(“g”)返回雷达信号是那些显示某种类型的结构电离层的证据。坏(b)信号是那些通过电离层。

创建一个表的.mat文件:

负载电离层电离层= array2table (X);电离层。组= Y;

选择验证方案

选择一个验证方法研究拟合模型的预测精度。验证预测模型性能的新数据相比于训练数据,并帮助你选择最好的模型。验证防止过度拟合。之前选择一个验证方案的培训模式,这样你可以比较您的会话中的所有模型使用相同的验证方案。

提示

默认的验证方案并单击开始会议继续。默认的选项是5倍交叉验证,防止过度拟合。

如果你有一个大数据集和训练模型需要太长时间使用交叉验证,再输入你的数据,尽量越快抵抗验证。

假设没有数据用于测试,默认情况下是正确的。

  • 交叉验证:选择一个数量的折叠(或部门)分区数据集。

    如果你选择k折叠,然后应用程序:

    1. 分区的数据进k分离集或折叠

    2. 为每个验证折叠:

      1. 火车模型使用training-fold观察(观察而不是验证褶皱)

      2. 使用validation-fold评估模型的性能数据

    3. 计算平均验证错误折叠

    该方法给出了一个估计,最终模型的预测准确性训练的所有数据。它需要多个适合,但对有效使用的所有数据,所以建议对小数据集。

  • 坚持验证:选择一个百分比的数据作为验证集。应用列车模型训练集和评估其性能验证集。该模型仅用于验证是基于部分数据,所以坚持验证建议只针对大型数据集。最后一个模型是与完整的训练数据集。

  • Resubstitution验证:没有防止过度拟合。应用程序使用的所有数据进行训练和计算错误率在相同的数据。没有任何单独的验证数据,得到一个不切实际的估计模型的性能的新数据。即训练样本可能是不切实际的高,准确性和预测精度可能会更低。

    为了帮助你避免过度拟合训练数据,选择另一个验证方案。

请注意

验证方案只会影响分类的方式学习计算验证指标。最终的模型总是充分利用训练数据集,不含任何数据用于测试。

你训练分类模型都在选择数据使用相同的验证方案,你选择在这个对话框。你可以比较您的会话中的所有模型使用相同的验证方案。

更改验证选择和培训新模式,你可以选择数据,但你失去任何训练模型。导入数据的应用程序提醒你开始一个新的会话。保存任何你想保持工作区训练模型,然后导入数据。

下一步训练模型,明白了训练分类模型的分类学习者应用

(可选)储备数据进行测试

数据导入分类学习时,您可以指定保留一定比例的数据进行测试。在测试新会话的对话框中,单击复选框留出一个测试数据集。指定要使用的比例导入的数据作为测试集。如果你喜欢,你仍然可以选择导入一个独立的测试数据集后,启动一个应用程序会话。

您可以使用测试集来评估训练模型的性能。特别是,您可以检查是否验证指标提供良好的估计模型性能的新数据。有关更多信息,请参见评估测试集模型性能。例如,看到的训练分类器在分类学习者使用Hyperparameter优化应用程序

请注意

应用程序不使用测试数据对模型的训练。模型导出的应用训练全面训练和验证数据,不包括任何数据用于测试。

保存并打开应用程序会话

在分类学习者,你可以保存当前应用程序会话,打开之前保存应用程序会话。

  • 保存当前应用程序会话,点击保存文件部分的分类学习者选项卡。当你第一次保存当前会话,您必须指定会话文件名称和文件的位置。的保存会话选择保存当前会话,保存会话选择保存当前会话的一个新文件。的紧凑的会话保存为选择保存当前应用程序会话的一个简洁的版本,导致较小的文件大小为保存的会话。请注意,紧凑的会话保存为选择永久删除所有的训练数据训练模型在当前会话。

  • 打开一个保存应用程序会话,点击开放文件部分。在选择文件打开对话框中,选择您想要保存的会话打开。

相关的话题