主要内容

选择数据回归或打开保存应用程序会话

当您第一次启动回归学习者应用程序,您可以选择导入数据或打开之前保存应用程序会话。导入数据,看看选择数据从工作区从文件中导入数据。打开一个保存的会话,明白了保存并打开应用程序会话

选择数据从工作区

提示

在回归的学习者,表是最简单的方法处理你的数据,因为他们可以包含数字和标签数据。使用工具将数据导入MATLAB®工作空间表,或者使用创建一个表函数从工作空间变量。看到

  1. 你的数据加载到MATLAB工作区。

    预测变量可以是数字,分类、字符串或逻辑向量,细胞阵列的特征向量,或字符数组。响应变量必须是一个浮点矢量(单引号或双精度)。

    将预测数据组合成一个变量,一个表或一个矩阵。另外你可以结合你的预测数据和响应变量,或者你可以将它们区分开来。

    例如数据集,明白了示例数据的回归

  2. 应用程序选项卡上,单击回归的学习者打开应用程序。

  3. 回归的学习者选项卡,文件部分中,点击新会话>从工作区

  4. 新会话从工作区对话框,下数据集变量从工作区,选择一个表或矩阵变量。

    如果你选择了一个矩阵,选择是否使用行或列观察通过单击选项按钮。

  5. 响应,观察默认响应变量。应用程序试图选择一个合适的变量和响应变量数据集将所有其他变量视为预测。

    如果你想使用一个不同的响应变量,您可以:

    • 使用列表中选择另一个变量的数据集变量。

    • 通过单击选择一个单独的工作空间变量从工作空间选项按钮,然后从列表中选择一个变量。

  6. 预测使用复选框,添加或删除预测。通过点击添加或删除所有的预测指标添加所有删除所有。你也可以添加或删除多个预测表中选择他们,然后点击添加N删除N,在那里N是选择的数量预测。的添加所有删除所有按钮改变添加N删除N当您选择多个预测。

  7. 点击开始会议接受默认的验证方案和继续。默认的验证选项是5倍交叉验证,防止过度拟合。

    提示

    如果你有一个大的数据集,您可能想切换到抵抗验证。欲了解更多,请看选择验证方案

请注意

如果你喜欢数据加载到应用程序直接从命令行,您可以指定预测数据,响应变量,验证类型使用在命令行调用回归学习者regressionLearner。有关更多信息,请参见回归的学习者

下一步,请参阅火车在回归学习者应用回归模型

从文件中导入数据

  1. 回归的学习者选项卡,文件部分中,选择新会话>从文件

  2. 选择一个文件类型列表中,如电子表格、文本文件,或逗号分隔值(. csv)文件,或选择所有文件浏览其他文件类型等.dat

示例数据的回归

开始使用回归学习者,试试这些示例数据集。

的名字 大小 描述
汽车 预测数量:7
数量的观察:406
回应:英里/加仑(英里/加仑)

数据在不同的车型上,1970 - 1982。预测燃油经济性(英里/加仑),或者其他特征。

一个循序渐进的例子,看到火车使用回归学习者应用回归树

创建一个表的变量carbig数据集。

负载carbigcartable =表(加速、气缸、位移,马力,Model_Year、重量、起源、MPG);

鲍鱼 预测数量:8
数量的观察:4177
回应:

测量鲍鱼(一群海蜗牛)。预测鲍鱼的年龄,这是密切相关的环壳。

下载来自UCI机器学习库的数据并将其保存在当前文件夹。读取数据到一个表,并指定变量名。

url =“https://archive.ics.uci.edu/ml/”+“machine-learning-databases /鲍鱼/ abalone.data”;websave (“abalone.csv”url);varnames = [“性”;“长度”;“直径”;“高度”;“Whole_weight”;“Shucked_weight”;“Viscera_weight”;“Shell_weight”;“戒指”];abalonetable = readtable (“abalone.csv”);abalonetable.Properties。VariableNames = varnames;
医院 预测数量:5
数量的观察:100
回应:舒张压

模拟医院数据。预测患者的舒张压。

创建一个表的变量病人数据集。

负载病人hospitaltable =表(性别、年龄、体重、吸烟、收缩、舒张压);

选择验证方案

选择一个验证方法研究拟合模型的预测精度。新数据验证预测模型的性能,并帮助你选择最好的模型。验证防止过度拟合。模型太灵活和遭受过度拟合精度验证。选择一个验证方案培训任何模型之前,这样您就可以比较您的会话中的所有模式使用相同的验证方案。

提示

默认的验证方案并单击开始会议继续。默认的选项是5倍交叉验证,防止过度拟合。

如果你有一个大数据集和训练的模型需要太长时间使用交叉验证,再输入你的数据,尽量越快抵抗验证。

假设没有数据用于测试,默认情况下是正确的。

  • 交叉验证:选择折叠的数量(或部门)分区数据集。

    如果你选择k折叠,然后应用程序:

    1. 分区的数据进k分离集或折叠

    2. 为每个验证折叠:

      1. 火车模型使用training-fold观察(观察而不是验证褶皱)

      2. 使用validation-fold评估模型的性能数据

    3. 计算平均验证错误折叠

    该方法给出了一个估计,最终模型的预测准确性训练使用完整的数据集。该方法需要多个适合,但有效的利用所有的数据,所以它适用于较小的数据集。

  • 坚持验证:选择一个百分比的数据作为验证集。应用列车模型训练集和评估其性能验证集。该模型仅用于验证是基于部分数据,所以坚持验证只适用于大型数据集。最后一个模型是充分利用训练数据集。

  • Resubstitution验证:没有防止过度拟合。应用程序使用的所有数据进行训练和计算错误率在相同的数据。没有任何单独的验证数据,得到一个不切实际的估计模型的性能的新数据。即训练样本可能是不切实际的高,准确性和预测精度可能会更低。

    为了帮助你避免过度拟合训练数据,选择另一个验证方案。

请注意

验证方案只会影响回归学习者的方式计算验证指标。最终的模型总是充分利用训练数据集,不含任何数据用于测试。

你训练的所有模型在选择数据使用相同的验证方案,你选择在这个对话框。你可以比较您的会话中的所有模型使用相同的验证方案。

更改验证选择和培训新模式,你可以选择数据,但你失去任何训练模型。导入数据的应用程序提醒你开始一个新的会话。保存任何你想保持工作区训练模型,然后导入数据。

下一步训练模型,明白了火车在回归学习者应用回归模型

(可选)储备数据进行测试

数据导入到回归学习时,您可以指定保留一定比例的数据进行测试。在测试新会话的对话框中,单击复选框留出一个测试数据集。指定要使用的比例导入的数据作为测试集。如果你喜欢,你仍然可以选择导入一个独立的测试数据集后,启动一个应用程序会话。

您可以使用测试集来评估训练模型的性能。特别是,您可以检查是否验证指标提供良好的估计模型性能的新数据。有关更多信息,请参见评估测试集模型性能。例如,看到的火车回归模型使用Hyperparameter优化回归学习者应用

请注意

应用程序不使用测试数据对模型的训练。模型导出的应用训练全面训练和验证数据,不包括任何数据用于测试。

保存并打开应用程序会话

在回归的学习者,你可以保存当前应用程序会话,打开之前保存应用程序会话。

  • 保存当前应用程序会话,点击保存文件部分的回归的学习者选项卡。当你第一次保存当前会话,您必须指定会话文件名称和文件的位置。的保存会话选择保存当前会话,保存会话选择保存当前会话的一个新文件。

  • 打开一个保存应用程序会话,点击开放文件部分。在选择文件打开对话框中,选择您想要保存的会话打开。

相关的话题