选择回归数据或打开保存的应用程序会话
当您第一次启动回归学习者应用程序时,您可以选择导入数据或打开以前保存的应用程序会话。导入数据,请参见从工作区选择数据而且从文件导入数据.若要打开已保存的会话,请参见保存并打开应用程序会话.
从工作区选择数据
提示
在回归学习者中,表是处理数据的最简单方法,因为它们可以包含数值和标签数据。使用导入工具将数据导入MATLAB®工作区作为表,或使用表函数创建表格
来自工作空间变量。看到表.
将数据加载到MATLAB工作区中。
预测变量可以是数字、分类、字符串或逻辑向量、字符向量的单元格数组或字符数组。响应变量必须是浮点向量(单精度或双精度)。
将预测数据合并为一个变量,可以是表格或矩阵。您还可以结合您的预测数据和响应变量,或者您可以将它们分开。
有关示例数据集,请参见回归示例数据.
在应用程序选项卡上,单击回归的学习者打开应用程序。
在回归的学习者选项卡,在文件部分中,点击从工作区中创建会话>.
在“从工作区新建会话”对话框中,下面数据集变量,从工作区变量中选择表格或矩阵。
如果您选择一个矩阵,请单击选项按钮,选择是使用行还是列进行观察。
下响应,观察默认响应变量。该应用程序试图从数据集变量中选择一个合适的响应变量,并将所有其他变量视为预测变量。
如果你想使用不同的响应变量,你可以:
使用列表从数据集变量中选择另一个变量。
控件选择单独的工作区变量从工作空间选项按钮,然后从列表中选择一个变量。
下预测,使用复选框添加或删除预测器。单击,添加或删除所有预测器添加所有或删除所有.还可以通过在表中选择多个预测器,然后单击,来添加或删除多个预测器添加N或删除N,在那里N所选预测因子的数目。的添加所有而且删除所有按钮更改为添加N而且删除N当您选择多个预测因子时。
点击开始会议接受默认验证方案并继续。默认的验证选项是5倍交叉验证,这可以防止过拟合。
提示
如果您有一个大的数据集,您可能需要切换到坚持验证。要了解更多信息,请参见选择验证方案.
请注意
如果你更喜欢直接从命令行将数据加载到应用程序中,你可以在命令行调用中指定要在Regression Learner中使用的预测器数据、响应变量和验证类型regressionLearner
.有关更多信息,请参见回归的学习者.
有关后续步骤,请参见在回归学习应用程序中训练回归模型.
从文件导入数据
在回归的学习者选项卡,在文件部分中,选择新会话>从文件.
在列表中选择文件类型,如电子表格、文本文件或以逗号分隔的值(
. csv
)文件,或选择所有文件浏览其他文件类型,例如.dat
.
回归示例数据
要开始使用回归学习器,请尝试以下示例数据集。
的名字 | 大小 | 描述 |
---|---|---|
汽车 | 预测因子数量:7 观察数:406 回应: 英里/加仑 (每加仑英里数) |
1970-1982年不同车型的数据。预测燃油经济性(以每加仑英里数为单位),或其他特性之一。 有关详细示例,请参见使用回归学习应用程序训练回归树. |
类中的变量创建一个表 负载carbigcartable = table(加速度,气缸,位移,...马力,型号,年份,重量,产地,MPG); |
||
鲍鱼 | 预测数:8 观察数:4177 回应: 环 |
鲍鱼(一群海螺)的尺寸。预测鲍鱼的年龄,这与它们壳上的环数密切相关。 |
从UCI机器学习存储库下载数据,并将其保存在当前文件夹中。将数据读入表并指定变量名。 url =“https://archive.ics.uci.edu/ml/machine-learning-databases/abalone/abalone.data”;websave (“abalone.csv”url);Varnames = {“性”;“长度”;“直径”;“高度”;“Whole_weight”;...“Shucked_weight”;“Viscera_weight”;“Shell_weight”;“戒指”};可读的鲍鱼(“abalone.csv”);abalontable . properties . variablenames = varnames; |
||
医院 | 预测因子数量:5个 观察数:100 回应: BloodPressure_2 |
模拟医院数据。预测患者血压。 |
属性创建一个表 负载hospital.matHospitaltable = dataset2table(医院(:,2:end-1));
|
选择验证方案
选择一种验证方法来检验拟合模型的预测准确性。验证评估模型在新数据上的性能,并帮助您选择最佳模型。验证可以防止过拟合。过于灵活且存在过拟合的模型验证精度较差。在训练任何模型之前选择一个验证方案,以便您可以使用相同的验证方案比较会话中的所有模型。
提示
尝试默认验证方案,然后单击开始会议继续。默认选项是5倍交叉验证,防止过拟合。
如果你有一个大的数据集,并且使用交叉验证来训练模型花费了太长时间,那么重新导入你的数据并尝试更快的坚持验证。
假设没有为测试保留数据,默认情况下为true。
交叉验证:选择对数据集进行分区的折叠(或分割)次数。
如果你愿意k折叠,然后应用程序:
将数据划分为k不相交的组或褶皱
对于每个验证折叠:
使用训练折叠观察(不在验证折叠中的观察)训练模型
使用验证折叠数据评估模型性能
计算所有折叠的平均验证错误
这种方法很好地估计了使用完整数据集训练的最终模型的预测精度。该方法需要多次拟合,但能有效利用所有数据,因此适用于小数据集。
坚持验证:选择要用作验证集的数据的百分比。该应用程序在训练集上训练模型,并使用验证集评估其性能。用于验证的模型仅基于部分数据,因此坚持验证仅适用于大型数据集。最终的模型使用完整的数据集进行训练。
Resubstitution验证:没有防过拟合保护。该应用程序使用所有数据进行训练,并在相同的数据上计算错误率。如果没有任何单独的验证数据,就会对模型在新数据上的性能进行不切实际的估计。也就是说,训练样本的准确率可能会高得不现实,而预测准确率可能会低一些。
为了避免过度拟合训练数据,请选择另一种验证方案。
请注意
验证方案只影响回归学习器计算验证指标的方式。最终的模型总是使用完整的数据集进行训练,不包括任何为测试保留的数据。
选择数据后训练的所有模型都使用在此对话框中选择的相同验证方案。您可以使用相同的验证方案比较会话中的所有模型。
要更改验证选择并训练新模型,您可以再次选择数据,但会丢失所有训练过的模型。应用程序会警告你,导入数据会启动一个新的会话。将任何经过训练的模型保存到工作区中,然后导入数据。
有关训练模型的下一步步骤,请参见在回归学习应用程序中训练回归模型.
(可选)为测试预留数据
当您将数据导入到Regression Learner时,您可以指定为测试保留一定百分比的数据。在测试部分的“新建会话”对话框中,单击复选框留出测试数据集。指定要用作测试集的导入数据的百分比。如果您愿意,您仍然可以选择在启动应用程序会话后导入单独的测试数据集。
您可以使用测试集来评估经过训练的模型的性能。特别是,您可以检查验证度量是否为新数据上的模型性能提供了良好的估计。有关更多信息,请参见评估测试集模型性能.有关示例,请参见在回归学习App中使用超参数优化训练回归模型.
请注意
该应用程序不使用测试数据进行模型训练。从应用程序导出的模型使用完整的训练和验证数据进行训练,不包括用于测试的任何数据。
保存并打开应用程序会话
在回归学习者中,您可以保存当前应用程序会话并打开以前保存的应用程序会话。
单击,保存当前app会话保存在文件部份回归的学习者选项卡。第一次保存当前会话时,必须指定会话文件名和文件位置。的保存会话选项保存当前会话,而另存会话为选项将当前会话保存到一个新文件。
单击,打开已保存的应用程序会话开放在文件部分。在“选择要打开的文件”对话框中,选择要打开的已保存会话。