主要内容

火车使用分类学习者应用决策树

这个例子展示了如何创建和使用分类学习者比较各种分类树,和出口训练模型工作区为新数据做出预测。

你可以训练分类树来预测响应数据。预测反应,遵循决策树从根节点到叶节点(开始)。叶节点包含响应。

统计和机器学习工具箱™树是二进制。每一步的预测包括检查一个预测(变量)的值。例如,下面是一个简单的分类树:

决策树有两个分支

这棵树预测分类基于两个预测因子,x1x2。预测,从顶部开始节点。在每一个决定,检查预测因子的值来决定哪个部门遵循。当树枝到达一个叶子节点,数据分为类型01

  1. 在MATLAB®,加载fisheriris测量预测数据集和创建一个表(或功能)使用变量数据集使用的一个分类。

    fishertable = readtable (“fisheriris.csv”);
  2. 应用程序选项卡,机器学习和深度的学习组中,单击分类学习者

  3. 分类学习者选项卡,文件部分中,点击新会话>从工作区

    分类学习者选项卡

  4. 新会话从工作区对话框中,选择表fishertable数据集变量列表(如果有必要)。

    观察到这个应用程序已经选择反应和预测变量根据其数据类型。花瓣和萼片长度和宽度预测,物种是你想要的反应分类。对于这个示例,不改变选择。

    新会话从工作区对话框

  5. 接受默认的验证方案和继续,点击开始会议。默认的验证选项是交叉验证,防止过度拟合。

    数据的分类学习者创建了一个散点图。

    费舍尔虹膜数据的散点图

  6. 使用散点图调查哪些变量是有用的预测响应。可视化物种的分布和测量,选择不同的变量XY列表下预测右边的阴谋。观察变量单独物种颜色最明显。

    观察到的setosa物种(蓝色点)很容易分离的其他两个物种与所有四个预测因子。的多色的virginica物种更凝聚在预测所有的测量,和重叠特别是当你情节花萼长度和宽度。setosa比其它两个物种更容易预测。

  7. 火车好,媒介,同时粗的树。的模型窗格中已经包含了一个很好的树模型。中、粗树模型添加到列表模式草案。在分类学习者选项卡,模型部分,单击箭头打开画廊。在决策树组中,单击中树。应用程序创建了一个草案中树的模型窗格。重新打开模型画廊和点击粗树决策树组。应用程序创建了一个粗树的草案模型窗格。

    火车部分中,点击火车都并选择火车都。应用列车三树模型。

    请注意

    • 如果你有并行计算工具箱™,那么应用程序的使用并行默认按钮进行切换。你点击后火车都并选择火车都选择火车应用程序打开一个平行的工人。在这段时间里,你不能与软件交互。池打开后,可以继续与应用程序交互,同时并行模型火车。

    • 如果你没有并行计算工具箱,然后应用程序了使用背景培训复选框的火车都菜单默认选中。你选择一个选项来训练模型后,应用程序打开一个背景池。池打开后,可以继续与应用程序交互,同时在后台模型火车。

    验证混淆矩阵的粗树回归模型。蓝色值指示正确分类,红色值显示不正确的分类。

    请注意

    验证了一些随机性的结果。你的模型验证结果可以从这个例子中所示的结果不同。

    模型窗格中,每个模型都有一个验证准确性分数表明正确预测反应的比例。应用程序突出了最高的准确性(验证)值(或价值)阐述了它在一个盒子里。

  8. 点击查看结果的模型,显示在总结选项卡。在分类学习者选项卡,模型部分中,点击总结

  9. 对于每个模式,检查散点图。在分类学习者选项卡,情节和解释部分,单击箭头打开画廊,然后单击散射验证结果组。一个X表示分类错误的点。

    对所有三种模式,蓝色的点(setosa物种都是正确地分类,但是其他两个物种被误诊。下情节之间切换,数据模型的预测选项。观察错误的颜色(X)点。另外,虽然绘图模型预测,只查看错误点,清除正确的复选框。

  10. 努力改善模型,包括在模型训练不同的特性。看你是否能提高预测能力较低的模型通过删除功能。

    分类学习者选项卡,选项部分中,点击特征选择

    默认的特征选择选项卡中,您可以选择不同的排名算法特点确定最重要的特性。选择排名算法特性后,应用程序将显示一个情节的重要性得分排序功能,在大的成绩(包括表明更大的功能的重要性。表显示了排名的特性和他们的分数。

    在这个例子中,Chi2,ReliefF,方差分析,Kruskal沃利斯排名算法特征识别所有花瓣测量是最重要的特性。下排名算法特点,点击Chi2

    默认特征选择选项卡与Chi2排名算法选择特性

    特征选择,使用默认选项的选择排名最高的特性来避免偏见的验证指标。指定保持2 4特性模型的训练。点击保存和应用。应用程序应用特征选择新创建的模型使用的变化模型画廊。

  11. 培训新树模型使用减少的特性。在分类学习者选项卡,模型部分,单击箭头打开画廊。在决策树组中,单击所有的树。在火车部分中,点击火车都并选择火车都选择火车

    模型训练只使用两个测量表现的相当,包含所有的预测模型。模型预测没有更好地使用所有测量相比,只有两个测量。如果数据收集是昂贵或困难,你可能更喜欢没有一些预测模型性能良好。

  12. 注意最后一个模型模型窗格中,粗树模型训练的第2只使用4个预测因子。应用程序显示有多少因素排除在外。检查包括哪些指标,点击模型模型面板,注意扩大的复选框特征选择模型的部分总结选项卡。

    请注意

    如果你使用交叉验证方案和选择进行特征选择使用选择排名最高的特性选项,然后为每个训练褶皱,应用训练之前进行特征选择模型。不同的折叠可以选择不同的预测排名最高的特性。上的表默认的特征选择选项卡显示的列表全部使用的预测模型,训练在训练和验证数据。

  13. 培训新树模型测量的使用另一个子集。在分类学习者选项卡,选项部分中,点击特征选择。在默认的特征选择选项卡上,单击MRMR排名算法特点。下特征选择,指定3 4特性模型的训练。点击保存和应用

    分类学习者选项卡,模型部分,单击箭头打开画廊。在决策树组中,单击所有的树。在火车部分中,点击火车都并选择火车都选择火车

    模型训练只使用3的4预测不会执行以及其他训练模型。

  14. 选择最好的模型在这些类似的准确性通过检查每个类的性能。例如,选择粗的树,包括2 4预测。检查每个类的预测的准确性。在分类学习者选项卡,情节和解释部分,单击箭头打开画廊,然后单击混淆矩阵(验证)验证结果组。使用这个情节了解当前选中的分类器中执行每个类。视图矩阵的类和类预测结果。

    寻找地区分类器通过检查细胞表现不佳的对角线显示高数字和是红色的。在这些红细胞,真正的阶级和预测类不匹配。更进一步的数据点。

    混淆矩阵图

    在这个图中,检查中间行第三单元。在这个单元,真正的类多色的,但模型分类错误的点virginica。对于这个模型,细胞显示2分类错误(你的结果可能不同)。查看百分比而不是数量的观察,选择真正积极的利率选择下情节控制。

    您可以使用此信息来帮助您选择最好的模型的目标。如果误报这门课是非常重要的分类问题,然后选择最好的模型在预测这类。如果误报这门课不是很重要,用更少的预测和模型做得更好在其他类,然后选择一个模型来权衡一些总体精度排除一些预测和简化将来的数据收集。

  15. 比较混淆矩阵中每一个模型模型窗格。检查特征选择模型的部分总结选项卡,查看包含在每个模型的预测。

    在这个例子中,粗树,包括2 4预测执行以及粗树预测。也就是说,两种模型提供相同的验证准确性和有相同的混合矩阵。

  16. 进一步研究特征包括或排除,使用平行坐标图。在分类学习者选项卡,情节和解释部分,单击箭头打开画廊,然后单击平行坐标验证结果组。你可以看到花瓣长度和花瓣宽度最好是单独的类的功能。

    平行坐标图

  17. 学习模型hyperparameter设置,选择一个模型模型面板和扩大模型Hyperparameters部分模型中总结选项卡。比较粗、中树模型和hyperparameters注意的差异模型。特别是,最大数量的分裂设置4个粗的树木和20中树。这个设置控制树的深度。

    试图进一步提高粗树模型,改变最大数量的分裂设置。首先,单击模型模型窗格。在分类学习者选项卡,模型部分中,点击重复的。在总结选项卡中,改变最大数量的分裂价值。然后,在火车部分的分类学习者选项卡上,单击火车都并选择选择火车

  18. 单击最好的训练模式模型窗格。这个模型导出到工作区,在分类学习者选项卡上,单击出口,点击出口模式并选择出口模式。在出口分类模型对话框中,单击好吧接受默认的变量名trainedModel

    在命令窗口中看到结果的信息。

  19. 想象你的决策树模型,输入:

    视图(trainedModel.ClassificationTree,“模式”,“图”)

    分类树

  20. 您可以使用导出的分类器对新数据进行预测。例如,做出的预测fishertable数据在工作区中,输入:

    [yfit,分数]= trainedModel.predictFcn (fishertable)
    输出yfit包含一个类为每个数据点预测。输出分数包含类分数返回的训练模型。分数是一个n——- - - - - -k数组,n数据点的数量和吗k在训练模型类的数量。

  21. 如果你想自动训练分类器与新数据相同,或者学习如何编程训练分类器,您可以生成代码的应用。为最好的训练模型生成代码,在分类学习者选项卡,出口部分中,点击生成函数

    应用程序从模型生成代码并在MATLAB中显示文件编辑器。欲了解更多,请看生成MATLAB代码训练模型的新数据

这个示例使用费舍尔1936虹膜数据。花的虹膜数据包含测量:花瓣长度,花瓣宽度,花萼长度和萼片宽三物种标本。训练一个分类器预测物种基于预测测量。

使用相同的工作流程评估和比较的其他分类器类型你可以训练分类学习者。

尝试所有的nonoptimizable分类器模型预设可供你的数据集:

  1. 分类学习者选项卡,模型部分,单击箭头打开画廊分类模型。

  2. 开始组中,单击所有

    选项选择所有可用的训练分类器类型

  3. 火车部分中,点击火车都并选择火车都

了解其他类型的分类器,请参阅训练分类模型的分类学习者应用

相关的话题