主要内容

使用分类学习者应用选择和功能转换

调查散点图中的特征

在分类学习者中,尝试通过在散点图上绘制不同的预测器,识别分开类别的预测器。该图可以帮助您调查包含或排除的功能。您可以在散点图上可视化培训数据和错误分类点。

在培训分类器之前,散点图显示数据。如果您培训了分类器,则散点图显示模型预测结果。通过选择切换到绘制数据数据在里面阴谋控制。

  • 选择使用绘图的功能Xy列表下预测因子

  • 寻找分开课程的预测器。例如,绘制渔民数据,您可以看到Sepal Length和Sepal宽度单独的课程(setosa.)。您需要绘制其他预测器,以查看您是否可以将其他两个类分开。

    散击Fisher Iris数据

  • 使用此复选框显示或隐藏特定类表演

  • 通过选择课程更改绘制类的堆叠顺序班级然后点击搬到前面

  • 通过缩放和缩小并绕过绘图来调查更精细的详细信息。要启用缩放或平移,将鼠标悬停在散点图上,然后单击图案右上角上方的工具栏上的相应按钮。

  • 如果识别对分离类别没有有用的预测器,则尝试使用功能选择删除它们和列车分类器,包括最有用的预测器。

培训分类器后,散点图显示模型预测结果。您可以显示或隐藏正确或不正确的结果并按类可视化结果。看绘制分类器结果

您可以将您在应用程序中创建的散点图导出到数字。看在分类学习者应用程序中导出地块

选择要包含的功能

在分类学习者中,您可以在模型中指定不同的功能(或预测器)。看看您是否可以通过删除具有低预测电源的功能来改进模型。如果数据收集昂贵或困难,则可能更喜欢一个令人满意地执行令人满意而没有一些预测的模型。

  1. 在这一点分类学习者标签,在特征部分,点击功能选择

  2. 在“功能选择”对话框中,清除要排除的预测器的复选框。

    具有SepAllength和SepalWidth的功能选择菜单,以及Petallength和PetalWidth清除

    小费

    您可以关闭“功能选择”对话框,或移动它。您的选择仍然存在。

  3. 点击火车使用新的预测器选项培训新模型。

  4. 观察新模型楷模窗格。这当前模型摘要窗格显示排除了多少预测器。

  5. 要检查培训的模型中是否包含哪些预测器,请单击该模型楷模窗格并遵守“功能选择”对话框中的复选框。

  6. 您可以尝试通过在模型中包含不同的功能来改进模型。

有关使用功能选择的示例,请参阅使用分类学习者APP列车决策树

在分类学习者中使用PCA转换功能

使用主成分分析(PCA)来降低预测器空间的维度。减少维度可以在分类学习者中创建分类模型,有助于防止过度装备。PCA线性地转换预测器以删除冗余尺寸,并生成一个名为主组件的新变量集。

  1. 在这一点分类学习者标签,在特征部分,选择PCA.

  2. 在“高级PCA选项”对话框中,选择启用PCA.复选框。

    您可以关闭PCA对话框或移动它。您的选择仍然存在。

  3. 当你下次点击时火车, 这PCA.函数在培训分类器之前将所选功能转换。

  4. 默认情况下,PCA仅保留解释差异95%的组件。在PCA对话框中,您可以通过选择来更改差异百分比来解释解释方差价值。更高的价值风险过度装备,而较低的值风险删除了有用的维度。

  5. 如果要手动限制PCA组件的数量,请在组分减少标准列表,选择指定组件数量。选择数字组件数量价值。组件的数量不能大于数字预测器的数量。PCA不适用于分类预测因子。

检查PCA选项是否为培训的型号当前模型摘要窗格信息。检查解释的variance百分比以决定是否更改组件的数量。例如:

PCA保持足够的组件来解释95%方差。培训后,保留了2个组分。每个组分的差异(按顺序):92.5%,5.3%,1.7%,0.5%

要了解有关分类学习者如何将PCA应用于数据的更多信息,请为培训的分类器生成代码。有关PCA的更多信息,请参阅PCA.功能。

调查并行坐标绘图中的功能

要调查包含或排除的功能,请使用并行坐标绘图。您可以在单个图上可视化高维数据以查看2-D模式。该曲线可以帮助您了解特征之间的关系并识别用于分离类的有用预测器。您可以在并行坐标图上可视化培训数据和错误分类点。当您绘制分类器结果时,错误分类点具有虚线。

  1. 在这一点分类学习者标签,在绘图部分,点击平行坐标

  2. 在情节上,拖动X刻度标签重新排序预测器。更改订单可以帮助您识别单独的课程的预测器。

  3. 要指定要绘制哪个预测器,请使用预测因子复选框。一个良好的做法是一次绘制一些预测因子。如果您的数据有许多预测器,则绘图默认显示前10个预测器。

  4. 如果预测器具有显着不同的尺度,则缩放数据以便更容易可视化。尝试不同的选择缩放列表:

    • 没有任何沿坐标尺寸显示具有相同最小和最大限制的原始数据。

    • 范围沿坐标统治者显示具有独立最小值和最大限制的原始数据。

    • z分数沿着每个坐标尺寸显示Z分数(平均值和1的标准偏差为1)。

    • 零意思显示以每个坐标尺寸为中心的数据具有0的平均值。

    • 单位方差显示通过沿每个坐标尺寸的标准偏差缩放的值。

    • L2规范沿每个坐标尺显示2常值的值。

  5. 如果您识别无法分离类别的预测器,请使用功能选择删除它们和列车分类器,包括最有用的预测器。

剧情渔民数据显示了花瓣长度和花瓣宽度的特征最佳分开类。

并行坐标绘图显示Fisher IRIS数据的分类器结果

您可以导出您在应用程序中创建的并行协调块到数字。看在分类学习者应用程序中导出地块

相关话题