主要内容

使用分类学习软件进行特征选择和特征转换

研究散点图中的特征

在分类学习者中,尝试通过在散点图上绘制不同的预测器对来识别能够很好地分离类的预测器。情节可以帮助你调查应该包含或排除的特征。你可以在散点图上可视化训练数据和错误分类的点。

在训练分类器之前,散点图显示数据。如果您已经训练了一个分类器,散点图将显示模型预测结果。通过选择,切换到仅绘制数据数据情节控制。

  • 选择要绘图的功能XY列表下预测

  • 寻找能够很好地区分类的预测因子。例如,绘制fisheriris数据,你可以看到萼片长度和萼片宽度很好地分隔一个类(setosa).您需要绘制其他预测因子,看看能否将其他两个类分开。

    Fisher虹膜数据的散点图

  • 使用下面的复选框显示或隐藏特定的类显示

  • 通过选择下面的类来改变绘制的类的堆叠顺序然后点击移到前面

  • 通过放大、缩小和平移情节来调查更精细的细节。若要启用缩放或平移,将鼠标悬停在散点图上,并单击出现在图右上角上方的工具栏上的相应按钮。

  • 如果您确定了对分离类没有用处的预测器,那么请尝试使用特征选择删除它们并训练分类器,只包括最有用的预测器。

训练分类器后,散点图显示模型预测结果。您可以显示或隐藏正确或不正确的结果,并按类显示结果。看到情节分类器的结果

你可以将你在应用程序中创建的散点图导出为图形。看到在分类学习者应用程序中导出地块

选择要包含的功能

在分类学习器中,您可以指定不同的特征(或预测器)来包含在模型中。看看是否可以通过删除预测能力低的特征来改进模型。如果数据收集非常昂贵或困难,您可能更喜欢无需一些预测器就能令人满意地执行的模型。

  1. 分类学习者选项卡,特性部分中,点击特征选择

  2. 在Feature Selection对话框中,清除要排除的预测器的复选框,然后单击好吧

    功能选择菜单,SepalLength和SepalWidth被选中,PetalLength和PetalWidth被清除

  3. 点击火车用新的预测选项训练一个新的模型。

  4. 观察新模型模型窗格。的当前模型的总结窗格显示排除了多少预测器。

  5. 要检查训练模型中包含哪些预测器,请单击模型窗格,并观察“功能选择”对话框中的复选框。

  6. 您可以尝试通过在模型中包含不同的特性来改进模型。

有关使用特性选择的示例,请参见使用分类学习程序训练决策树

基于PCA的特征变换在分类学习中的应用

使用主成分分析(PCA)降低预测空间的维数。降低维度可以在分类学习器中创建分类模型,帮助防止过拟合。PCA线性变换预测器以去除冗余维数,并生成一组称为主成分的新变量。

  1. 分类学习者选项卡,特性部分中,选择主成分分析

  2. 在“高级PCA选项”对话框中,选择使主成分分析复选框,然后单击好吧

  3. 当你下一步点击火车,主成分分析函数在训练分类器之前转换选定的特征。

  4. 默认情况下,PCA只保留那些能解释95%方差的组件。在“高级PCA选项”对话框中,您可以通过选择解释的方差价值。较高的值存在过拟合的风险,而较低的值存在删除有用维度的风险。

  5. 如果您想手动限制PCA组件的数量,请在组件降低标准列表中,选择指定组件数量.选择数字分量数价值。组件的数量不能大于数值预测器的数量。PCA不适用于分类预测。

检查PCA选项中的训练模型当前模型的总结面板的信息。检查解释的方差百分比,以决定是否改变组件的数量。例如:

主成分分析保留了足够多的成分来解释95%的方差。训练结束后,保留2个部分。每个成分的解释方差(按顺序):92.5%,5.3%,1.7%,0.5%

要了解更多关于Classification Learner如何将PCA应用到您的数据,请为您训练的分类器生成代码。有关PCA的更多信息,请参见主成分分析函数。

调查平行坐标图中的特征

要调查特征,包括或排除,使用平行坐标图。您可以在单个图上可视化高维数据以查看2-D模式。这个图可以帮助您理解特性之间的关系,并识别用于分离类的有用预测器。您可以在平行坐标图上可视化训练数据和错误分类的点。当绘制分类器结果时,分类错误的点有虚线。

  1. 分类学习者选项卡,情节段,单击箭头以打开图库,然后单击平行坐标验证结果组。

  2. 在情节上,拖动X标记标签以重新排序预测器。更改顺序可以帮助您识别能够很好地分离类的预测器。

  3. 要指定要绘制的预测因子,请使用预测复选框。一个好的做法是一次绘制几个预测因子。如果您的数据有许多预测器,则该图默认显示前10个预测器。

  4. 如果预测者有显著不同的尺度,则缩放数据以便于可视化。尝试不同的选项扩展列表:

    • 没有一个沿着具有相同最小和最大限制的坐标标尺显示原始数据。

    • 范围显示原始数据沿有独立的最小和最大限制的坐标标尺。

    • z分数沿着每个坐标标尺显示z-scores(平均值为0,标准偏差为1)。

    • 零均值显示沿每个坐标标尺以0为中心的数据。

    • 单位方差显示沿每个坐标标尺按标准偏差缩放的值。

    • L2范数沿每个坐标标尺显示2个标准值。

  5. 如果您确定了对分离类没有用处的预测器,请使用特征选择删除它们并训练分类器,只包括最有用的预测器。

故事的情节fisheriris数据表明,花瓣长度和花瓣宽度特征对分类效果最好。

显示Fisher虹膜数据分类结果的平行坐标图

有关更多信息,请参见parallelplot

你可以将在应用程序中创建的平行坐标图导出为图形。看到在分类学习者应用程序中导出地块

相关的话题