主要内容

特征选择和特征转换使用分类学习者应用

调查在散点图特征

在分类学习者,试图确定预测,单独的类通过绘制散点图上的不同对预测。情节可以帮你调查特性包括或排除。你可以想象训练数据散点图和分类错误的点。

在你训练一个分类器,散点图显示数据。如果你已经训练一个分类器,散点图显示了模型预测结果。通过选择开关只绘制数据数据情节控制。

  • 选择阴谋使用特性XY列表下预测

  • 寻找单独的类的预测因子。例如,绘制fisheriris数据,可以看到,花萼长度和萼片宽分开的一个类(setosa)。你需要情节其他预测如果你能单独另两类。

    费舍尔虹膜数据的散点图

  • 显示或隐藏特定的类使用复选框显示

  • 变化的叠加顺序绘制类通过选择下一个类然后点击移到前面

  • 调查细节由缩放和平移整个阴谋。要启用缩放或移动,将鼠标悬停在散点图,然后单击工具栏上的相应按钮出现上图右上角的阴谋。

  • 如果你确定预测不有用的类中分离出来,然后试着用特征选择删除它们和训练分类器只包括最有用的预测因子。看到选择功能包括

你训练一个分类器后,散点图显示了模型预测结果。您可以显示或隐藏正确或不正确的结果和显示结果的类。看到情节分类器的结果

您可以导出数据散点图里,您在应用程序中创建。看到出口情节分类学习者应用

选择功能包括

在分类学习者,你可以指定不同的特性(或指标)包括在模型中。看你是否能提高模型通过移除特性预测能力较低。如果数据收集是昂贵或困难,你可能更喜欢没有一些预测模型性能良好。

你可以确定哪些重要预测因子包括排名算法通过使用不同的功能。选择排名算法特性后,应用程序将显示一个情节的重要性得分排序功能,在大的成绩(包括表明更大的功能的重要性。应用程序也在一个表中显示特性和他们的分数排名。

排名算法在分类学习者使用功能,点击特征选择选项部分的分类学习者选项卡。应用程序打开一个默认的特征选择选项卡,你可以选择一个排名算法的特性。

排名算法特点 金宝app支持的数据类型 描述
MRMR 分类和连续的特性

排名功能按顺序使用最小冗余最大相关性(MRMR)算法

有关更多信息,请参见fscmrmr

Chi2 分类和连续的特性

检查是否每个预测变量是独立于响应变量用个人卡方测试,然后使用等级特性p卡方检验统计数据的值。分数对应日志(p)

有关更多信息,请参见fscchi2

ReliefF 所有分类或连续的所有功能

排名功能使用ReliefF算法。该算法适合评估功能基于距离监督模型的重要性,使用两两之间的距离观察预测响应。

有关更多信息,请参见relieff

方差分析 分类和连续的特性

为每个预测变量进行单向方差分析,按类分组,然后使用等级特性p值。对于每个预测变量,应用测试的假设预测响应值分组的类是来自相同的人口意味着对备择假设人口意味着并非都是相同的。分数对应日志(p)

有关更多信息,请参见anova1

Kruskal沃利斯 分类和连续的特性

排名功能使用p返回的值克鲁斯卡尔-沃利斯检验。对于每个预测变量,应用测试的假设预测响应值分组的类是来自相同的人群中对备择假设人口中位数不都是一样的。分数对应日志(p)

有关更多信息,请参见kruskalwallis

选择选择排名最高的特性和选择个体特性。

  • 选择选择排名最高的特性为了避免偏见的验证指标。例如,如果您使用交叉验证方案,然后为每个训练褶皱,应用训练之前进行特征选择模型。不同的折叠可以选择不同的预测排名最高的特性。

  • 选择选择个人特性在模型训练包括特定的功能。如果使用交叉验证方案,那么应用程序使用相同的功能在所有训练折叠。

当你完成选择功能,点击保存和应用。你的选择影响所有草案模型模型面板和将被应用到新的草案创建的模型使用的画廊模型部分的分类学习者选项卡。

为单一草案模型选择功能,打开并编辑模型总结。点击模型模型窗格,然后单击模型总结选项卡(如果有必要)。的总结选项卡包含一个可编辑的特征选择部分。

你训练模型后,特征选择模型的部分总结选项卡列出用来训练的完整模型的特性(即模型训练使用培训和验证数据)。了解更多关于如何分类学习者特征选择适用于您的数据,生成代码的训练分类器。有关更多信息,请参见生成MATLAB代码训练模型的新数据

例如使用特征选择,明白了火车使用分类学习者应用决策树

与PCA变换特性分类学习者

使用主成分分析(PCA)减少预测空间的维数。减少维度可以创建分类模型的分类学习者,防止过度拟合。线性PCA变换预测为了消除冗余的维度,并生成一组新的变量叫做主成分。

  1. 分类学习者选项卡,选项部分中,选择主成分分析

  2. 在默认的主成分分析选项对话框中,选择使主成分分析复选框,然后单击保存和应用

    应用程序更改适用于所有现有模型的草案模型面板和创建新的草案模型使用的画廊模型部分的分类学习者选项卡。

  3. 当你下火车模型使用火车都按钮时,主成分分析函数变换之前选定的特征训练分类器。

  4. 默认情况下,PCA仅保留的组件解释方差的95%。在默认PCA选项对话框中,你可以改变的比例方差解释通过选择解释的方差价值。更高的价值风险过度拟合,而较低的价值风险消除有用的维度。

  5. 如果你想手动限制PCA组件的数量,选择指定数量的组件组件降低标准列表。选择数字组件的数量价值。组件的数量不能大于数值预测的数量。PCA不应用于分类预测。

您可以检查训练模型的主成分分析选项主成分分析部分的总结选项卡。单击一个训练模式模型窗格,然后单击模型总结选项卡(如果有必要)。例如:

PCA是保持足够的组件来解释方差的95%。训练后,两部分。解释方差/组件(按顺序):92.5%,5.3%,1.7%,0.5%
检查解释方差的百分比决定是否改变组件的数量。

了解更多关于如何分类学习者PCA适用于您的数据,生成代码的训练分类器。有关PCA的更多信息,请参阅主成分分析函数。

在平行坐标图特性进行调查

调查特性包括或排除,使用平行坐标图。你可以想象高维数据在一个阴谋看到二维模式。情节可以帮助您理解之间的关系特性和识别有用的预测分离类。你可以想象训练数据和分类错误的点在平行坐标图。当你情节分类器的结果,是不是点虚线。

  1. 分类学习者选项卡,情节和解释部分,单击箭头打开画廊,然后单击平行坐标验证结果组。

  2. 情节,拖动X蜱虫标签重新排序预测。改变订单可以帮助您识别预测,单独的类。

  3. 指定哪个预测情节,使用预测复选框。一个好的实践是一次阴谋几个预测。如果您的数据有许多预测,情节默认显示前10预测。

  4. 如果预测有显著不同的尺度、规模的数据可视化。尝试不同的选择扩展列表:

    • 没有一个显示原始数据在坐标相同的统治者,最小和最大极限。

    • 范围显示原始数据在坐标有独立的最小和最大限度的统治者。

    • z分数显示z得分(平均值为0和1的标准偏差)在每个坐标统治者。

    • 零均值显示数据集中的意思是0在每个坐标统治者。

    • 单位方差显示值缩放通过标准偏差以及每个坐标统治者。

    • L2范数显示2-norm值在每个坐标统治者。

  5. 如果你确定预测不用于分离类,使用特征选择删除它们和训练分类器只包括最有用的预测因子。看到选择功能包括

的情节fisheriris数据显示花瓣长度和花瓣宽度最好单独的类特性。

平行坐标图显示分类器结果的费舍尔虹膜数据

有关更多信息,请参见parallelplot

您可以导出平行坐标图中创建的应用程序数据。看到出口情节分类学习者应用

相关的话题