使用分类学习App进行特征选择和特征转换
研究散点图中的特征
在分类学习器中,尝试通过在散点图上绘制不同的预测器对来识别分离类的预测器。绘图可以帮助您研究要包含或排除的特征。您可以在散点图上可视化训练数据和错误分类的点。
在训练分类器之前,散点图会显示数据。如果训练了分类器,则散点图显示模型预测结果。通过选择,切换到仅绘制数据数据在情节控制。
属性选择要绘制的特征X而且Y列表下预测.
寻找能够很好地区分类别的预测因子。例如,绘制
fisheriris
数据,你可以看到萼片长度和萼片宽度很好地分开了一个类(setosa
).您需要绘制其他预测器,以查看是否可以分离其他两个类。下的复选框显示或隐藏特定的类显示.
通过选择下面的类来更改绘制的类的堆叠顺序类然后点击移到前面.
通过放大、缩小和平移来研究更精细的细节。若要启用缩放或平移,请将鼠标悬停在散点图上,然后单击图右上方工具栏上的相应按钮。
如果您确定的预测器对分离类没有用处,那么请尝试使用特征选择删除它们并训练分类器,只包括最有用的预测器。看到选择要包含的功能.
训练分类器后,散点图显示模型预测结果。您可以显示或隐藏正确或不正确的结果,并按类可视化结果。看到Plot分类器结果.
您可以将在应用程序中创建的散点图导出为图形。看到在分类学习应用程序中导出图.
选择要包含的功能
在Classification Learner中,您可以指定要包含在模型中的不同特征(或预测器)。看看是否可以通过去除低预测能力的特征来改进模型。如果数据收集是昂贵的或困难的,您可能更喜欢一个没有一些预测器就能令人满意地执行的模型。
您可以通过使用不同的特征排序算法来确定包含哪些重要的预测因子。在你选择一个特征排名算法后,应用程序会显示一个排序特征重要性得分的图表,其中较大的得分(包括正
S)表示更大的特征重要性。该应用程序还会在表格中显示排名功能及其得分。
要在“分类学习器”中使用特征排序算法,请单击特征选择在选项部份分类学习者选项卡。应用程序打开一个默认特性选择选项卡,您可以在其中选择一个特征排名算法。
特征排序算法 | 金宝app支持数据类型 | 描述 |
---|---|---|
MRMR | 范畴性和连续性特征 | 属性对特征进行排序最小冗余最大相关性(MRMR)算法. 有关更多信息,请参见 |
Chi2 | 范畴性和连续性特征 | 使用单独的卡方检验检查每个预测变量是否独立于响应变量,然后使用p-卡方检验统计值。分数对应于日志(p). 有关更多信息,请参见 |
ReliefF | 要么全部范畴特征,要么全部连续特征 | 使用ReliefF算法。该算法最适合用于估计基于距离的监督模型的特征重要性,该模型使用观察值之间的成对距离来预测响应。 有关更多信息,请参见 |
方差分析 | 范畴性和连续性特征 | 对每个预测变量进行单因素方差分析,按类别分组,然后使用p值。对于每个预测变量,该应用程序测试假设,即由响应类别分组的预测值来自具有相同均值的总体,而非备选假设,即总体均值不完全相同。分数对应于日志(p). 有关更多信息,请参见 |
Kruskal沃利斯 | 范畴性和连续性特征 | 使用p方法返回的-values克鲁斯卡尔-沃利斯检验.对于每个预测变量,应用程序测试假设,即由响应类别分组的预测值来自具有相同中位数的总体,而不是总体中位数不完全相同的替代假设。分数对应于日志(p). 有关更多信息,请参见 |
在选择排名最高的特征和选择单个特征之间进行选择。
选择选择排名最高的特征避免验证指标的偏差。例如,如果你使用交叉验证方案,那么对于每个训练折叠,应用程序在训练模型之前执行特征选择。不同的折叠可以选择不同的预测因子作为最高等级的特征。
选择选择单独的特征在模型训练中包含特定的特征。如果你使用交叉验证方案,那么应用程序在所有训练折叠中使用相同的功能。
完成选择特性后,单击保存并应用.中的所有草稿模型都会受到您的选择影响模型窗格中,并将应用于使用图库创建的新草稿模型模型部份分类学习者选项卡。
要为单个草案模型选择特性,请打开并编辑模型摘要。中的模型模型窗格,然后单击模型总结TAB(如果需要)。的总结TAB包含一个可编辑器特征选择部分。
在你训练了一个模型之后特征选择模型剖面总结TAB列出了用于训练完整模型(即使用训练和验证数据训练的模型)的特征。要了解更多关于Classification Learner如何将特征选择应用于数据的信息,请为训练过的分类器生成代码。有关更多信息,请参见生成MATLAB代码,用新数据训练模型.
有关使用特性选择的示例,请参见使用分类学习应用程序训练决策树.
基于PCA的分类学习器特征转换
使用主成分分析(PCA)来降低预测器空间的维数。降低维数可以在分类学习器中创建分类模型,防止过拟合。主成分分析对预测因子进行线性变换,以去除冗余维度,并生成一组新的变量,称为主成分。
在分类学习者选项卡,在选项部分中,选择主成分分析.
2 .在“Default PCA Options”对话框中选择使主成分分析复选框,然后单击保存并应用.
该应用程序将更改应用于所有现有的草案模型模型窗格中使用图库创建的新草稿模型模型部份分类学习者选项卡。
当你下次训练一个模型使用火车都按钮时,
主成分分析
函数在训练分类器之前转换选定的特征。默认情况下,PCA只保留解释95%方差的分量。在“默认PCA选项”对话框中,您可以通过选择参数来更改要解释的方差百分比解释的方差价值。较高的值有过度拟合的风险,而较低的值有删除有用维度的风险。
如果需要手动限制PCA个数,请选中
指定组件数量
在组分约简准则列表。选择数值组件数量价值。组件的数量不能大于数值预测器的数量。主成分分析不适用于分类预测器。
中的已训练模型的PCA选项主成分分析部份总结选项卡。中单击训练过的模型模型窗格,然后单击模型总结TAB(如果需要)。例如:
PCA保留了足够的分量来解释95%的方差。训练结束后,保留2个组份。每个成分的解释方差(顺序):92.5%,5.3%,1.7%,0.5%
要了解更多关于Classification Learner如何将PCA应用于您的数据,请为您训练的分类器生成代码。有关PCA的更多信息,请参见主成分分析
函数。
研究平行坐标图的特征
要研究要包含或排除的特征,请使用平行坐标图。您可以在单个图上可视化高维数据,以查看2-D模式。图可以帮助您理解特征之间的关系,并识别用于分离类的有用预测器。您可以在平行坐标图上可视化训练数据和错误分类的点。当绘制分类器结果时,错误分类的点有虚线。
在分类学习者选项卡,在情节和解释部分,单击箭头打开图库,然后单击平行坐标在验证结果组。
在绘图上,拖动X勾选标签以重新排列预测符。改变顺序可以帮助您识别能够很好地分离类的预测器。
要指定绘制哪些预测器,请使用预测复选框。一个好的实践是一次绘制几个预测器。如果数据有许多预测器,则该图默认显示前10个预测器。
如果预测器具有显著不同的规模,则缩放数据,以便于可视化。尝试不同的选项扩展列表:
没有一个
沿着具有相同最小和最大限制的坐标标尺显示原始数据。范围
沿着具有独立最小和最大限制的坐标标尺显示原始数据。z分数
显示沿着每个坐标标尺的z分数(平均值为0,标准差为1)。零均值
显示数据居中,沿每个坐标标尺的平均值为0。单位方差
显示沿每个坐标标尺按标准偏差缩放的值。L2范数
沿着每个坐标标尺显示2范数。
如果您确定的预测器对分离类没有用处,请使用特征选择删除它们并训练分类器,只包括最有用的预测器。看到选择要包含的功能.
的情节fisheriris
数据显示,花瓣长度和花瓣宽度的特征区分类别最好。
有关更多信息,请参见parallelplot
.
您可以将在应用程序中创建的并行坐标图导出为图形。看到在分类学习应用程序中导出图.