通过比较测试集分类边缘、边缘、错误和预测来进行特征选择。将使用所有预测器训练的模型的测试集度量与仅使用预测器子集训练的模型的测试集度量进行比较。
加载示例文件fisheriris.csv
,其中包括鸢尾资料,包括萼片长度,萼片宽度,花瓣长度,花瓣宽度和种类型。将文件读入表中。
将数据分离到一个训练集trainTbl
和一个测试集testTbl
通过使用分层的抵抗层分区。该软件为测试数据集保留大约30%的观察值,并将其余的观察值用于训练数据集。
使用培训集中的所有预测器列车,使用所有预测器使用所有预测器列出一个神经网络分类器PetalWidth
.对于这两个模型,指定物种
作为响应变量,并标准化预测器。
计算两种型号的测试集分类边距。因为测试集仅包括45个观察,所以使用条形图显示边距。
对于每个观察,分类边缘是真实类别的分类评分与错误类别的最大评分之间的差值。因为神经网络分类器返回的分类分数是后验概率,接近1的边缘值表示有信心分类,负边缘值表示错误分类。
比较两个模型的测试集分类边缘,或分类边缘的平均值。
基于测试设置分类边距和边缘,在预测器子集上培训的模型似乎优于所有预测器上培训的模型。
比较两种模型的测试集分类误差。
同样,只使用预测器的一个子集训练的模型似乎比使用所有预测器训练的模型表现得更好。
使用混淆矩阵可视化测试集分类结果。
使用所有预测器训练的模型错误分配了四个测试集观察。使用预测器的子集训练的模型仅错误分类测试集观察中的一个。
鉴于两种型号的测试集性能,考虑使用除了所有预测器之外的所有预测器训练的模型PetalWidth
.