主要内容

模型建立和评估

特征选择、特征工程、模型选择、超参数优化、交叉验证、预测性能评估、分类精度比较试验

在构建高质量的预测分类模型时,选择正确的特征(或预测器)和调优超参数(未估计的模型参数)非常重要。

功能选择和超参数调整可以产生多个模型k-模型中的折叠误分类率、受试者操作特征(ROC)曲线或混淆矩阵。或者,进行统计测试,以检测一个分类模型是否显著优于另一个分类模型。

要在训练分类模型之前设计新的特征,请使用地理特征

为了交互式地建立和评估分类模型,使用分类学习者应用程序。

要自动选择具有调优超参数的模型,请使用fitcauto.此函数尝试选择具有不同超参数值的分类模型类型,并返回一个最终模型,该模型预计将在新数据上运行良好。使用fitcauto当您不确定哪种分类器类型最适合您的数据时。

要优化特定模型的超参数,请选择超参数值并使用这些值交叉验证模型。例如,要调优SVM模型,选择一组框约束和核尺度,然后为每一对值交叉验证模型。某些Statistics和Machine Learning Toolbox™分类函数通过贝叶斯优化、网格搜索或随机搜索提供自动超参数调优。然而,用于实现贝叶斯优化的主要函数,bayesopt,足够灵活,可用于其他应用。看见贝叶斯优化工作流

要解释分类模型,您可以使用石灰沙普利局部依赖

应用程序

分类学习者 使用有监督机器学习训练数据分类模型

功能

全部展开

fscchi2 基于卡方检验的单变量特征分类排序
fscmrmr 使用最小冗余最大相关(MRMR)算法对分类特征进行排序
fscnca 基于邻域分量分析的分类特征选择
oobPermutedPredictorImportance 分类树随机森林的预测值重要性估计
predictorImportance 分类树预测器重要性的估计
predictorImportance 决策树分类集成中预测器重要性的估计
顺序 使用自定义标准的序列特征选择
relieff 使用ReliefF或RReliefF算法对预测因子的重要性进行排序
地理特征 执行分类的自动化特征工程
描述 描述生成特性
变换 使用生成的特性转换新数据
fitcauto 使用优化的超参数自动选择分类模型
bayesopt 使用贝叶斯优化选择最优的机器学习超参数
hyperparameters 优化拟合函数的变量描述
优化变量 变量描述bayesopt或其他优化
crossval 使用交叉验证估计损失
cvpartition 分区数据以进行交叉验证
再分配 交叉验证的重新分区数据
测试 交叉验证试验指标
培训 交叉验证的培训指标

本地可解释模型不可知解释(LIME)

石灰 局部可解释模型不可知解释(LIME)
适合 拟合局部可解释模型不可知解释的简单模型(LIME)
情节 局部可解释模型不可知解释(LIME)的绘图结果

夏普利值

沙普利 沙普利值
适合 计算查询点的Shapley值
情节 绘制Shapley值

部分依赖

部分依赖 计算部分依赖
局部依赖 创建部分依赖图(PDP)和个人条件期望图(ICE)
confusionchart 创建分类问题的混淆矩阵图
混淆垫 计算分类问题的混淆矩阵
性能曲线 分类器输出的接收器工作特性(ROC)曲线或其他性能曲线
testcholdout 比较两种分类模型的预测精度
testckfold 通过重复交叉验证比较两种分类模型的准确率

对象

全部展开

特征选择分类 基于邻域分量分析(NCA)的分类特征选择
FeatureTransformer 生成功能转换
BayesianOptimization 贝叶斯优化结果

主题

分类学习者应用程序

分类学习器应用程序中的训练分类模型

培训、比较和改进分类模型的工作流程,包括自动、手动和并行培训。

在分类学习中评估分类器的表现

比较模型精度分数,通过绘制类预测可视化结果,并在混淆矩阵中检查每个类的性能。

使用分类学习软件进行特征选择和特征转换

使用图识别有用的预测值,手动选择要包含的特征,并在分类学习器中使用PCA变换特征。

特征选择

特征选择简介

了解特征选择算法并探索特征选择可用的功能。

序列特征选择

本主题介绍顺序特征选择,并提供一个使用自定义条件和顺序函数。

邻域成分分析(NCA)特征选择

邻域分量分析(NCA)是一种非参数的特征选择方法,其目标是最大限度地提高回归和分类算法的预测精度。

使用NCA进行分类,调整正则化参数以检测特征

这个例子展示了如何调优正则化参数fscnca使用交叉验证。

正则化判别分析分类器

在不影响模型预测能力的情况下,通过删除预测器来建立一个更健壮、更简单的模型。

高维数据分类的特征选择

这个例子展示了如何选择对高维数据进行分类的特征。

特征工程

分类的自动化特征工程

使用地理特征在训练分类模型之前设计新特征。在对新数据进行预测之前,对新数据集应用相同的特征转换。

自动模型选择

基于贝叶斯优化的自动分类器选择

使用fitcauto在给定训练预测值和响应数据的情况下,自动尝试选择具有不同超参数值的分类模型类型。

超参数优化

贝叶斯优化工作流

使用fit函数或调用bayesopt直接地

贝叶斯优化的变量

为贝叶斯优化创建变量。

贝叶斯优化目标函数

创建贝叶斯优化的目标函数。

贝叶斯优化中的约束条件

为贝叶斯优化设置不同类型的约束。

使用贝叶斯算法优化交叉验证的SVM分类器

使用贝叶斯优化最小化交叉验证损失。

使用贝叶斯优化优化SVM分类器

使用OptimizeParameters拟合函数中的名称-值对。

贝叶斯优化图函数

直观地监视贝叶斯优化。

贝叶斯优化输出函数

监视贝叶斯优化。

贝叶斯优化算法

了解贝叶斯优化的基本算法。

平行的贝叶斯优化

贝叶斯优化是如何并行工作的。

模型的解释

解释机器学习模型

用以下方法解释模型预测石灰沙普利局部依赖

机器学习模型的Shapley值

使用两种算法计算机器学习模型的Shapley值:kernelSHAP和对kernelSHAP的扩展。

交叉验证

使用并行计算实现交叉验证

使用并行计算加速交叉验证。

分类性能评价

性能曲线

使用接收器工作特性曲线检查特定测试数据集上分类算法的性能。