在构建高质量回归模型时,选择正确的特征(或预测因子)、调优超参数(模型参数不适合数据)以及通过剩余诊断评估模型假设是很重要的。
您可以通过在为超参数选择值之间迭代和使用您的选择交叉验证模型来优化超参数。这个过程会产生多个模型,其中最好的模型可能是最小化估计泛化误差的模型。例如,要调优SVM模型,请选择一组框约束和内核尺度,为每对值交叉验证模型,然后比较它们的10倍交叉验证的均方误差估计。
要在训练回归模型之前设计新特性,请使用genrfeatures
.
要交互式地构建和评估回归模型,请使用回归的学习者应用程序。
若要自动选择具有调优超参数的模型,请使用fitrauto
.该函数尝试选择具有不同超参数值的回归模型类型,并返回预期性能良好的最终模型。使用fitrauto
当你不确定哪种回归模型类型最适合你的数据时。
统计和机器学习工具箱™中的某些非参数回归函数通过贝叶斯优化、网格搜索或随机搜索提供自动超参数调优。bayesopt
,实现贝叶斯优化的主要功能,对于许多其他应用程序来说也足够灵活。详情请参见贝叶斯优化流程.
要解释回归模型,可以使用石灰
,沙普利
,plotPartialDependence
.
回归的学习者 | 使用监督机器学习训练回归模型来预测数据 |
用于训练、比较和改进回归模型的工作流,包括自动、手动和并行训练。
在回归学习器中,自动训练选择的模型,或比较和调整线性回归模型、回归树、支持向量机、高斯过程回归模型、回归树集合和回归神经网络的选项。金宝app
使用图表识别有用的预测因子,手动选择要包含的特征,并在回归学习者中使用PCA转换特征。
比较模型统计数据并可视化结果。
了解特征选择算法,并探索可用于特征选择的功能。
本主题介绍了顺序特征选择,并提供了使用自定义标准和顺序选择特征的示例sequentialfs
函数。
邻域成分分析(NCA)是一种以最大化回归和分类算法预测精度为目标的特征选择的非参数方法。
在NCA中使用自定义鲁棒损失函数执行对异常值鲁棒的特征选择。
利用交互测试算法选择随机森林的分裂预测因子。
解释模型预测石灰
,沙普利
,plotPartialDependence
.
使用两种算法计算机器学习模型的Shapley值:kernelSHAP和kernelSHAP的扩展。
显示和解释线性回归输出统计数据。
拟合线性回归模型并检验结果。
构建并分析一个具有交互作用的线性回归模型,并解释结果。
利用模型属性和对象函数对拟合模型进行评估。
在线性回归中,F-statistic是方差分析(ANOVA)方法的检验统计量,用于检验模型或模型中组件的显著性。的t-statistic用于推断回归系数。
决定系数(r平方)表示响应变量中变化的比例y由自变量解释X在线性回归模型中。
估计的系数方差和协方差捕获回归系数估计的精度。
残差对检测离群很有用y值,并根据回归模型中的误差项检查线性回归假设。
Durbin-Watson检验评估时间序列数据残差之间是否存在自相关。
库克距离是有用的识别异常值在X值(预测变量的观察结果)。
帽子矩阵提供了一种衡量杠杆的方法。
删除-1协方差变化(CovRatio
)识别在回归拟合中有影响的观测值。