统计和机器学习工具箱
使用统计学和机器学习分析和建模数据
统计和机器学习工具箱™ 提供用于描述、分析和建模数据的功能和应用程序。您可以使用描述性统计、可视化和聚类进行探索性数据分析;将概率分布与数据拟合;生成蒙特卡罗模拟的随机数,并执行假设测试。回归和分类算法允许您从数据中得出推论,并使用“分类和回归学习器”应用程序以交互方式或使用AutoML以编程方式构建预测模型。
对于多维数据分析和特征提取,工具箱提供了主成分分析(PCA)、正则化、降维和特征选择方法,使您能够识别具有最佳预测能力的变量。
工具箱提供了监督、半监督和非监督机器学习算法,包括支持向量机(svm),增强决策树,金宝appk-means和其他聚类方法。您可以应用部分依赖图和LIME等可解释性技术,并自动生成用于嵌入式部署的C/ c++代码。许多工具箱算法可以用于太大而无法存储在内存中的数据集。
开始:
聚类分析
通过使用k-means, k-medoids, DBSCAN,层次和光谱聚类,高斯混合和隐马尔可夫模型对数据进行分组,发现模式。
特征选择
自动识别在数据建模中提供最佳预测能力的特征子集。特征选择方法包括逐步回归、序列特征选择、正则化和集成方法。
特征变换和降维
通过将现有的(非分类的)特征转换为新的预测变量来降低维数,在这些预测变量中可以去掉较少的描述性特征。特征变换方法包括主成分分析、因子分析和非负矩阵分解。
训练、验证和调整预测模型
比较各种机器学习算法,包括浅神经网络,选择功能,调整超参数,并评估许多流行分类和回归算法的性能。使用交互式应用程序构建并自动优化预测模型,以及改进模型流数据。减少标签数据的需要应用semi-supervised学习.
模型的可解释性
通过使用固有的可解释模型,如生成可加模型(GAM),或通过应用已建立的可解释方法,包括部分依赖图、个体条件期望(ICE)、局部可解释模型不可知论解释(LIME)和Shapley值,提高黑箱机器学习的可解释性。
自动机器学习
通过自动调优超参数,生成和选择特征和模型,以及用代价矩阵解决数据集不平衡,提高模型性能。
线性和非线性回归
从许多线性和非线性回归算法中选择多个预测器或响应变量对复杂系统的行为进行建模。拟合具有嵌套和/或交叉随机效应的多层次或层次化、线性、非线性和广义线性混合效应模型,以执行纵向或面板分析、重复测量和增长建模。
非参数回归
使用支持向量机、随机森林、浅神经网络、高斯过程和高斯核,无需指定描述预测器和响应之间关系的模型,即可生成精确的拟合。
方差分析
将样本方差分配给不同的来源,并确定变异是否发生在不同的群体内部或群体之间。使用单向、双向、多方向、多元和非参数方差分析,以及协方差分析(ANOCOVA)和重复测量方差分析(RANOVA)。
概率分布
拟合连续和离散分布,使用统计图评估拟合优度,计算概率密度函数和累积分布函数超过40种不同的发行版本.
假设检验
对一个、成对或独立的样本进行t检验、分布检验(卡方、Jarque-Bera、Lilliefors和Kolmogorov-Smirnov)和非参数检验。检验自动校正和随机性,并比较分布(两样本Kolmogorov-Smirnov)。
实验设计(DOE)
定义、分析并可视化定制的实验设计(DOE)。创建并测试如何操作数据输入的实际计划,以生成关于它们对数据输出的影响的信息。
可靠性和生存分析
通过执行Cox比例风险回归和拟合分布来可视化和分析有和没有审查的失效时间数据。计算经验危险,幸存者,和累积分布函数,以及核密度估计。
用高数组分析大数据
使用带有许多分类、回归和聚类算法的高数组和表,在不改变代码的情况下,在不适合内存的数据集上训练模型。
并行计算
通过并行化加速统计计算和模型训练。
云计算和分布式计算
使用云实例加速统计和机器学习计算。在MATLAB Online™中执行完整的机器学习工作流。
代码生成
生成可移植和可读的C或c++代码,用于推断分类和回归算法,描述性统计,和概率分布使用MATLAB Coder™。使用Fixed Point Designer™以降低精度生成C/ c++预测代码,并在不重新生成预测代码的情况下更新已部署模型的参数。
与仿真软件的集成金宝app
将机器学习模型与Simulink模型集成,以便部署到嵌入式硬件或进行系统仿真、金宝app验证和验证。
与应用程序和企业系统集成
部署独立的统计和机器学习模型,MapReduce或Spark™应用程序;作为web应用程序;或者是微软®Excel®使用MATLAB Compiler™的插件。构建C/ c++共享库,Microsoft .NET程序集,Java®Python类,®软件包使用MATLAB Compiler SDK™。