统计和机器学习工具

统计和机器学习工具

分析和模型数据使用统计和机器学习

开始:

探索性数据分析

探索数据通过统计策划与交互式图形和描述性统计。识别模式和特征聚类。

可视化

使用概率图,直观地探索数据盒阴谋,直方图,quantile-quantile情节,和先进的地块进行多变量分析,如系统树图,biplots,安德鲁斯的情节。

使用多维散点图探索变量之间的关系。

描述性统计

理解和描述潜在的大型数据集的快速使用一些高度相关的数字。

使用分组探索数据均值和方差。

聚类分析

发现模式通过使用k - means分组数据、k-medoids DBSCAN,层次和谱聚类和高斯混合隐马尔可夫模型。

DBSCAN应用到两个同心组。

特征提取与降维

将原始数据转换成特征最适合机器学习。反复探索和创建新功能,并选择的优化性能。

特征提取

从数据中提取特征使用无监督学习技术,如稀疏的过滤和重建ICA。您还可以使用专门的技术从图像中提取特征,信号,文本和数字数据。从表格数据自动生成新特性分类回归

从信号中提取特征所提供的移动设备。

特征选择

自动识别的特征子集提供最好的预测能力的建模数据。特征选择方法包括逐步回归、序列特征选择,正规化,合奏的方法。

NCA帮助选择保留大部分的功能模型的准确性。

功能转换和降维

减少维度通过将现有的(non-categorical)特性转换为新的预测变量少,可以删除描述性特性。功能转换方法包括主成分分析、因子分析和非负矩阵因子分解。

主成分分析可以将高维向量投影到一个低维正交坐标系与大多数保存的信息。

机器学习

使用交互式应用程序构建预测分类和回归模型或自动机器学习(AutoML)。自动选择功能,确定最佳模型,优化hyperparameters。通过应用解释模型行为可解释性算法。

训练、验证和优化预测模型

比较不同的机器学习算法,包括浅神经网络,选择功能、调整hyperparameters和评估许多流行的分类和回归算法的性能。构建和自动优化预测模型和交互式应用程序,和改进模型流数据。减少标签数据的必要性应用semi-supervised学习

模型的可解释性

提高黑盒用固有的可翻译的机器学习模型的可解释性等生殖添加剂模型(GAM),或通过建立可解释性方法包括部分依赖情节,个人条件期望(ICE),当地可判断的model-agnostic解释(石灰),和沙普利值。

石灰构建复杂模型的简单近似在当地区域。

自动机器学习(AutoML)

改善模型性能通过自动调优hyperparameters,生成和选择特性和模型,并与成本矩阵寻址数据集失衡。

使用贝叶斯优化优化hyperparameters有效。

回归和方差分析

模型连续响应变量作为函数的一个或多个预测,使用线性和非线性回归,mixed-effects模型、广义线性模型和非参数回归。使用方差分析差异分配给不同的来源。

线性和非线性回归

与多个预测模型复杂系统的行为或响应变量选择从许多线性和非线性回归算法。适合多级或分层,线性、非线性和广义线性mixed-effects与嵌套和/或交叉随机效应模型进行纵向或面板分析,反复的措施,和增长模型。

合适的回归模型与回归学习者应用程序交互。

非参数回归

生成一个精确的适合不指定一个模型,描述了使用svm预测和响应之间的关系,随机森林,浅神经网络,高斯过程和高斯内核。

使用分位数回归识别异常值。

方差分析(方差分析)

分配样本方差不同的来源和确定变异出现在或在不同的人群。使用单向、双向、多路、多变量和非参数方差分析,以及协方差分析(ANOCOVA)和重复测量方差分析(RANOVA)。

使用多路方差分析测试组。

概率分布和假设测试

适合数据分布。分析样本的差异是否显著的或与随机数据变化一致。生成随机数从不同的分布。

概率分布

适合连续和离散分布,使用统计图拟合优度评价,计算概率密度函数和累积分布函数超过40个不同的分布

适合分布交互地使用钳工分布应用程序。

随机数生成

生成伪随机和拟随机流从安装或构造概率分布。

交互地生成随机数。

假设检验

执行t分布测试(卡方,Jarque-Bera、Lilliefors Kolmogorov-Smirnov),和非参数测试,成对,或独立样本。测试自动校正和随机性,并比较分布(两个示例Kolmogorov-Smirnov)。

拒绝地区片面的学习任务。

工业统计数据

统计分析效果和数据趋势。应用工业统计技术如一个定制的实验设计和统计过程控制。

实验设计(DOE)

定义、分析和可视化定制的实验设计(DOE)。创建和测试实际的计划如何在串联生成操作数据输入信息对数据输出的影响。

Box-Behnken设计应用于生成高阶响应面。

统计过程控制(SPC)

监测和改进产品或流程的评估过程的可变性。下载188bet金宝搏创建控制图,估计过程能力,并执行量具重复性和再现性研究。

使用控制图监控生产过程。

可靠性和生存分析

可视化和分析失效数据和未经审查通过执行Cox比例风险回归和分布。计算经验风险,幸存者,和累积分布函数,以及核密度估计。

故障数据为例,“审查”的价值观。

大数据、并行化和云计算

数据统计和机器学习技术应用于内存不足。加快统计计算和机器学习模型训练与并行集群和云实例。

加快计算与并行计算工具箱或MATLAB并行服务器™。

云计算和分布式计算

使用云实例来加快统计和机器学习计算。执行完整的机器学习工作流在MATLAB在线™。

在亚马逊或Azure云实例执行计算。

部署、代码生成和仿真软件的集成金宝app

部署统计和机器学习嵌入式系统,加速计算密集型计算使用C代码,与企业系统集成和仿真软件模型。金宝app

代码生成

生成便携和可读的C或c++代码分类和回归算法的推理,描述性统计,概率分布用MATLAB编码器™。生成C / c++代码与预测精度降低使用定点设计师™,没有再生和更新部署模型的参数预测代码。

两条路径部署:生成C代码或MATLAB编译代码。

与仿真软件的集成金宝app

机器学习模型与仿真软件模型部署到集成嵌入式硬件或系统仿真,验证和验证。金宝app

与应用程序和企业系统集成

作为独立部署统计和机器学习模型,MapReduce,或火花™应用程序;作为web应用程序;或者是微软®Excel®使用MATLAB编译器插件™。构建C / c++共享库,微软。net程序集,Java®Python类,®使用MATLAB编译器SDK™包。

使用MATLAB编译器集成一个空气质量分类模型。

代码生成和更新工作流模型

机器学习斜坡弯道

交互式介绍实用机器学习分类问题的方法。