主要内容

干净的异常数据

查找、填补生活编辑或删除离群值

自从R2019b

描述

干净的异常数据任务可以交互式地处理数据中的异常值。任务自动生成MATLAB®您的生活脚本代码。

使用此任务,您可以:

  • 发现,填充,或删除离群值从工作空间变量中的数据。

  • 定制的方法寻找和填充离群值。

  • 可视化例外数据和清理数据。

打开任务

添加干净的异常数据任务一个居住在MATLAB脚本编辑器:

  • 住编辑器选项卡上,选择任务>干净的异常数据

  • 在一个代码块的脚本中,输入相关的关键字,例如离群值清洁。选择干净的异常数据从建议命令完成。

例子

全部展开

从表使用交互式地删除离群值干净的异常数据在编辑器现场任务。

创建一个表使用病人的身高和体重数据从一个示例文件。

负载(“patients.mat”,“高度”,“重量”)T =表(身高、体重);头(T)
身高体重出生71 176 69 163 64 131 67 133 64 119 68 142 64 142 68 180

打开干净的异常数据在编辑器现场任务。干净的病人数据,选择T作为输入数据。然后,计算的高度重量变量选择所有支持金宝app的变量

干净的异常数据任务可以填补或删除离群值数据。删除相对应的表行异常患者身高或体重测量,使用清洗方法字段选择删除离群值。然后,将异常值定义为元素低于第十百分位或超过第90百分位,使用检测方法字段选择百分位数

然后,打扫形象化的身高和体重数据,使用变量显示字段选择所有变量。

看到这个任务生成的代码,扩展任务显示点击小箭头指向下面底部的任务参数区域。

生活任务

图包含2轴对象。轴与标题数量的异常值清理对象1:8 ylabel高度包含5线类型的对象。一个或多个行显示的值只使用这些对象标记代表输入数据,清理数据,异常值,被其他变量,离群值阈值。轴与标题数量的异常值清理对象2:18日ylabel重量包含5线类型的对象。一个或多个行显示的值只使用这些对象标记代表输入数据,清理数据,异常值,被其他变量,离群值阈值。

相关的例子

参数

全部展开

这个任务操作输入数据中包含一个矢量,表,或时间表。的数据类型

输入数据表或时间表,清洁所有的变量和类型中,选择所有支持金宝app的变量。选择哪个变量来清洁,选择指定的变量

指定填充异常值的方法是这些选项之一。

填补方法 描述
线性插值 邻近的线性插值,nonoutlier值
恒定值 指定的标量值,0默认情况下
转换为失踪 转换为默认标准缺失值的定义
中心值 中心值取决于检测方法
夹阈值 低阈值的元素小于低阈值确定的检测方法;元素上阈值大于阈值确定的检测方法
之前的值 以前nonoutlier价值
下一个值 下一个nonoutlier值
最近的价值 最近的nonoutlier价值
样条插值 分段三次样条插值
一种保形立方插值(PCHIP) 一种保形分段三次样条插值
修改Akima立方插值 修改Akima立方埃尔米特插值

为发现异常值指定检测方法为这些选项之一。

方法 描述
移动平均 异常值被定义为元素指定的阈值以上的本地扩展平均绝对偏差(疯狂)从本地值在一个指定的窗口。默认阈值3
中位数 离群值被定义为元素指定的阈值以上的按比例缩小的疯狂的值。默认阈值3。对输入数据一个按比例缩小的疯狂的定义是c *值(abs(中位数(A))),在那里c = 1 / (√(2) * erfcinv (3/2))
的意思是 离群值被定义为元素超过指定阈值的标准差的意思。默认阈值3。这个方法是健壮但低于更快中位数
四分位数 离群值被定义为元素指定的阈值以上的四分位范围上四分位数以上(75%)或低于下四分位数(25%)。默认阈值1.5。这个方法是有用的,当输入数据不是正态分布。
格拉布 检测到异常值的测试,使用Grubbs移除基于假设检验的每个迭代一个局外人。该方法假设输入数据是正态分布。
广义极端studentized偏离(GESD) 检测到异常值使用广义极端studentized偏离检测离群值。这种迭代方法是类似的格拉布但是可以执行更好的多个异常值时互相掩盖。
移动的意思 离群值被定义为元素超过指定阈值的局部标准差从本地的意思是在一个指定的窗口。默认阈值3
百分位数 离群值被定义为元素指定的百分比范围之外的一个上、下阈值。默认的百分位阈值较低10,默认上百分位阈值90年。有效的阈值区间[0,100]。

指定窗口的类型和尺寸检测异常值的方法移动平均移动的意思

窗口 描述
为中心的 指定的窗口长度对当前点为中心
不对称 包含之前的元素数量的指定窗口当前点和当前点之后的元素数量

窗口的大小是相对的变量的单位。

版本历史

介绍了R2019b

全部展开