主要内容

干净的异常数据

在活动编辑器中查找、填充或删除异常值

描述

干净的异常数据任务可让您交互方式处理数据中的异常值。任务会自动生成MATLAB®实时脚本的代码。

使用此任务,您可以:

  • 从工作区变量中的数据中查找、填充或删除异常值。

  • 自定义查找和填充异常值的方法。

  • 自动可视化离群数据和清理数据。

打开任务

添加干净的异常数据task to a live script in MATLAB Editor:

  • 住编辑器选项卡上,选择清理离群数据

  • 在脚本中的代码块中,键入相关关键字,例如离群值要么清洁。选择干净的异常数据从建议的命令补全。

参数

使用下列选项之一指定填充离群值的方法。

填补方法 描述
线性插值 邻近,非更名值的线性插值。
恒定值 指定的标量值,即0默认情况下。
中心价值 由find方法确定的中心值。
剪切到阈值 小于find方法确定的下限的元素填充下限值。对于大于find方法确定的上限阈值的元素,使用上限阈值进行填充。
以前的价值 以前的非活动价值。
下一个值 接下来nonoutlier价值。
最近的价值 最近的nonoutlier价值。
样条插值 分段三次样条插值。
保形三次插值 保持形状的分段三次样条插值。
改进的Akima三次插值 修改了Akima立方Hermite插值。

使用以下选项之一指定用于查找异常值的检测方法。

方法 描述
中位数 离群值定义为元素超过了缩放中位数绝对偏差(MAD)的指定阈值,即3.默认情况下。对输入数据一个的定义是C *中位数(ABS(ABS(A-A)))),在那里c = 1 /(√(2)* erfcinv (3/2))
意思 离群值被定义为元素超过规定的离均值标准差的阈值,即3.默认情况下。这个方法更快,但不如中位数
四分位数 异常值定义为大于四分位数范围的指定阈值的元素,该阈值高于上四分位数(75%)或低于下四分位数(25%),即1.5默认情况下。当输入数据不是正态分布时,这种方法是有用的。
格拉布 异常值使用Grubbs检验来检测,该检验基于假设检验,每次迭代都会删除一个异常值。该方法假设输入数据是正态分布的。
广义极限学生偏差(GESD) 使用对异常值的广义极值研究偏差检验来检测异常值。这种迭代方法与之相似格拉布,但是当多个异常值互相屏蔽时,可以更好地执行更好。
移动平均 离群值定义为从局部中值到指定窗口的局部缩放MAD的指定阈值以上的元素。默认阈值为3.
移动的意思 离群值定义为在一个指定的窗口内,从局部均值到局部标准偏差超过指定阈值的元素。默认阈值为3.
百分位数 离群值定义为在由上限和下限指定的百分位数范围之外的元素。默认下限阈值为10默认的高百分位数是90。有效的阈值间隔为[0,100]。

当检测离群值的方法为时,指定窗口类型和大小移动平均要么移动的意思

窗口 描述
为中心的 指定的窗口长度符合当前点。
不对称 指定窗口包含当前点之前的元素数量和当前点后的元素数。

窗尺寸相对于窗口尺寸变量的单位。

介绍了R2019b