主要内容

干净的异常数据

在实时编辑器中查找、填充或删除异常值

描述

干净的异常数据任务可让您交互方式处理数据中的异常值。任务会自动生成MATLAB®为您的活动脚本编写代码。

使用这个任务,你可以:

  • 从工作区变量中的数据中查找、填充或删除离群值。

  • 自定义查找和填充异常值的方法。

  • 自动可视化离群数据和清理数据。

打开任务

添加干净的异常数据在MATLAB编辑器中的一个实时脚本任务:

  • 住编辑器选项卡上,选择任务>清理离群数据

  • 在脚本中的代码块中,键入相关关键字,例如离群值或者干净的.选择干净的异常数据从建议的命令完成。

参数

此任务对类型数据进行操作或者包含在向量或表变量中。在为输入数据提供表或时间表时,请指定所有支持金宝app的变量清除所有带有类型的变量或者,或选择或者通过选择要清除的变量指定的变量然后分别选择变量。

使用下列选项之一指定填充离群值的方法。

填补方法 描述
线性插值 邻近,非更名值的线性插值。
恒定值 指定的标量值,即0默认情况下。
中心价值 由find方法确定的中心值。
剪切到阈值 为小于find方法确定的下限阈值的元素填充下限阈值。对于大于find方法确定的上限阈值的元素,使用上限阈值填充。
以前的价值 以前的非活动价值。
下一个值 接下来nonoutlier价值。
最近的价值 最近的nonoutlier价值。
样条插值 分段三次样条插值。
保形三次插值(PCHIP) 保持形状的分段三次样条插值。
修正的Akima三次插值 修改了Akima立方Hermite插值。

使用以下选项之一指定用于查找异常值的检测方法。

方法 描述
移动平均 离群值定义为大于指定窗口上的局部中值MAD的指定阈值的元素。默认阈值为3.
中位数 离群值定义为大于指定阈值(按比例调整的中位数绝对偏差(MAD))的元素,即3.默认情况下。对输入数据一个,缩放的MAD定义为C *中位数(ABS(ABS(A-A)))),在那里c = 1 /(√(2)* erfcinv (3/2))
意思 离群值被定义为元素超过了离均值的标准偏差的指定阈值,即3.默认情况下。该方法速度快,但鲁棒性差中位数
四分位数 异常值定义为高于上四分位数(75%)或低于下四分位数(25%)的四分位数区间的指定阈值的元素1.5默认情况下。当输入数据不是正态分布时,这个方法很有用。
格拉布 使用Grubbs检验来检测异常值,它基于假设检验在每次迭代中移除一个异常值。这种方法假设输入数据是正态分布的。
广义极限学生偏差(GESD) 使用异常值的广义极值学习偏差检验来检测异常值。这种迭代法类似于格拉布,但是当多个异常值互相屏蔽时,可以更好地执行更好。
移动的意思 离群值被定义为在指定的窗口上超出指定的局部标准差阈值的元素。默认阈值为3.
百分位数 异常值定义为超出上下限阈值指定的百分比范围的元素。默认的低百分比阈值为10默认的高百分位数是90.有效阈值在间隔[0,100]内。

当检测异常值的方法为时,指定窗口类型和大小移动平均或者移动的意思

窗口 描述
为中心的 指定的窗口长度符合当前点。
不对称 指定窗口包含当前点之前的元素数量和当前点后的元素数。

窗尺寸相对于窗口尺寸变量的单位。

介绍了R2019b