在实时编辑器中查找、填充或删除异常值
的干净的异常数据任务可让您交互方式处理数据中的异常值。任务会自动生成MATLAB®为您的活动脚本编写代码。
使用这个任务,你可以:
从工作区变量中的数据中查找、填充或删除离群值。
自定义查找和填充异常值的方法。
自动可视化离群数据和清理数据。
添加干净的异常数据在MATLAB编辑器中的一个实时脚本任务:
在住编辑器选项卡上,选择任务>清理离群数据.
在脚本中的代码块中,键入相关关键字,例如离群值
或者干净的
.选择干净的异常数据从建议的命令完成。
输入数据
-有效的输入数据从工作区此任务对类型数据进行操作单
或者双
包含在向量或表变量中。在为输入数据提供表或时间表时,请指定所有支持金宝app的变量清除所有带有类型的变量单
或者双
,或选择单
或者双
通过选择要清除的变量指定的变量然后分别选择变量。
清洗方法
-填充异常值的清洗方法线性插值
(默认)|恒定值
|中心价值
|剪切到阈值
|以前的价值
|下一个值
|最近的价值
|样条插值
|保形三次插值(PCHIP)
|修正的Akima三次插值
|……使用下列选项之一指定填充离群值的方法。
填补方法 | 描述 |
---|---|
线性插值 |
邻近,非更名值的线性插值。 |
恒定值 |
指定的标量值,即0 默认情况下。 |
中心价值 |
由find方法确定的中心值。 |
剪切到阈值 |
为小于find方法确定的下限阈值的元素填充下限阈值。对于大于find方法确定的上限阈值的元素,使用上限阈值填充。 |
以前的价值 |
以前的非活动价值。 |
下一个值 |
接下来nonoutlier价值。 |
最近的价值 |
最近的nonoutlier价值。 |
样条插值 |
分段三次样条插值。 |
保形三次插值(PCHIP) |
保持形状的分段三次样条插值。 |
修正的Akima三次插值 |
修改了Akima立方Hermite插值。 |
检测方法
-异常值检测方法移动平均
(默认)|中位数
|意思
|四分位数
|格拉布
|广义极限学生偏差(GESD)
|移动的意思
|百分位数
|……使用以下选项之一指定用于查找异常值的检测方法。
方法 | 描述 |
---|---|
移动平均 |
离群值定义为大于指定窗口上的局部中值MAD的指定阈值的元素。默认阈值为3. . |
中位数 |
离群值定义为大于指定阈值(按比例调整的中位数绝对偏差(MAD))的元素,即3. 默认情况下。对输入数据一个 ,缩放的MAD定义为C *中位数(ABS(ABS(A-A)))) ,在那里c = 1 /(√(2)* erfcinv (3/2)) . |
意思 |
离群值被定义为元素超过了离均值的标准偏差的指定阈值,即3. 默认情况下。该方法速度快,但鲁棒性差中位数 . |
四分位数 |
异常值定义为高于上四分位数(75%)或低于下四分位数(25%)的四分位数区间的指定阈值的元素1.5 默认情况下。当输入数据不是正态分布时,这个方法很有用。 |
格拉布 |
使用Grubbs检验来检测异常值,它基于假设检验在每次迭代中移除一个异常值。这种方法假设输入数据是正态分布的。 |
广义极限学生偏差(GESD) |
使用异常值的广义极值学习偏差检验来检测异常值。这种迭代法类似于格拉布 ,但是当多个异常值互相屏蔽时,可以更好地执行更好。 |
移动的意思 |
离群值被定义为在指定的窗口上超出指定的局部标准差阈值的元素。默认阈值为3. . |
百分位数 |
异常值定义为超出上下限阈值指定的百分比范围的元素。默认的低百分比阈值为10 默认的高百分位数是90 .有效阈值在间隔[0,100]内。 |
移动窗口
- 移动方法的窗口为中心的
(默认)|不对称
当检测异常值的方法为时,指定窗口类型和大小移动平均
或者移动的意思
.
窗口 | 描述 |
---|---|
为中心的 |
指定的窗口长度符合当前点。 |
不对称 |
指定窗口包含当前点之前的元素数量和当前点后的元素数。 |
窗尺寸相对于窗口尺寸轴变量的单位。