滤波平滑数据

关于数据平滑和滤波

你可以使用光滑的平滑响应数据的功能。您可以使用可选的移动平均、Savitzky-Golay滤波器,以及具有或不具有权重和稳健性的局部回归(洛斯黄土rlowess.rloess).

移动平均过滤

移动平均滤波器通过用跨度内定义的相邻数据点的平均值替换每个数据点来平滑数据。该过程相当于低通滤波,差异方程给出的平滑响应

y 年代 1 2 N + 1 y + N + y + N 1 + ... + y N

在哪里y<年代ub>年代)的平滑值数据点,N是两侧的相邻数据点数y<年代ub>年代), 2N+1是张成的空间。

曲线拟合工具箱™使用的移动平均平滑方法跟随这些规则:

  • 张成的空间一定是奇数。

  • 要平滑的数据点必须位于跨度的中心。

  • 对于不能容纳任意一边指定数量的邻居的数据点,会对跨度进行调整。

  • 由于无法定义跨度,终点不平滑。

请注意,您可以使用筛选实现差分方程的功能,例如上面所示的差分方程。但是,由于对待终点的方式,工具箱移动平均结果将与返回的结果不同筛选.参考差分方程与滤波(MATLAB)获取更多信息。

例如,假设使用具有5的移动平均滤波器的移动平均过滤器平滑数据。使用上述规则,前四个元素y年代是由

y<年代ub>年代y(1) y<年代ub>年代(2)=(y(1)+ y(2)+ y(3))/ 3 y<年代ub>年代(3) = (y(1)+y(2)+y(3)+y(4)+y(5) / 5y<年代ub>年代(4) = (y y (2) + (3) + (4) + y (5) + y (6)) / 5

请注意,y年代(1)y年代(2),……,y年代(结束)参考数据排序后的顺序,不一定是原始顺序。

一个生成的数据集的前四个数据点的平滑值和跨度如下所示。

情节(一)表示不平滑第一个数据点,因为无法构造跨度。情节(b)指示使用三个跨度平滑第二个数据点。情节(c)(d)指示使用5个跨度来计算平滑值。

Savitzky-golay过滤

Savitzky-Golay滤波可以被认为是广义移动平均线。你通过使用一个给定次数的多项式执行一个非加权线性最小二乘拟合来导出滤波器系数。因此,Savitzky-Golay滤波器也被称为数字平滑多项式滤波器或最小二乘平滑滤波器。请注意,高次多项式可以实现高水平的平滑而不衰减数据特征。

Savitzky-Golay滤波方法常用于频率数据或光谱(峰)数据。对于频率数据,该方法能有效地保留信号的高频成分。对于光谱数据,该方法能有效地保留谱峰的高阶矩,如谱线宽度。相比之下,移动平均滤波器倾向于滤除信号的大部分高频成分,只能保留峰值的较低时刻,如质心。然而,Savitzky-Golay滤波在剔除噪声方面不如移动平均滤波成功。

曲线拟合工具箱软件使用的Savitzky-Golay平滑方法遵循以下规则:

  • 张成的空间一定是奇数。

  • 多项式程度必须小于跨度。

  • 数据点不需要有均匀的间隔。

    一般情况下,Savitzky-Golay滤波要求预测数据间隔均匀。然而,曲线拟合工具箱算法支持非均匀间距。金宝app因此,您不需要执行额外的筛选步骤来创建具有均匀间隔的数据。

下面显示的曲线显示生成的高斯数据和使用Savitzky-Golay方法平滑的几次尝试。数据非常嘈杂,峰值宽度从宽到窄时变化。跨度等于数据点数的5%。

情节(一)显示噪声数据。为了更容易比较平滑的结果,绘图(b)(c)显示数据而不添加噪音。

情节(b)给出了二次多项式平滑的结果。注意,对于狭窄的峰值,该方法的性能很差。情节(c)给出了四次多项式平滑的结果。一般来说,高次多项式可以更准确地捕获窄峰的高和宽,但在平滑宽峰方面做得很差。

本地回归平滑

洛斯和黄土

“低”和“黄土”的名称来源于术语“局部加权平滑散点图”,因为这两种方法都使用局部加权线性回归来平滑数据。

平滑过程被认为是本地的,因为与移动的平均方法一样,每个平滑值由跨度限定的相邻数据点来确定。该过程是加权,因为为包含在跨度内的数据点定义了回归权重函数。除了回归权重功能外,您还可以使用强大的重量函数,这使得对异常值抵抗的过程。最后,该方法通过回归中使用的模型来区分:Lowess使用线性多项式,而黄土使用二次多项式。

曲线拟合工具箱软件使用的局部回归平滑方法遵循以下规则:

  • 跨度可以是偶数或奇数。

  • 您可以将跨度指定为数据集中数据点总数的百分比。例如,0.1的跨度使用10%的数据点。

局部回归法

对于每个数据点,局部回归平滑过程遵循以下步骤:

  1. 计算<年代pan class="emphasis">回归权重对于跨度中的每个数据点。权值由下面所示的三角函数给出。

    w 1 | x x d x | 3. 3.

    x与要平滑的响应值相关联的预测值,x<年代ub>我是最近的邻居x由张成的空间,和dx)为到的横坐标距离x到跨度内最远的预测值值。重量有这些特征:

    • 被平滑的数据点权重最大,对拟合的影响最大。

    • 跨度外的数据点重量为零,对配合没有影响。

  2. 执行加权线性最小二乘回归。对于杠杆,回归使用第一度多项式。对于黄土,回归使用二级多项式。

  3. 在感兴趣的预测值处,通过加权回归得到平滑值。

如果平滑计算涉及到平滑数据点两边相同数量的相邻数据点,则权函数是对称的。但是,如果平滑数据点的相邻点数不对称,则权函数不对称。请注意,不同于移动平均平滑过程,跨度从不改变。例如,当您平滑具有最小预测值的数据点时,权值函数的形状将被截断一半,跨度中最左边的数据点的权值最大,所有邻近的点都在平滑值的右侧。

一个端点和一个内点的权函数如下所示,用于31个数据点的跨度。

使用5个跨度的低值方法,生成数据集的前四个数据点的平滑值和相关回归如下所示。

注意,随着平滑过程从一个数据点到另一个数据点的进行,跨度并不会改变。然而,依赖于最近邻的数量,回归权函数可能对要平滑的数据点不对称。特别是,情节(一)(b)使用不对称权重功能,而绘图(c)(d)使用对称的权重函数。

对于黄土方法,除了通过二级多项式生成平滑值之外,图表将看起来相同。

强大的本地回归

如果您的数据包含异常值,平滑值可能会失真,而不能反映大量邻近数据点的行为。为了克服这个问题,可以使用不受一小部分异常值影响的鲁棒过程平滑数据。有关离群值的描述,请参阅残留分析

曲线拟合工具箱软件提供了一个鲁棒版本的低和黄土平滑方法。这些稳健方法包括额外的抗异常值的稳健权值计算。鲁棒平滑过程遵循以下步骤:

  1. 从上一节中描述的平滑过程计算残差。

  2. 计算<年代pan class="emphasis">健壮的权重对于跨度中的每个数据点。权值由平方函数给出,

    w 1 r / 6 一个 D 2 2 | r | < 6 一个 D 0 | r | 6 一个 D

    在哪里r<年代ub>我是残余的由回归平滑过程产生的数据点,和疯了是残差绝对值的中位数,

    一个 D 中位数 | r |

    中位绝对偏差是一种衡量剩余群的衡量标准。如果r<年代ub>我和6比起来小吗疯了,那么强大的重量接近1.如果r<年代ub>我大于6疯了,强大的权重为0,并且相关的数据点被排除在平滑的计算之外。

  3. 使用稳健的权重再次平滑数据。最后的平滑值使用局部回归权值和稳健权值计算。

  4. 重复前两个步骤总共五个迭代。

低于杠杆过程的平滑结果在下面比较到包含单个异常值的生成数据集的强大杠杆过程的结果。两个过程的跨度是11个数据点。

情节(一)表明,异常值会影响几个最近邻居的平滑值。情节(b)建议,异常值的残余量大于六个中位绝对偏差。因此,对于该数据点,鲁棒权重为零。情节(c)结果表明,离群点附近的平滑值反映了数据的大部分。

示例:平滑数据

载入数据count.dat

负载count.dat

24-by-3数组包含三个路口每天每小时的交通计数。

首先,使用一个5小时跨度的移动平均过滤器来一次平滑所有数据(通过线性索引):

c =平滑(计数(:));C1 =重塑(C,24,3);

绘制原始数据和平滑数据:

次要情节(1,1)情节(统计,“:”);抓住情节(C1,“-”);title('平滑C1(所有数据)')

第二,使用相同的过滤器分别平滑数据的每一列:

C2 =零(24,3);对于i = 1:3,C2(:,i)=平滑(计数(:,i));结尾

再次,绘制原始数据和平滑数据:

次要情节(3,1,2)情节(统计,“:”);抓住情节(C2,“-”);标题('平滑C2(每列)')

绘制两个平滑数据集之间的差异:

subplot(3,1,3) plot(C2 - C1,'o-') title('差C2 - C1')

注意3列平滑的附加末端效果。

示例:使用黄土和强大的黄土平滑数据

使用异常值创建嘈杂数据:

x = 15 *兰德(150 1);Y = sinx + 0.5*(rand(size(x))-0.5));y(装天花板(长度(x) *兰特(2,1)))= 3;

使用黄土rloess跨度为10%的方法:

YY1 =光滑(x,y,0.1,'黄色');YY2 =光滑(X,Y,0.1,'Rloess');

绘制原始数据和平滑数据。

[xx,印第安纳州]= (x)进行排序;次要情节(2,1,1)情节(xx, y(印第安纳州),b。,xx, yy1(印第安纳州),r -)组(gca、“YLim”,[-1.5 - 3.5])传说(“原始数据”,使用“黄土”平滑数据,…“位置”、“西北”)次要情节(2,1,2)情节(xx, y(印第安纳州),b。,xx, yy2(印第安纳州),r -)组(gca、“YLim”,[-1.5 - 3.5])传说(“原始数据”,“使用”rloess平滑数据”,…“位置”、“西北”)

请注意,异常值对鲁棒方法的影响较小。

另请参阅

相关话题