离散度度量
的目的离散度的度量是找出数据值在数轴上的分布情况。这些统计数据的另一个术语是传播度量。
该表给出了函数名称和描述。
极差(最大值和最小值之间的差值)是最简单的价差测量方法。但如果数据中有一个异常值,它将是最小值或最大值。因此,该范围对离群值不是稳健的。
标准差和方差是对正态分布样本最优的流行的传播度量。样本方差是正态参数σ的最小方差无偏估计量(MVUE)2.标准偏差是方差的平方根,具有与数据相同单位的理想属性。也就是说,如果数据以米为单位,那么标准差也以米为单位。方差单位是米2,这就更难解释了。
标准差和方差对离群值都不是鲁棒的。与数据体分离的数据值可以使统计值增加任意大的数值。
的意思是绝对偏差(MAD)对异常值也很敏感。但在糟糕数据的影响下,MAD的变化并不像标准偏差或方差那么大。
的四分位差(IQR)是数据的第75百分位和第25百分位之间的差值。由于只有中间50%的数据影响这一测量,因此它对异常值具有鲁棒性。
比较离散度度量
此示例演示如何计算和比较包含一个离群值的样本数据的离散度度量。
生成包含一个离群值的示例数据。
X = [ones(1,6),100]
x =1×71 1 1 1 1 1 100
计算样本数据的四分位范围、平均绝对偏差、范围和标准偏差。
统计= [iqr(x),mad(x),range(x),std(x)]
统计=1×40 24.2449 99.0000 37.4185
四分位范围(位差
)是样本数据的第75百分位和第25百分位之间的差值,并且对异常值具有鲁棒性。范围(范围
)是数据中最大值和最小值之间的差值,并且受到异常值的强烈影响。
平均绝对偏差(疯了
)和标准差(性病
)对异常值很敏感。然而,平均绝对偏差的敏感性低于标准偏差。