分布的情节通过将数据的经验分布与指定分布的理论值进行比较,直观地评估样本数据的分布。除了更正式的假设检验之外,还可以使用分布图来确定样本数据是否来自特定的分布。要了解假设检验,请看假设检验。
统计和机器学习工具箱™提供了几个分布图选项:
使用正态概率图来评估数据是否来自正态分布。许多统计程序都假定底层分布是正态分布。正态概率图可以为证明这个假设提供一些保证,或者为这个假设的问题提供一个警告。正态性分析通常结合正态概率图和正态性假设检验。
本例从均值为10、标准差为1的正态分布中生成25个随机数的数据样本,并创建数据的正态概率图。
RNG('默认');%的再现性x = normrnd(10 1[25日1]);normplot (x)
加号表示经验概率与数据中每个点的数据值之间的关系。实线连接数据中的第25和第75百分位,虚线将其延伸到数据的末端。的y-轴值是概率从0到1,但尺度不是线性的。符号之间的距离y轴正态分布的位数之间的距离相匹配。该位数并拢附近的中位数(第50百分位),并伸出对称,当您移动从中间走。
在正态概率图中,如果所有的数据点都落在直线附近,那么正态性的假设是合理的。否则,正常的假设是不合理的。例如,下面从均值为10的指数分布中生成100个随机数的数据样本,并创建数据的正态概率图。
x = exprnd (10100 1);normplot (x)
这幅图是根本分布不正常的有力证据。
概率图,就像正态概率图一样,只是一个经验的cdf图缩放到一个特定的分布。的y-轴值是概率从0到1,但尺度不是线性的。刻度之间的距离就是分布的分位数之间的距离。在图中,在数据的第一个四分位数和第三个四分位数之间画了一条线。如果数据落在直线附近,选择分布作为数据的模型是合理的。分布分析通常将概率图与特定分布的假设检验结合起来。
生成样本数据并创建概率图。
生成样本数据。样例x1
包含来自带有尺度参数的威布尔分布的500个随机数一个= 3
和形状参数B = 3
。样例x2
包含500个随机数字从一个瑞利分布与规模参数B = 3
。
RNG('默认');%的再现性x1 = wblrnd(3 3[1] 500年);x2 = raylrnd(3[1] 500年);
创建一个概率图来评估数据是否存在x1
和x2
来自威布尔分布。
图probplot (“威布尔”,(x1, x2)))传说(“威布尔样本”,“瑞利样本”,'位置',“最佳”)
概率图显示了x1
来自威布尔分布,而数据在x2
没有。
或者,您可以使用wblplot
创建一个威布尔概率图。
使用分位数-分位数(q-q)图来确定两个样本是否来自同一个分布家族。Q-Q图是从每个样本计算出的分位数的散点图,在第一和第三个四分位数之间画一条线。如果数据落在这条线附近,我们有理由假设这两个样本来自同一个分布。该方法对于两种分布的位置和规模的变化具有鲁棒性。
创建一个分位数-分位数图qqplot
函数。
下面的示例从具有不同参数值的泊松分布生成两个包含随机数的数据样本,并创建分位数-分位数图。中的数据x
是否来自均值为10的泊松分布,且数据在y
是均值为5的泊松分布。
x = poissrnd (10 [50, 1]);y = poissrnd(5[1] 100年);qqplot (x, y)
虽然参数和样本大小不同,但近似的线性关系表明这两个样本可能来自同一个分布族。与正态概率图一样,假设检验可以为这种假设提供额外的理由。然而,对于依赖于来自同一分布的两个样本的统计程序,线性分位数-分位数图通常就足够了。
下面的示例显示了当底层分布不同时会发生什么。在这里,x
包含由均值为5、标准差为1的正态分布产生的100个随机数y
包含由威布尔分布生成的100个随机数,其尺度参数为2,形状参数为0.5。
x = normrnd(5 1[1] 100年);y = wblrnd(2 0.5[1] 100年);qqplot (x, y)
从图中可以看出,这些样本明显不是来自同一个分布家族。
经验累积分布函数(cdf)图显示了小于或等于每个的数据的比例x值,作为的函数x。比例尺y设在是线性的;特别地,它没有缩放到任何特定的分布。经验cdf图用于比较特定分布的数据cdfs和cdfs。
要创建经验cdf图,请使用cdfplot
函数或ecdf
函数。
绘制样本数据集的经验cdf,并将其与样本数据集底层分布的理论cdf进行比较。在实践中,理论cdf可以是未知的。
从极值分布中生成一个位置参数为0,尺度参数为3的随机样本数据集。
RNG('默认')%的再现性y = evrnd (0, 3100, (1);
将样本数据集的经验cdf和理论cdf绘制在同一图上。
cdfplot (y)在x = linspace (min (y), max (y));情节(x, evcdf (x 0 3)传说(“经验提供”,“理论提供”,'位置',“最佳”)举行从
图中显示了经验cdf与理论cdf的相似性。
或者,也可以使用ecdf
函数。的ecdf
函数还绘制了使用Greenwood公式估计的95%置信区间。有关详细信息,请参见格林伍德的公式。
ecdf (y,“界限”,“上”)举行在情节(x, evcdf (x 0 3)网格在标题(“经验提供”)传说(“经验提供”,“低信心绑定”,“上置信限”,“理论提供”,'位置',“最佳”)举行从
cdfplot
|ecdf
|normplot
|probplot
|qqplot
|wblplot