文档

分布的情节

分布的情节通过比较数据的经验分布与从指定分布期望的理论值,直观地评估样本数据的分布。除了使用更正式的假设检验外,还可以使用分布图来确定样本数据是否来自指定的分布。要了解假设检验,请参见假设检验

统计和机器学习工具箱™提供了几个分布图选项:

正态概率图

使用正态概率图来评估数据是否来自正态分布。许多统计程序都假定底层分布是正态分布。正态概率图可以提供一些保证来证明这个假设是正确的,或者提供一个关于假设问题的警告。正态性分析通常将正态概率图与正态性的假设检验相结合。

本例从平均值为10、标准差为1的正态分布中生成25个随机数的数据样本,并创建数据的正态概率图。

rng (“默认”);%为了重现性X = normrnd(10,1,[25,1]);normplot (x)

加号表示数据中每个点的经验概率与数据值的关系。实线连接数据中的第25和75百分位数,虚线将其延伸到数据的末端。的y-轴值是从0到1的概率,但尺度不是线性的。标记之间的距离y-轴匹配正态分布的分位数之间的距离。分位数靠近中位数(第50百分位),并在远离中位数时对称地伸展。

在正态概率图中,如果所有数据点都落在直线附近,则正态性假设是合理的。否则,正常的假设是不合理的。例如,下面的代码从平均值为10的指数分布中生成100个随机数的数据样本,并创建数据的正态概率图。

X = expr (10,100,1);normplot (x)

该图有力地证明了潜在的分布是不正常的。

概率情节

概率图,就像正态概率图一样,只是一个经验cdf图,缩放到一个特定的分布。的y-轴值是从0到1的概率,但尺度不是线性的。标记之间的距离是分布的分位数之间的距离。在该图中,在数据的第一和第三个四分位数之间画了一条线。如果数据落在直线附近,则选择分布作为数据的模型是合理的。分布分析通常结合概率图和特定分布的假设检验。

创建威布尔概率图

生成样本数据并创建概率图。

生成样例数据。样例x1包含来自威布尔分布的500个随机数,带有尺度参数A = 3形状参数B = 3。样例x2包含来自瑞利分布的500个随机数,带有尺度参数B = 3

rng (“默认”);%为了重现性X1 = wblrnd(3,3,[500,1]);X2 = raylrnd(3,[500,1]);

创建一个概率图来评估数据是否在x1x2来自威布尔分布。

图probplot (“威布尔”,[x1 x2])传奇(“威布尔样本”“瑞利样本”“位置”“最佳”

概率图显示数据在x1来自威布尔分布,而在x2没有。

或者,您可以使用wblplot生成威布尔概率图。

Quantile-Quantile情节

使用分位数-分位数(q-q)图来确定两个样本是否来自同一分布族。Q-Q图是从每个样本计算的分位数的散点图,在第一和第三个四分位数之间画一条线。如果数据落在直线附近,则可以合理地假设两个样本来自同一分布。该方法对于任意一个分布的位置和规模的变化都具有鲁棒性。

创建分位数-分位数图qqplot函数。

下面的示例生成两个数据样本,其中包含来自具有不同参数值的泊松分布的随机数,并创建一个分位数-分位数图。中的数据x是均值为10的泊松分布,数据在y是均值为5的泊松分布。

X = poissrnd(10,[50,1]);Y = poissrnd(5,[100,1]);qqplot (x, y)

尽管参数和样本量不同,但近似线性关系表明这两个样本可能来自同一分布族。与正态概率图一样,假设检验可以为这种假设提供额外的证明。然而,对于依赖于来自同一分布的两个样本的统计程序,线性分位数-分位数图通常就足够了。

下面的示例显示了当底层发行版不相同时会发生什么。在这里,x包含100个随机数,随机数由均值为5,标准差为1的正态分布生成,而y包含由威布尔分布生成的100个随机数,其尺度参数为2,形状参数为0.5。

X = normrnd(5,1,[100,1]);Y = wblrnd(2,0.5,[100,1]);qqplot (x, y)

这些图表明,这些样本显然不是来自同一分布族。

累积分布图

经验累积分布函数(cdf)图显示小于或等于每一个数据的比例x的函数值x。天平上的刻度y-轴为线性;特别是,它没有按比例缩放到任何特定的分布。经验cdf图用于比较特定分布的数据cdfs与cdfs。

要创建经验cdf图,请使用cdfplot函数或ecdf函数。

比较实证cdf和理论cdf

绘制样本数据集的经验cdf,并将其与样本数据集底层分布的理论cdf进行比较。在实践中,理论上的cdf可能是未知的。

从极值分布中生成一个随机样本数据集,位置参数为0,尺度参数为3。

rng (“默认”%为了重现性Y = evrnd(0,3,100,1);

将样本数据集的经验cdf和理论cdf绘制在同一图上。

cdfplot (y)X = linspace(min(y),max(y));情节(x, evcdf (x 0 3)传说(“经验提供”“理论提供”“位置”“最佳”)举行

该图显示了经验cdf和理论cdf之间的相似性。

或者,您可以使用ecdf函数。的ecdf函数还绘制了使用Greenwood公式估计的95%置信区间。有关详情,请参阅格林伍德的公式

ecdf (y,“界限”“上”)举行情节(x, evcdf (x 0 3)网格标题(“经验提供”)传说(“经验提供”“信心下限”“上限置信度”“理论提供”“位置”“最佳”)举行

另请参阅

|||||

相关的话题