分布的情节
分布的情节通过比较数据的经验分布与从指定分布期望的理论值,直观地评估样本数据的分布。除了使用更正式的假设检验外,还可以使用分布图来确定样本数据是否来自指定的分布。要了解假设检验,请参见假设检验。
统计和机器学习工具箱™提供了几个分布图选项:
正态概率图
使用正态概率图来评估数据是否来自正态分布。许多统计程序都假定底层分布是正态分布。正态概率图可以提供一些保证来证明这个假设是正确的,或者提供一个关于假设问题的警告。正态性分析通常将正态概率图与正态性的假设检验相结合。
本例从平均值为10、标准差为1的正态分布中生成25个随机数的数据样本,并创建数据的正态概率图。
rng (“默认”);%为了重现性X = normrnd(10,1,[25,1]);normplot (x)
加号表示数据中每个点的经验概率与数据值的关系。实线连接数据中的第25和75百分位数,虚线将其延伸到数据的末端。的y-轴值是从0到1的概率,但尺度不是线性的。标记之间的距离y-轴匹配正态分布的分位数之间的距离。分位数靠近中位数(第50百分位),并在远离中位数时对称地伸展。
在正态概率图中,如果所有数据点都落在直线附近,则正态性假设是合理的。否则,正常的假设是不合理的。例如,下面的代码从平均值为10的指数分布中生成100个随机数的数据样本,并创建数据的正态概率图。
X = expr (10,100,1);normplot (x)
该图有力地证明了潜在的分布是不正常的。
概率情节
概率图,就像正态概率图一样,只是一个经验cdf图,缩放到一个特定的分布。的y-轴值是从0到1的概率,但尺度不是线性的。标记之间的距离是分布的分位数之间的距离。在该图中,在数据的第一和第三个四分位数之间画了一条线。如果数据落在直线附近,则选择分布作为数据的模型是合理的。分布分析通常结合概率图和特定分布的假设检验。
创建威布尔概率图
生成样本数据并创建概率图。
生成样例数据。样例x1
包含来自威布尔分布的500个随机数,带有尺度参数A = 3
形状参数B = 3
。样例x2
包含来自瑞利分布的500个随机数,带有尺度参数B = 3
。
rng (“默认”);%为了重现性X1 = wblrnd(3,3,[500,1]);X2 = raylrnd(3,[500,1]);
创建一个概率图来评估数据是否在x1
和x2
来自威布尔分布。
图probplot (“威布尔”,[x1 x2])传奇(“威布尔样本”,“瑞利样本”,“位置”,“最佳”)
概率图显示数据在x1
来自威布尔分布,而在x2
没有。
或者,您可以使用wblplot
生成威布尔概率图。
Quantile-Quantile情节
使用分位数-分位数(q-q)图来确定两个样本是否来自同一分布族。Q-Q图是从每个样本计算的分位数的散点图,在第一和第三个四分位数之间画一条线。如果数据落在直线附近,则可以合理地假设两个样本来自同一分布。该方法对于任意一个分布的位置和规模的变化都具有鲁棒性。
创建分位数-分位数图qqplot
函数。
下面的示例生成两个数据样本,其中包含来自具有不同参数值的泊松分布的随机数,并创建一个分位数-分位数图。中的数据x
是均值为10的泊松分布,数据在y
是均值为5的泊松分布。
X = poissrnd(10,[50,1]);Y = poissrnd(5,[100,1]);qqplot (x, y)
尽管参数和样本量不同,但近似线性关系表明这两个样本可能来自同一分布族。与正态概率图一样,假设检验可以为这种假设提供额外的证明。然而,对于依赖于来自同一分布的两个样本的统计程序,线性分位数-分位数图通常就足够了。
下面的示例显示了当底层发行版不相同时会发生什么。在这里,x
包含100个随机数,随机数由均值为5,标准差为1的正态分布生成,而y
包含由威布尔分布生成的100个随机数,其尺度参数为2,形状参数为0.5。
X = normrnd(5,1,[100,1]);Y = wblrnd(2,0.5,[100,1]);qqplot (x, y)
这些图表明,这些样本显然不是来自同一分布族。
累积分布图
经验累积分布函数(cdf)图显示小于或等于每一个数据的比例x的函数值x。天平上的刻度y-轴为线性;特别是,它没有按比例缩放到任何特定的分布。经验cdf图用于比较特定分布的数据cdfs与cdfs。
要创建经验cdf图,请使用cdfplot
函数或ecdf
函数。
比较实证cdf和理论cdf
绘制样本数据集的经验cdf,并将其与样本数据集底层分布的理论cdf进行比较。在实践中,理论上的cdf可能是未知的。
从极值分布中生成一个随机样本数据集,位置参数为0,尺度参数为3。
rng (“默认”)%为了重现性Y = evrnd(0,3,100,1);
将样本数据集的经验cdf和理论cdf绘制在同一图上。
cdfplot (y)在X = linspace(min(y),max(y));情节(x, evcdf (x 0 3)传说(“经验提供”,“理论提供”,“位置”,“最佳”)举行从
该图显示了经验cdf和理论cdf之间的相似性。
或者,您可以使用ecdf
函数。的ecdf
函数还绘制了使用Greenwood公式估计的95%置信区间。有关详情,请参阅格林伍德的公式。
ecdf (y,“界限”,“上”)举行在情节(x, evcdf (x 0 3)网格在标题(“经验提供”)传说(“经验提供”,“信心下限”,“上限置信度”,“理论提供”,“位置”,“最佳”)举行从
另请参阅
cdfplot
|ecdf
|normplot
|probplot
|qqplot
|wblplot