分布的情节通过将数据的经验分布与特定分布的理论值进行比较,直观地评估样本数据的分布。使用分布图和更正式的假设检验来确定样本数据是否来自特定的分布。要了解假说检验,请看假设检验.
Statistics and Machine Learning Toolbox™提供了几个分布图选项:
使用正态概率图来评估数据是否来自正态分布。许多统计过程都假设一个潜在的分布是正态分布。正态概率图可以为证明这一假设提供一些保证,或者为假设存在的问题提供警告。正态性分析通常结合正态概率图和正态性假设检验。
本例从均值为10、标准差为1的正态分布生成25个随机数的数据样本,并创建数据的正态概率图。
rng (“默认”);%的再现性x = normrnd(10 1[25日1]);normplot (x)
加号表示经验概率与数据中每个点的数据值的关系。实线连接数据中的第25和75个百分点,虚线将其延伸到数据的末尾。的y-axis值是从0到1的概率,但比例不是线性的。标记之间的距离y-轴匹配正态分布的分位数之间的距离。分位数靠近中位数(第50个百分位数),并在远离中位数时对称地展开。
在正态概率图中,如果所有数据点都落在直线附近,则正态假设是合理的。否则,正常的假设是不合理的。例如,下面从平均为10的指数分布中生成100个随机数的数据样本,并创建数据的正态概率图。
x = exprnd (10100 1);normplot (x)
这张图有力地证明了潜在的分布不是正态分布。
概率图,就像正态概率图一样,只是按特定分布缩放的经验cdf图。的y-axis值是从0到1的概率,但比例不是线性的。标记之间的距离是分布的分位数之间的距离。在图中,在数据的第一和第三个四分位数之间画了一条线。如果数据落在这条线附近,选择分布作为数据模型是合理的。分布分析通常将概率图与特定分布的假设检验结合起来。
生成样本数据并创建概率图。
生成样本数据。样例x1
包含500个带有尺度参数的威布尔分布的随机数一个= 3
和形状参数B = 3
.样例x2
包含500个带有尺度参数的瑞利分布的随机数B = 3
.
rng (“默认”);%的再现性x1 = wblrnd(3 3[1] 500年);x2 = raylrnd(3[1] 500年);
创建一个概率图来评估数据是否x1
和x2
来自威布尔分布。
图probplot (“威布尔”, (x1, x2)))传说(“威布尔样本”,“瑞利样本”,“位置”,“最佳”)
概率图显示数据x1
来自威布尔分布,而其中的数据x2
没有。
或者,您可以使用wblplot
来绘制威布尔概率图
使用分位数(q-q)图来确定两个样本是否来自同一分布族。Q-Q图是从每个样本中计算的分位数的散点图,在第一和第三个四分位数之间画一条线。如果数据落在这条线附近,则可以合理地假设这两个样本来自同一分布。该方法对任一分布的位置和规模的变化具有鲁棒性。
方法创建分位数图qqplot
函数。
下面的示例生成两个数据样本,其中包含来自泊松分布的具有不同参数值的随机数,并创建分位数-分位数图。中的数据x
是来自均值为10的泊松分布,而y
是来自均值为5的泊松分布。
x = poissrnd (10 [50, 1]);y = poissrnd(5[1] 100年);qqplot (x, y)
尽管参数和样本大小不同,但近似的线性关系表明两个样本可能来自同一分布族。与正态概率图一样,假设检验可以为这种假设提供额外的理由。然而,对于依赖于来自同一分布的两个样本的统计过程,一个线性分位数-分位数图通常就足够了。
下面的示例展示了底层发行版不相同时会发生什么。在这里,x
包含100个由均值为5,标准差为1的正态分布生成的随机数,而y
包含100个由威布尔分布生成的随机数,其比例参数为2,形状参数为0.5。
x = normrnd(5 1[1] 100年);y = wblrnd(2 0.5[1] 100年);qqplot (x, y)
图中显示,这些样本显然不是来自同一分布科。
一个经验累积分布函数(cdf)图显示了小于或等于每一个的数据所占的比例x价值,作为的函数x.磅秤y设在是线性的;特别的是,它没有被缩放到任何特定的分布。经验cdf图用于比较数据cdfs和特定分布的cdfs。
要创建一个经验的cdf图,使用cdfplot
函数或ecdf
函数。
绘制一个样本数据集的经验cdf,并将其与样本数据集的基本分布的理论cdf进行比较。在实践中,理论上的cdf是未知的。
从位置参数为0,尺度参数为3的极值分布生成随机样本数据集。
rng (“默认”)%的再现性y = evrnd (0, 3100, (1);
在同一图上绘制样本数据集的经验cdf和理论cdf。
cdfplot (y)在x = linspace (min (y), max (y));情节(x, evcdf (x 0 3)传说(“经验提供”,“理论提供”,“位置”,“最佳”)举行从
图中显示了经验cdf和理论cdf之间的相似性。
或者,您可以使用ecdf
函数。的ecdf
函数还绘制了用Greenwood公式估计的95%置信区间。有关详细信息,请参见算法.
ecdf (y,“界限”,“上”)举行在情节(x, evcdf (x 0 3)网格在标题(“经验提供”)传说(“经验提供”,“低信心绑定”,“上信心绑定”,“理论提供”,“位置”,“最佳”)举行从
normplot
|qqplot
|cdfplot
|ecdf
|probplot
|wblplot