主要内容

非参数和经验概率分布

概述

在某些情况下,您无法使用参数准确地描述一个数据样本分布。相反,概率密度函数(pdf)或累积分布函数(cdf)必须估计的数据。统计和机器学习工具箱™提供几个选项估计样本数据的pdf或提供。

内核分配

一个内核分配产生一个非参数概率密度估计适应数据本身,而不是选择一个密度与特定参数形式和参数估计。这个分布由核密度估计量,定义一个平滑函数,确定曲线的形状用于生成pdf,和带宽值控制所产生的密度曲线的平滑度。

类似于一个直方图,内核分布建立一个函数来表示使用示例数据的概率分布。但与直方图,使值离散的箱子,一个内核分配金额组件平滑函数为每个数据值来产生一个光滑、连续的概率曲线。下面的图显示了一个视觉比较直方图和内核分配产生相同的示例数据。

直方图的比较和内核分布

直方图表示的概率分布建立垃圾箱和适当的本中的每个数据值。因为这个本计算方法,直方图产生离散概率密度函数。这可能是不适合某些应用程序,如从安装分布生成随机数。

另外,内核构建分布概率密度函数(pdf)通过创建一个为每个数据值概率密度曲线,然后求和光滑的曲线。这种方法创建一个平滑,连续概率密度函数的数据集。

关于内核发行版的更一般的信息,请参阅内核分配。有关如何使用一个内核的信息分布,明白了使用KernelDistribution对象ksdensity

经验累积分布函数

一个经验累积分布函数(ecdf)估计,提供一个随机变量的概率分配相等观察样本。由于这种方法,ecdf离散累积分布函数,创建一个精确匹配ecdf和样本数据的分布。

下面的图显示了一个视觉比较的ecdf 20从标准正态分布随机数生成,和的理论提供一个标准的正态分布。圆圈表示的值ecdf计算每个样本数据点。视觉上的虚线,经过每个圆表示ecdf,尽管ecdf不是一个连续函数。实线显示的理论提供的标准正态分布的随机数样本数据。

对比20国ecdf从标准正态分布随机数生成,和的理论提供一个标准的正态分布

ecdf形状的相似理论cdf,尽管它不是一个精确匹配。相反,ecdf样本数据的精确匹配。ecdf是一个离散函数,不是光滑的,尤其是在反面,数据可能是稀疏的。你可以顺利的分布帕累托的尾巴,使用paretotails函数。

和额外的语法选项的更多信息,参见ecdf。根据提供值来构造一个连续函数计算从样本数据,看看分段线性分布

分段线性分布

一个分段线性分布样本数据估计总体运作通过计算提供的值在每个单独的点,然后线性形成一条连续的曲线连接这些值。

如下图显示了一个分段线性分布的提供基于样本医院病人的体重测量。圆圈表示每个数据点(体重测量)。通过每个数据点代表的黑线的分段线性分布提供示例数据。

提供一个分段线性分布

分段线性分布线性连接提供值计算每个样本数据点形成一个连续的曲线。相比之下,一个经验累积分布函数构造使用ecdf函数产生一个离散cdf。例如,从ecdf只能包括随机数生成x原始样本数据中包含的值。随机数生成的分段线性分布可以包括任何x值的上限与下限之间的示例数据。

因为构造分段线性分布cdf从样本数据中包含的值,由此产生的曲线通常不是光滑的,特别是在数据可能稀疏的尾巴。你可以顺利的分布帕累托的尾巴,使用paretotails函数。

信息如何使用分段线性分布,见使用PiecewiseLinearDistribution对象。

帕累托的尾巴

帕累托尾使用分段方法改善健康的非参数提供平滑的尾分布。你可以适应内核分配,经验提供或一个用户定义的估计中间数据值,然后配合广义帕累托分布曲线的尾巴。这种技术尤其有用,当样本数据稀疏的尾巴。

下面的图显示了数据样本的实证cdf (ecdf)包含20个随机数。实线代表ecdf,虚线代表帕累托反面的经验提供适合上下10%的数据。圆圈表示的边界的上下10%的数据。

经验提供与帕累托尾适合上下10%的数据

拟合帕累托尾巴上下10%的样本数据使得cdf平滑的反面,数据稀疏的地方。与帕累托尾工作的更多信息,见paretotails

三角形分布

一个三角形分布提供了一个简单的概率分布,当有限样本数据是可用的。这个连续分布参数化的下限,峰值位置和上限。这些点是线性连接估计样本数据的pdf。您可以使用的意思是,中位数,或模式数据的峰值位置。

下面的图显示了三角形分布随机样本的pdf 10整数从0到5。下限是最小的整数在样例数据中,上限是最大的整数。这个情节的高峰是在模式中,或最常见的值,在样例数据。

三角分布随机样本的pdf

业务应用程序,如模拟和项目管理时有时使用三角形分布来创建模型有限样本数据存在。有关更多信息,请参见三角形分布

另请参阅

||

相关的话题