主要内容

非参数和经验概率分布

概述

在某些情况下,您无法使用参数分布准确描述数据样本。相反,必须从数据中估计概率密度函数(pdf)或累积分布函数(cdf)。统计和机器学习工具箱™ 提供多个选项,用于根据样本数据估计pdf或cdf。

核分布

A.核分布产生非参数概率密度估计,其适应数据,而不是选择具有特定参数形式的密度并估计参数。该分布由内核浓度估计器,一个平滑功能,其确定用于生成PDF的曲线的形状,以及控制所得密度曲线的平滑度的带宽值。

类似于直方图,内核分发构建了使用示例数据表示概率分布的功能。但与直方图不同,该直方图将值放入离散箱中,内核分布总和为每个数据值的组件平滑功能和产生平滑,连续概率曲线。以下绘图显示了从相同的样本数据产生的直方图和内核分布的视觉比较。

直方图通过建立仓位并将每个数据值放入适当的仓位来表示概率分布。由于仓位计数方法,直方图产生离散概率密度函数。这可能不适用于某些应用,例如从拟合分布生成随机数。

或者,核分布通过为每个数据值创建单独的概率密度曲线,然后对平滑曲线求和来构建概率密度函数(pdf)。这种方法为数据集创建一个平滑、连续的概率密度函数。

有关内核发行版的更多一般信息,请参阅核分布.有关如何使用内核分发的信息,请参阅使用k物体ksdity.

经验累积分布函数

经验累积分布函数(ecdf.)通过为样本中的每个观测值分配相等的概率来估计随机变量的cdf。由于这种方法,ecdf是一个离散累积分布函数,它在ecdf和样本数据分布之间创建精确匹配。

下图显示了从标准正态分布生成的20个随机数的ecdf与标准正态分布的理论cdf的视觉比较。圆圈表示在每个样本数据点计算的ecdf值。穿过每个圆的虚线直观地表示ecdf,尽管ecdf不是一个连续函数。实线显示了标准正态分布的理论cdf,从中可以得出样本数据中的随机数。

ECDF的形状类似于理论CDF,尽管它不是完全匹配。相反,ECDF与样本数据完全匹配。ECDF是一个离散功能,并且不顺畅,特别是在数据可能稀疏的尾部。你可以平滑分发帕累托尾,使用帕累托病作用

有关更多信息和其他语法选项,请参见ecdf.。若要基于从样本数据计算的cdf值构造连续函数,请参阅分段线性分布.

分段线性分布

A.分段线性分布通过计算每个单独的点处的CDF值,然后线性地连接这些值以形成连续曲线来估计样本数据的整体CDF。

下图显示了基于医院患者体重测量样本的分段线性分布的cdf。圆圈表示每个单独的数据点(体重测量)。穿过每个数据点的黑线表示样本数据的分段线性分布cdf。

分段线性分布线性地连接在每个样本数据点处计算的CDF值以形成连续曲线。相比之下,一个经验累积分布函数使用ecdf.功能生成一个离散的CDF。例如,从ECDF生成的随机数只能包括x原始示例数据中包含的值。从分段线性分配生成的随机数可以包括任何x样本数据的上下限之间的值。

由于分段线性分布cdf是根据样本数据中包含的值构建的,因此生成的曲线通常不平滑,尤其是在数据可能稀疏的尾部。可以使用帕累托尾,使用帕累托病作用

有关如何使用分段线性分配的信息,请参阅使用分离isearineardistribution.物体。

帕累托尾巴

帕累托尾巴使用分段方法来通过平滑分布的尾部来改善非参数CDF的拟合。你可以适应一个核分布,经验CDF.,或用户定义的估计器,然后拟合中间数据值广义帕累托分布当样本数据在尾部稀疏时,这种技术特别有用。

下图显示了包含20个随机数的数据样本的经验cdf(ecdf)。实线表示ecdf,虚线表示经验cdf,帕累托尾与上下10%的数据相匹配。圆圈表示上下10%的数据的边界。

将帕累托尾部置于样本数据的较低和较高百分之上,使CDF在尾部下滑,其中数据稀疏。有关使用帕累托尾巴的更多信息,请参阅帕累托病.

三角分布

A.三角分布当有限的示例数据可用时提供概率分布的简单表示。该连续分布通过下限,峰值位置和上限进行参数化。这些点是线性连接的,以估计样本数据的PDF。您可以使用数据的平均值,中位数或模式作为峰值位置。

以下绘图显示了从0到5的10个整数的随机样本的三角分布PDF。下限是样本数据中最小的整数,上限是最大的整数。该图的峰值在样本数据中处于模式或最常见的值。

仿真和项目管理等业务应用有时使用三角分布在存在有限的示例数据时创建模型。有关更多信息,请参阅三角分布.

另见

||

相关话题