主要内容

非参数和经验概率分布

概述

在某些情况下,不能使用参数分布准确描述数据样本。相反,必须从数据中估计概率密度函数(pdf)或累积分布函数(cdf)。Statistics and Machine Learning Toolbox™提供了几个选项,用于从样本数据估计pdf或cdf。

内核分配

一个内核分配产生非参数概率密度估计,其适应数据,而不是选择具有特定参数形式的密度并估计参数。该分布由内核浓度估计器,一个平滑功能,其确定用于生成PDF的曲线的形状,以及控制所得密度曲线的平滑度的带宽值。

类似于直方图,内核分发构建了使用示例数据表示概率分布的功能。但与直方图不同,该直方图将值放入离散箱中,内核分布总和为每个数据值的组件平滑功能和产生平滑,连续概率曲线。以下绘图显示了从相同的样本数据产生的直方图和内核分布的视觉比较。

直方图通过建立箱子并将每个数据值放入适当的箱子来表示概率分布。由于这种bin计数方法,直方图产生一个离散的概率密度函数。这可能不适用于某些应用程序,例如从拟合的分布生成随机数。

另外,核分布通过为每个数据值创建单独的概率密度曲线来构建概率密度函数(pdf),然后对平滑曲线进行求和。这种方法为数据集创建了一个平滑的、连续的概率密度函数。

有关内核发行版的更多一般信息,请参阅内核分配.有关如何使用内核分发的信息,请参阅使用k对象ksdity.

经验累积分布函数

经验累积分布函数(ecdf.)估计随机变量的CDF,方法是对样本中的每个观测值赋等概率。由于这种方法,ecdf是一个离散的累积分布函数,它在ecdf和样本数据的分布之间创建了一个精确的匹配。

下面的图显示了由标准正态分布生成的20个随机数的ecdf和标准正态分布的理论cdf的视觉比较。圆圈表示在每个样本数据点计算的ecdf值。通过每个圆的虚线直观地表示ecdf,尽管ecdf不是一个连续函数。实线显示了标准正态分布的理论cdf,从样本数据中抽取随机数。

ECDF的形状类似于理论CDF,尽管它不是完全匹配。相反,ECDF与样本数据完全匹配。ECDF是一个离散功能,并且不顺畅,特别是在数据可能稀疏的尾部。你可以用帕累托的尾巴,使用paretotails函数。

有关更多信息和其他语法选项,请参见ecdf..要构造一个基于样本数据计算的cdf值的连续函数,请参见分段线性分布

分段线性分布

一个分段线性分布通过计算每个单独的点处的CDF值,然后线性地连接这些值以形成连续曲线来估计样本数据的整体CDF。

下图显示了基于医院病人体重测量样本的分段线性分布的cdf。圆圈代表每个单独的数据点(重量测量)。通过每个数据点的黑线表示样本数据的分段线性分布cdf。

分段线性分布线性地连接在每个样本数据点处计算的CDF值以形成连续曲线。相比之下,一个经验累积分布函数构造使用ecdf.功能生成一个离散的CDF。例如,从ECDF生成的随机数只能包括x原始示例数据中包含的值。从分段线性分配生成的随机数可以包括任何x在样本数据的上下边界之间的值。

由于分段线性分布cdf是由样本数据中包含的值构建的,因此得到的曲线往往不是平滑的,特别是在数据稀疏的尾部。你可以用帕累托的尾巴,使用paretotails函数。

有关如何使用分段线性分配的信息,请参阅使用分段对象。

帕累托的尾巴

帕累托尾巴使用分段方法来通过平滑分布的尾部来改善非参数CDF的拟合。你可以适应一个内核分配经验CDF.,或用户定义的对中间数据值的估计,然后拟合广义帕累托分布尾部曲线。当样本数据在尾部稀疏时,这种技术特别有用。

下图显示了一个包含20个随机数字的数据样本的经验cdf (ecdf)。实线代表ecdf,虚线代表经验的cdf,帕累托尾符合上、下10%的数据。圆圈表示数据的上下10%的边界。

将帕累托尾部置于样本数据的较低和较高百分之上,使CDF在尾部下滑,其中数据稀疏。有关使用帕累托尾巴的更多信息,请参阅paretotails

三角形分布

一个三角形分布当有限的示例数据可用时提供概率分布的简单表示。该连续分布通过下限,峰值位置和上限进行参数化。这些点是线性连接的,以估计样本数据的PDF。您可以使用数据的平均值,中位数或模式作为峰值位置。

以下绘图显示了从0到5的10个整数的随机样本的三角分布PDF。下限是样本数据中最小的整数,上限是最大的整数。该图的峰值在样本数据中处于模式或最常见的值。

仿真和项目管理等业务应用有时使用三角分布在存在有限的示例数据时创建模型。有关更多信息,请参阅三角形分布

另请参阅

||

相关话题