文档

非参数和经验概率分布

概述

在某些情况下,不能使用参数分布准确地描述数据样本。相反,必须从数据中估计概率密度函数(pdf)或累积分布函数(cdf)。统计和机器学习工具箱™提供了从样本数据估计pdf或cdf的几个选项。

内核分配

一个内核分配产生自适应于数据的非参数概率密度估计,而不是选择具有特定参数形式的密度并估计参数。该分布由核密度估计器定义,平滑函数确定用于生成pdf的曲线形状,带宽值控制得到的密度曲线的平滑度。

类似于直方图,内核分布构建了一个函数来表示使用样本数据的概率分布。但与直方图不同的是,它将值放入离散的箱子中,核分布将每个数据值的分量平滑函数相加,以产生平滑、连续的概率曲线。下面的图显示了从相同的示例数据生成的直方图和内核分布的可视化比较。

直方图通过建立箱子并将每个数据值放在适当的箱子中来表示概率分布。由于这种箱子计数方法,直方图产生了一个离散的概率密度函数。这可能不适用于某些应用,例如从拟合分布生成随机数。

或者,内核分布通过为每个数据值创建单独的概率密度曲线来构建概率密度函数(pdf),然后对平滑曲线求和。这种方法为数据集创建一个平滑、连续的概率密度函数。

有关内核发行版的更多一般信息,请参见内核分配.有关如何使用内核发行版的信息,请参见使用KernelDistribution对象ksdensity

经验累积分布函数

经验累积分布函数(ecdf)通过给样本中的每个观测值分配相等的概率来估计随机变量的CDF。由于这种方法,ecdf是一个离散的累积分布函数,它在ecdf和样本数据的分布之间创建了精确的匹配。

下图显示了由标准正态分布生成的20个随机数的ecdf与标准正态分布的理论cdf的直观比较。圆圈表示在每个样本数据点上计算的ecdf值。虽然ecdf不是一个连续函数,但穿过每个圆的虚线在视觉上表示ecdf。实线显示了标准正态分布的理论cdf,样本数据中的随机数就是从中绘制出来的。

ecdf在形状上与理论cdf相似,尽管它不是完全匹配的。相反,ecdf与示例数据完全匹配。ecdf是一个离散函数,并不是平滑的,特别是在数据可能稀疏的尾部。你可以用帕累托的尾巴,使用paretotails函数。

有关更多信息和其他语法选项,请参见ecdf.若要根据从样本数据计算的cdf值构造连续函数,请参见分段线性分布

分段线性分布

一个分段线性分布通过计算每个单独点的CDF值,然后将这些值线性连接起来,形成连续曲线,估计样本数据的总体CDF值。

下图显示了基于医院患者体重测量样本的分段线性分布的cdf。圆圈代表每个单独的数据点(重量测量)。穿过每个数据点的黑线表示样本数据的分段线性分布cdf。

分段线性分布将每个样本数据点上计算的cdf值线性连接,形成连续曲线。相比之下,经验累积分布函数使用ecdf函数产生一个离散的cdf。例如,ecdf生成的随机数只能包含x原始示例数据中包含的值。由分段线性分布产生的随机数可以包括任何x样例数据的上边界和下边界之间的值。

由于分段线性分布cdf是由样本数据中包含的值构造的,因此得到的曲线通常不是平滑的,特别是在数据可能稀疏的尾部。你可以用帕累托的尾巴,使用paretotails函数。

有关如何处理分段线性分布的信息,请参见使用PiecewiseLinearDistribution对象。

帕累托的尾巴

帕累托尾采用分段方法通过平滑分布的尾来改善非参数cdf的拟合。你可以装一个内核分配经验提供,或用户定义的中间数据值的估计量,然后拟合广义帕累托分布尾巴弯曲。当样本数据在尾部稀疏时,这种技术特别有用。

下图显示了包含20个随机数的数据样本的经验cdf (ecdf)。实线表示ecdf,虚线表示具有帕累托尾的经验cdf,适合于数据的上10%和下10%。圆圈表示数据中较低和较高的10%的边界。

将帕累托尾拟合到样本数据的上10%和下10%,可以使cdf在数据稀疏的尾中更平滑。有关使用帕累托尾的更多信息,请参见paretotails

三角形分布

一个三角形分布当有限的样本数据可用时,提供概率分布的简单表示。这种连续分布由下限、峰值位置和上限参数化。这些点线性连接以估计样本数据的pdf。可以使用数据的平均值、中位数或众数作为峰值位置。

下图显示了从0到5的10个整数的随机样本的三角分布pdf。下限为样本数据中最小的整数,上限为样本数据中最大的整数。该图的峰值位于样本数据中的模态值,即最常出现的值。

当存在有限的样本数据时,模拟和项目管理等业务应用程序有时会使用三角分布来创建模型。有关更多信息,请参见三角形分布

另请参阅

||

相关的话题