主要内容

非参数和经验概率分布

概述

在某些情况下,您不能使用参数分布准确地描述数据样本。相反,必须从数据中估计概率密度函数(pdf)或累积分布函数(cdf)。统计和机器学习工具箱™提供了几个选项来估计pdf或cdf从样本数据。

内核分配

一个内核分配产生非参数概率密度估计,其适应数据,而不是选择具有特定参数形式的密度并估计参数。该分布由内核浓度估计器,一个平滑功能,其确定用于生成PDF的曲线的形状,以及控制所得密度曲线的平滑度的带宽值。

类似于直方图,内核分发构建了使用示例数据表示概率分布的功能。但与直方图不同,该直方图将值放入离散箱中,内核分布总和为每个数据值的组件平滑功能和产生平滑,连续概率曲线。以下绘图显示了从相同的样本数据产生的直方图和内核分布的视觉比较。

直方图通过建立箱子并将每个数据值放入适当的箱子来表示概率分布。由于这种bin计数方法,直方图产生一个离散的概率密度函数。这可能不适合某些应用程序,例如从拟合分布生成随机数。

或者,核分布为每个数据值创建单个概率密度曲线,然后对平滑曲线求和,从而构建概率密度函数(pdf)。这种方法为数据集创建一个平滑、连续的概率密度函数。

有关内核发行版的更多一般信息,请参阅内核分配。有关如何使用内核分发的信息,请参阅使用k对象ksdity.

经验累积分布函数

经验累积分布函数(ecdf.)估计一个随机变量的cdf,通过对样本中的每个观测值分配相等的概率。由于这种方法,ecdf是一个离散的累积分布函数,它在ecdf和样本数据的分布之间创建了精确的匹配。

下图显示了标准正态分布生成的20个随机数的ecdf与标准正态分布的理论cdf的可视化比较。圆圈表示在每个样本数据点计算的ecdf值。通过每个圆的虚线直观地表示ecdf,尽管ecdf不是一个连续函数。实线表示的是标准正态分布的理论cdf,样本数据中的随机数就是从这个标准正态分布中抽取的。

ECDF的形状类似于理论CDF,尽管它不是完全匹配。相反,ECDF与样本数据完全匹配。ECDF是一个离散功能,并且不顺畅,特别是在数据可能稀疏的尾部。你可以平滑分布帕累托的尾巴,使用paretotails函数。

有关更多信息和其他语法选项,请参见ecdf.。以样本数据计算的cdf值为基础构造连续函数,请参见分段线性分布

分段线性分布

一个分段线性分布通过计算每个单独的点处的CDF值,然后线性地连接这些值以形成连续曲线来估计样本数据的整体CDF。

下面的图显示了基于医院病人体重测量样本的分段线性分布的cdf。圆圈代表每个单独的数据点(权重测量)。通过每个数据点的黑线表示样本数据的分段线性分布cdf。

分段线性分布线性地连接在每个样本数据点处计算的CDF值以形成连续曲线。相比之下,一个经验累积分布函数构造使用ecdf.功能生成一个离散的CDF。例如,从ECDF生成的随机数只能包括x原始示例数据中包含的值。从分段线性分配生成的随机数可以包括任何x样本数据上下边界之间的值。

由于分段线性分布cdf是由样本数据中包含的值构造而成,因此得到的曲线往往不是平滑的,尤其是在数据可能稀疏的尾部。你可以平滑分布帕累托的尾巴,使用paretotails函数。

有关如何使用分段线性分配的信息,请参阅使用分段对象。

帕累托的尾巴

帕累托尾巴使用分段方法来通过平滑分布的尾部来改善非参数CDF的拟合。你可以适应一个内核分配,经验CDF.,或用户定义的中间数据值的估计值,然后拟合广义帕累托分布尾巴的曲线。当样本数据尾部稀疏时,这种技术特别有用。

下面的图显示了一个包含20个随机数的数据样本的经验cdf (ecdf)。实线表示ecdf,虚线表示带有帕累托尾的经验cdf,拟合上下10%的数据。圆圈表示数据的上下10%的边界。

将帕累托尾部置于样本数据的较低和较高百分之上,使CDF在尾部下滑,其中数据稀疏。有关使用帕累托尾巴的更多信息,请参阅paretotails

三角形分布

一个三角形分布当有限的示例数据可用时提供概率分布的简单表示。该连续分布通过下限,峰值位置和上限进行参数化。这些点是线性连接的,以估计样本数据的PDF。您可以使用数据的平均值,中位数或模式作为峰值位置。

以下绘图显示了从0到5的10个整数的随机样本的三角分布PDF。下限是样本数据中最小的整数,上限是最大的整数。该图的峰值在样本数据中处于模式或最常见的值。

仿真和项目管理等业务应用有时使用三角分布在存在有限的示例数据时创建模型。有关更多信息,请参阅三角形分布

另请参阅

||

相关话题