主要内容

内核分配

概述

核分布是随机变量的概率密度函数(pdf)的非参数表示。当参数分布不能恰当地描述数据时,或者当您希望避免对数据的分布做出假设时,您可以使用核分布。核分布由平滑函数和带宽值定义,带宽值控制所得密度曲线的平滑度。

核密度估计器

核密度估计量是随机变量的估计pdf。对于任何实值x,核密度估计器的公式为

f h x 1 n h 1 n K x x h

在哪里x1x2、……xn是来自未知分布的随机样本,n是样本量, K · 是核平滑函数,和h是带宽。

核平滑函数

核平滑函数定义用于生成pdf的曲线的形状。与直方图类似,核分布构建了一个函数来表示使用样本数据的概率分布。但与直方图不同的是,直方图将值放入离散的箱子中,核分布将每个数据值的组件平滑函数求和,以产生光滑的连续概率曲线。下面的图表显示了由相同样本数据生成的直方图和核分布的可视化比较。

直方图通过建立箱并将每个数据值放在适当的箱中来表示概率分布。

SixMPG = [13;15;23;29;32;34];图直方图(SixMPG)

图包含一个轴对象。axes对象包含直方图类型的对象。

由于这种箱计数方法,直方图产生一个离散的概率密度函数。这可能不适合某些应用程序,例如从拟合分布生成随机数。

或者,内核分布通过为每个数据值创建单独的概率密度曲线,然后对平滑曲线求和来构建pdf。这种方法为数据集创建了一个平滑、连续的概率密度函数。

图pd6 = fitdist(六mpg,“内核”“宽度”4);X = 0: 1:45;ySix = pdf(pdSix,x);情节(x, ySix,“k -”“线宽”,2)%绘制每个单独的pdf并缩放其在绘图上的外观持有I =1:6 pd = makedist“正常”“亩”SixMPG(我),“σ”4);Y = pdf(pd,x);Y = Y /6;情节(x, y,”乙:“结束持有

图包含一个轴对象。axes对象包含7个line类型的对象。

较小的虚线是样本数据中每个值的概率分布,按比例缩放以拟合该图。较大的实线曲线是总体核分布SixMPG数据。核平滑函数指的是那些较小的分量曲线的形状,在这个例子中它们具有正态分布。

您可以从核平滑函数的几个选项中选择一个。该图显示了可用平滑函数的形状。

%设置地块规格名称= {“正常”“epanechnikov”“盒子”“三角形”};颜色= {“r”“b”‘g’“米”};行= {“- - -”“-”。“——”“:”};生成每个核平滑函数的样本和图数据= [0];数字J =1:4 pd = fitdist(data,“内核”“内核”, hname {j});X = -3:.1:3;Y = pdf(pd,x);情节(x, y,“颜色”颜色{j},“线型”, {j}行)结束传奇(hname)

图包含一个轴对象。axis对象包含4个类型为line的对象。这些物体代表法线,依帕内尼科夫,方框,三角形。

为了了解不同的核平滑函数对最终pdf估计值形状的影响,请比较里程数据(英里/加仑)carbig.mat使用每个可用的内核函数。

负载carbig%设置地块规格名称= {“正常”“epanechnikov”“盒子”“三角形”};颜色= {“r”“b”‘g’“米”};行= {“- - -”“-”。“——”“:”};生成内核分布对象和图数字j=1:4 pd = fitdist(MPG,“内核”“内核”, hname {j});X = -10:1:60;Y = pdf(pd,x);情节(x, y,“颜色”颜色{j},“线型”, {j}行)结束传奇(hname)

图包含一个轴对象。axis对象包含4个类型为line的对象。这些物体代表法线,依帕内尼科夫,方框,三角形。

每个密度曲线使用相同的输入数据,但应用不同的核平滑函数来生成pdf。密度估计值大致相当,但每条曲线的形状略有不同。例如,盒核生成的密度曲线不如其他密度曲线平滑。

带宽

带宽值的选择控制所得概率密度曲线的平滑度。该图显示了密度估计英里/加仑数据,使用三种不同带宽的正常核平滑函数。

%创建内核分发对象负载carbigpd1 = fitdist(MPG,“内核”);pd2 = fitdist(MPG,“内核”“宽度”1);pd3 = fitdist(MPG,“内核”“宽度”5);%计算每个pdfX = -10:1:60;Y1 = pdf(pd1,x);Y2 = pdf(pd2,x);Y3 = pdf(pd3,x);%绘制每个pdf情节(x, y₁,“颜色”“r”“线型”“- - -”)举行情节(x, y2,“颜色”“k”“线型”“:”)情节(x, y3,“颜色”“b”“线型”“——”)({传奇“带宽=默认”“带宽= 1”“带宽= 5”})举行

图包含一个轴对象。axis对象包含3个类型为line的对象。这些节点表示Bandwidth = Default, Bandwidth = 1, Bandwidth = 5。

默认带宽,理论上最适合估计正态分布的密度[1],会产生相当光滑的曲线。指定一个较小的带宽会产生一个非常粗糙的曲线,但显示数据中可能有两个主要的峰值。指定一个更大的带宽会产生一条几乎与核函数相同的曲线,而且非常平滑,以至于掩盖了数据的潜在重要特征。

参考文献

鲍曼,A. W.和A.阿扎利尼。应用平滑技术进行数据分析.纽约:牛津大学出版社,1997。

另请参阅

|

相关的话题