カ,ネル分布
概要
カ,ネル分布は,確率変数の確率密度関数(pdf)のノンパラメトリック表現です。パラメトリック分布ではデータを適切に記述できなかったり,データの分布に関する仮定を実行しない場合,カーネル分布を使用できます。カ,ネル分布は,平滑化関数と帯域幅の値によって定義されます。これらは,生成される密度曲線の滑らかさを制御します。
カ,ネル密度推定量
カ,ネル密度推定量は,確率変数の推定PDFです。xの任意の実数値について、カーネル密度推定量は次の式によって与えられます。
ここで,x1, x2,…,xnは未知の分布に由来する無作為標本,nは標本サescズ, はカ,ネル平滑化関数,hは帯域幅です。
カ,ネル平滑化関数
カ,ネル平滑化関数は,確率密度関数の生成に使われる曲線の形状を定義します。ヒストグラムと同様,カ,ネル分布は,標本デ,タを使って,確率分布を表す関数を構築します。ただし,値を離散的なビンに配置するヒストグラムとは異なり,カーネル分布は,各データ値に対して成分平滑化関数を加算して,平滑で連続的な確率曲線を生成します。次の図は,同じ標本デ,タから生成されたヒストグラムとカ,ネル分布の視覚的な比較を示しています。
ヒストグラムは,ビンを確立して適切なビンに各デ,タ値を配置することで,確率分布を表します。
SixMPG = [13;15;23;29;32;34];图直方图(SixMPG)
このビンカウント方式により,ヒストグラムは離散確率密度関数を生成します。これは,特定の用途(近似分布からの乱数の生成など)に向かない場合があります。
代替法として,カーネル分布は,それぞれのデータ値に個別の確率密度曲線を生成し,平滑曲線を加算することで,確率密度関数を生成します。この方式は特定のデタセットに対して,1の平滑化された連続確率密度関数を生成します。
数字pdSix = fitdist(SixMPG,“内核”,“宽度”4);X = 0:.1:45;ySix = pdf(pdSix,x);情节(x, ySix,“k -”,“线宽”, 2)绘制每个单独的pdf并缩放其在图上的外观持有在为I =1:6 pd = makedist(“正常”,“亩”SixMPG(我),“σ”4);Y = pdf(pd,x);Y = Y /6;情节(x, y,”乙:“)结束持有从
小さい破線の曲線は,標本データ内の各値に対する確率分布であり,プロットを近似するようにスケーリングされています。大きい実線の曲線は,SixMPG
デ,タの全体的なカ,ネル分布です。カ,ネル平滑化関数は、小さな成分曲線 (この例では、正規分布) を参照します。
カ,ネル平滑化関数に対して,複数のオプションのいずれかを選択できます。このプロットは,使用可能な平滑化関数の形状を示しています。
%设定地块规格姓名= {“正常”“epanechnikov”“盒子”“三角形”};颜色= {“r”“b”‘g’“米”};Lines = {“- - -”,“-”。,“——”,“:”};生成每个核平滑函数和图的样本数据= [0];数字为J =1:4 pd = fitdist(数据,“内核”,“内核”, hname {j});X = -3:.1:3;Y = pdf(pd,x);情节(x, y,“颜色”颜色{j},“线型”, {j}行)在结束传奇(hname)从
結果となる確率密度関数の推定の形状に関して,さまざまなカーネル平滑化関数の効果を理解するには,使用可能な各カーネル関数を使って,carbig.mat
から燃費デタ(英里/加仑
)のプロットを比較します。
负载carbig%设定地块规格姓名= {“正常”“epanechnikov”“盒子”“三角形”};颜色= {“r”“b”‘g’“米”};Lines = {“- - -”,“-”。,“——”,“:”};生成内核分布对象和图形数字为j=1:4 pd = fitdist(MPG,“内核”,“内核”, hname {j});X = -10:1:60;Y = pdf(pd,x);情节(x, y,“颜色”颜色{j},“线型”, {j}行)在结束传奇(hname)从
各密度曲線では同じ入力データが使われますが,確率密度関数を生成するには,異なるカーネル平滑化関数が適用されます。密度の推定は大まかに比較可能ですが,各曲線の形状は少しず異なります。たとえば,盒子カ,ネルで生成される密度曲線は,他のカ,ネルよりも平滑ではありません。
帯域幅
帯域幅の選択は,生成される確率密度の曲線の滑らかさを制御します。このプロットは,正規カ:ネル平滑化関数で3の異なる帯域幅を使った場合の英里/加仑
デ,タに対する密度の推定を示しています。
创建内核分发对象负载carbigpd1 = fitdist(MPG,“内核”);pd2 = fitdist(MPG,“内核”,“宽度”1);pd3 = fitdist(MPG,“内核”,“宽度”5);计算每个pdfX = -10:1:60;y = pdf(pd1,x);Y2 = pdf(pd2,x);Y3 = pdf(pd3,x);绘制每个pdf情节(x, y₁,“颜色”,“r”,“线型”,“- - -”)举行在情节(x, y2,“颜色”,“k”,“线型”,“:”)情节(x, y3,“颜色”,“b”,“线型”,“——”)({传奇'带宽=默认值','带宽= 1','带宽= 5'})举行从
既定の帯域幅は,正規分布の密度の推定に対して理論的に最適であり[1],適度に滑らかな曲線を生成します。小さな帯域幅を指定すると非常に粗い曲線になりますが,データに2つの主要なピークが存在する可能性が明らかになります。大きな帯域幅を指定すると,カーネル関数とほぼ同一の曲線が生成されますが,曲線は非常に滑らかであり,データの潜在的に重要な特徴量が不明瞭になります。
参照
[1]鲍曼,a.w.和A.阿扎里尼。平滑技术在数据分析中的应用。纽约:牛津大学出版社,1997年。