カーネル分布- MATLAB和Sim金宝appulink MathWorks日本 - 金宝app,下载188bet金宝搏,金宝搏官方网站

カーネル分布

概要

カーネル分布は,確率変数の確率密度関数(pdf)のノンパラメトリック表現です。パラメトリック分布ではデータを適切に記述できなかったり,データの分布に関する仮定を実行しない場合,カーネル分布を使用できます。カーネル分布は,平滑化関数と帯域幅の値によって定義されます。これらは,生成される密度曲線の滑らかさを制御します。

カーネル密度推定量

カーネル密度推定量は,確率変数の推定pdfです。xの任意の実数値について、カーネル密度推定量は次の式によって与えられます。

${\overset{＾}{f}}_{h} （ x ）＝ \frac{1}{n h} \sum_{我＝ 1}^{n} K （ \frac{x - x_{我}}{h} ），$

ここでx₁, x₂，…，…_nは未知の分布に由来する無作為標本,nは標本サイズ, $K （ \cdot ）$ はカーネル平滑化関数,hは帯域幅です。

カーネル平滑化関数

ライブスクリプトを開く

カーネル平滑化関数は,確率密度関数の生成に使われる曲線の形状を定義します。ヒストグラムと同様,カーネル分布は,標本データを使って,確率分布を表す関数を構築します。ただし,値を離散的なビンに配置するヒストグラムとは異なり,カーネル分布は,各データ値に対して成分平滑化関数を加算して,平滑で連続的な確率曲線を生成します。次の図は,同じ標本データから生成されたヒストグラムとカーネル分布の視覚的な比較を示しています。

ヒストグラムは,ビンを確立して適切なビンに各データ値を配置することで,確率分布を表します。

SixMPG =(13、15、23日,29日,32;34);图直方图(SixMPG)

图中包含一个坐标轴。坐标轴包含一个直方图类型的对象。

このビンカウント方式により,ヒストグラムは離散確率密度関数を生成します。これは,特定の用途(近似分布からの乱数の生成など)に向かない場合があります。

代替法として,カーネル分布は,それぞれのデータ値に個別の確率密度曲線を生成し,平滑曲線を加算することで,確率密度関数を生成します。この方式は特定のデータセットに対して,1つの平滑化された連続確率密度関数を生成します。

figure pdSix = fitdist(SixMPG，“内核”，“带宽”4);x = 0: .1:45;ySix = pdf (pdSix x);情节(x, ySix,“k -”，“线宽”, 2)%绘制每个单独的pdf，并在图上缩放其外观持有在为I =1:6 pd = makedist(“正常”，“亩”SixMPG(我),“σ”4);x y = pdf (pd);y = y / 6;情节(x, y,”乙:“）结束持有从

图中包含一个坐标轴。轴线包含7个线型对象。

小さい破線の曲線は,標本データ内の各値に対する確率分布であり,プロットを近似するようにスケーリングされています。大きい実線の曲線は,SixMPGデータの全体的なカーネル分布です。カーネル平滑化関数は、小さな成分曲線 (この例では、正規分布) を参照します。

カーネル平滑化関数に対して,複数のオプションのいずれかを選択できます。このプロットは,使用可能な平滑化関数の形状を示しています。

设定plot规格hname = {“正常”“epanechnikov”“盒子”“三角形”};颜色= {“r”“b”‘g’“米”};行= {“- - -”，“-”。，“——”，“:”};%生成每个核平滑函数的样本并绘图数据= [0];数字为J =1:4 pd = fitdist(数据，“内核”，“内核”, hname {j});x = 3: .1:3;x y = pdf (pd);情节(x, y,“颜色”颜色{j},“线型”, {j}行)在结束传奇(hname)从

图中包含一个坐标轴。轴包含4个线型对象。这些物体代表了普通，埃帕内奇尼科夫，盒子，三角形。

結果となる確率密度関数の推定の形状に関して,さまざまなカーネル平滑化関数の効果を理解するには,使用可能な各カーネル関数を使って,carbig.matから燃費データ(英里/加仑)のプロットを比較します。

负载carbig设定plot规格hname = {“正常”“epanechnikov”“盒子”“三角形”};颜色= {“r”“b”‘g’“米”};行= {“- - -”，“-”。，“——”，“:”};%生成内核分布对象并绘图数字为j=1:4 pd = fitdist(MPG，“内核”，“内核”, hname {j});x = 10:1:60;x y = pdf (pd);情节(x, y,“颜色”颜色{j},“线型”, {j}行)在结束传奇(hname)从

图中包含一个坐标轴。轴包含4个线型对象。这些物体代表了普通，埃帕内奇尼科夫，盒子，三角形。

各密度曲線では同じ入力データが使われますが,確率密度関数を生成するには,異なるカーネル平滑化関数が適用されます。密度の推定は大まかに比較可能ですが,各曲線の形状は少しずつ異なります。たとえば,盒子カーネルで生成される密度曲線は,他のカーネルよりも平滑ではありません。

帯域幅

ライブスクリプトを開く

帯域幅の選択は,生成される確率密度の曲線の滑らかさを制御します。このプロットは,正規カーネル平滑化関数で3つの異なる帯域幅を使った場合の英里/加仑データに対する密度の推定を示しています。

%创建内核分发对象负载carbigpd1 = fitdist(英里/加仑,“内核”）;pd2 = fitdist(英里/加仑,“内核”，“带宽”1);pd3 = fitdist(英里/加仑,“内核”，“带宽”5);计算每个pdfx = 10:1:60;日元= pdf (pd1 x);y2 = pdf (pd2 x);y3 = pdf (pd3 x);%绘制每个pdf情节(x, y₁,“颜色”，“r”，“线型”，“- - -”)举行在情节(x, y2,“颜色”，“k”，“线型”，“:”)情节(x, y3,“颜色”，“b”，“线型”，“——”)({传奇“带宽=违约”，“带宽= 1”，“带宽= 5”})举行从

图中包含一个坐标轴。轴线包含3个线型对象。这些对象表示BandWidth = Default, BandWidth = 1, BandWidth = 5。

既定の帯域幅は,正規分布の密度の推定に対して理論的に最適であり［1］,適度に滑らかな曲線を生成します。小さな帯域幅を指定すると非常に粗い曲線になりますが,データに2つの主要なピークが存在する可能性が明らかになります。大きな帯域幅を指定すると,カーネル関数とほぼ同一の曲線が生成されますが,曲線は非常に滑らかであり,データの潜在的に重要な特徴量が不明瞭になります。

参照

鲍曼，A. W.和阿扎里尼。应用平滑技术进行数据分析。纽约:牛津大学出版社，1997。

参考

ksdensity|KernelDistribution