主要内容

이번역번역이지는최신내용을담고담고않습니다않습니다。최신최신내용을영문영문으로여기를클릭클릭

일반화파레토분포를사용하여꼬리이터모델링모델링

이예제에서는최대가능도추정추정을통해일반화파레토분포에꼬리데터터피팅피팅을보여보여보여보여보여보여

모수분포를데이터에피팅하면밀도가높은영역에서는데이터와의이높지만일치성이높지만일치성이높지만밀도밀도일치성이떨어지는떨어지는이생성모델이생성모델경우경우가있습니다。정규분포또는스튜던트스튜던트와와단봉분포의이렇게밀도가낮은낮은을분포의“꼬리”라고라고。모델이꼬리에서제대로피팅되지이유중하나는,관련정의정의따르면,모델선택선택근거가되는데이터가꼬리데꼬리더더적으며따라서근처의터터를피팅모델모델에에에되기때문입니다。또다른이유는실제데이터의의가일반일반적인모수적모델보다더복잡하기하기때문일일수흔히복잡복잡하기때문일수수

그러나,데이터를를꼬리에하는것은많은응용응용응용에서주요과제일반화파레토분포(gp)는이론적적논거를으로다양한분포에서꼬리를모델링수있는분포로분포로개발gp를사용하여분포피팅을하는방법은값이많은관측값이적피팅(예:경험경험누적분포함수적피팅사용하고그gp를를이터의의꼬리에피팅것것것것것것

일반화파레토분포

일반화일반화분포(gp)는오른쪽으로편중된이며,형태모수k와와스케일모수모수로로모수화화k는“꼬리인덱스”모수라고도하며양수,0(영)또는음수가될수있습니다。

x = linspace(0,10,1000);绘图(x,gppdf(x, - 。4,1),' - ',x,gppdf(x,0,1),' - ',x,gppdf(x,2,1),' - ');Xlabel('x / sigma');ylabel('概率密度');传奇({'k <0''k = 0''k> 0'});

k <0인경우,gp는상한 - (1 / k)를초과할확률이0입니다。k> = 0인경우,gp에상한이없습니다。또한,gp는0에서멀어지도록을을이동을세번째분계점모수와사용되는경우가많습니다。여기서는이러한일반성이필요하지않습니다。

gp분포는지수분포(k = 0)와와분포(k> 0)모두모두일반화한것。gp는연속적인형태를지원할수있도록큰분포군에이두두를포함시킵니다。

초과량데이터시뮬레이션하기

gp분포의생성은초과량의에서에서정의될수있습니다。이오른쪽꼬리같이오른쪽꼬리가0으로으로확률없없하여분포상관없이난수난수값을추출할수수수분계점아래을고정하고,분계점아래에있는모든값버린후,버리지않은나머지값에서을뺀를초과량이라고고고라고초과량분포는gp에가깝습니다。마찬가지로,분포의왼쪽꼬리에서분계점을하여이분계점보다높은높은을모두무시수있습니다。근삿값이타당하려면분계점이원래분포의꼬리에서충분히떨어져있어야합니다합니다。

GP분포의형태모수k는는원래분포에의해결정결정결정꼬리가다항식다항식떨어지는분포(예:스튜던트t분포)의경우양의형태가생성생성。꼬리가기하급수적으로감소분포분포분포분포분포분포분포분포분포분포유한유한한꼬리를갖는(예:베타베타)는음의형태모수에대응。

gp분포를적용하는사례로는주식시장의극값이나극단극단적홍수재해를하는경우를들수수를하는경우를를수수이예제에서는자유도가5인스튜던트t분포생성생성에이션션이터사용하겠습니다t분포에서2000개관측값중가장큰큰값5%를취한후95%분위수를차감하여초과량구합니다。

RNG(3,'twister');X = TRND(5,2000,1);q = smianile(x,.95);y = x(x> q) -  q;n = numel(y)
n = 100.

최대가능도를사용하여하여분포피팅

GP분포는0

paramests = gpfit(y);Khat = Paramests(1)%尾索引参数Sigmahat = Paramests(2)%SCALE参数
Khat = 0.0987 Sigmahat = 0.7156

예상예상대로시뮬레이션된데이터는는사용사용하여생성되었으므로되었으므로되었으므로되었으므로되었으므로되었으므로양수입니다。

시각적으로피팅확인하기

피팅이얼마나일치하는지를시각으로으로가하기하기꼬리데이터에대한스케일링된히스토그램히스토그램을플로팅과대한밀도함수추정겹쳐겹쳐겹쳐겹쳐겹쳐이히스토그램은막대높이와막대막대너비를곱한이1이되도록되도록스케일링。

箱= 0:.25:7;H = BAR(箱,HISTC(Y,箱)/(长度(y)*。25),'histc');h.facecolor = [.9 .9 .9];ygrid = linspace(0,1.1 * max(y),100);线(Ygrid,GPPDF(Ygrid,Khat,Sigmahat));XLIM([0,6]);Xlabel(“超越”);ylabel('概率密度');

여기서는상당히작은斌너비를사용했으므로히스토그램에에이많습니다。그러나피팅된밀도가데이터의의형태를따르므로모델이좋은좋은으로보입니다。

경험적cdf를피팅된cdf와비교할수도。

[f,yi] = ecdf(y);情节(yi,gpcdf(yi,khat,sigmahat),' - ');抓住;楼梯(yi,f,'r');抓住离开;传奇('普遍的Pareto CDF''经验CDF''地点''东南');

모수모수추정값에에대한표준계산계산

추정값의정밀도를수치하기위해최대가능도추정량으로구성된점근공분산행렬계산한표준를사용하겠습니다。함수适合는해당공분산행렬에대한수치사를두두번째값으로계산계산계산계산또는,두개의출력인수사용하여GPFIT.을을할수있으며이경우모수에대한이반환반환。

[nll,acov] = gplike(paramests,y);stderr = sqrt(diag(acov))
STDERR = 0.1158 0.1093

이표준오차는k의추정값의상대정밀도정밀도정밀도보다에에보다이낮으며,따라서표준표준가추정값가깝다는깝다는오차을을。형태모수는대개추정하기하기가어렵습니다。이표준오차를계산할때gp모델이올바르며이올바르며공분산행렬에대한점근적额가능할만큼이터가능있다정가정했음했음했음명심명심명심명심명심

점근적정규성가정확인확인

일반적으로표준오차를할때동일한소스에서가져온데데대해대해대해피팅피팅을여러반복반복수그모수최대가능도추정그의최대가능도추정값이대략대략이으로으로으로를따른다고따른다고고고고고고고고고고고고고고고고고고고고고고고고따른다고고고따른다따른다따른다고고따른다고고따른다따른다고고고정따른다정고따른다따른다고따른다고따른다고고따른다고따른다고고고고따른다고고따른다따른다따른다고따른다따른다따른다따른다따른다따른다고고따른다고따른다따른다따른다고고따른다따른다따른다고예를들어,신뢰구간은대개이러한가정을바탕으로。

그러나,해당정규근삿값이양호할수도있고양호하지수도수도있습니다있습니다。이예제에서는부트스트랩시뮬레이션사용하여근삿이얼마나양호한지평가할할있습니다。데이터에서에서표본을재추출하여하여개의반복실험실험데세트를생성하고하고분포를각데하고터에피팅한후반복실험에피팅한후반복반복에를한한후반복세트를한한후후후저장저장저장저장저장을를한한저장에

Replests = bootstrp(1000,@ gpfit,y);

00

子图(2,1,1);steg(重叠(:,1));标题('k'的引导估计);子图(2,1,2);steg(重叠(:,2));标题('Sigma的Bootstrap估计);

모수변환사용용

k의의부트스트랩추정추정값대한히스토그램은은아주약간으로으로보지만추정추정추정히스토그램히스토그램은확실하게오른쪽으로편향되어히스토그램히스토그램은확실하게확실하게오른쪽값되어되어이편향에대한일반적인방법은로그스케일에서모수해당표준오차를추정하는것것이경우정규정규사를를하는에이더욱타당할수。q-q플롯은직선을대략으로따르지않는점으로을나타내므로정규성을가하는하는는히스토그램q-q플롯이더더방법입니다。Sigma에로그변환을적용것것이적절한지살펴보겠습니다。

子图(1,2,1);qqplot(重票(:,1));标题('k'的引导估计);子图(1,2,2);qqplot(log(更换(:,2)));标题('log(sigma)'的引导估计);

k와log(sigma)의부트스트랩추정값이허용되는수준으로정규성에가깝게보입니다。Sigma추정값에대한q-q플롯을로그변환않은스케일에그려앞의히스토그램도봤던왜도를확인수수수수수수따라서,정규성을띤다는가정하에log(sigma)에대한신뢰구간을먼저한후지수화화먼저화지수화타당할수있습니다。

실제로,이것이바로바로GPFIT.이자동으로수행하는입니다。

[paramests,paramci] = gpfit(y);
Khat KCI = PARAPCI(:,1)
Khat = 0.0987 KCI = -0.1283 0.3258
sigmahat sigmaci = paramci(:,2)
Sigmahat = 0.7156 sigmaci = 0.5305 0.9654

k에대한95%신뢰구간이최대가능도추정값에대해반면반면,sigma에대한신뢰구간은이아닙니다。그이유는log(sigma)에대한대칭ci를를하여생성때문때문입니다입니다。