主要内容

이번역페이지는최신내용을담고있지않습니다。최신내용을영문으로보려면여기를클릭하십시오。

mvregress

다변량선형회귀

설명

예제

β= mvregress (XY는설계행렬X를기반으로Y차에있는d원응답변수를다변량정규회귀로추정한계수를반환합니다。

예제

β= mvregress (XY名称,值는하나이상의이름——값쌍의인수로지정된추가옵션을사용하여추정한계수를반환합니다。예를들어회,귀에대한추정알고리즘,초기추정값또는최대반복횟수를지정할수있습니다。

예제

βσ) = mvregress (___Y에대해추정한d×d분산——공분산행렬도반환합니다。이구문은위에열거된구문에적용할수있습니다。

예제

βσECovBlogL) = mvregress (___는잔차로구성된행렬E,추정한회귀계수의분산——공분산행렬CovB및마지막반복후의로그가능도목적함수값logL도반환합니다。

예제

모두축소

서로다른절편을가지면서동일한기울기를갖는다고가정하고다변량회귀모델을패널데이터에피팅합니다。

표본데이터를불러옵니다。

负载(“流感”

数据集형배열流感는谷歌®쿼리데이터를기반으로하는CDC의전국독감추정값과9개개별지역의추정값을포함합니다。

응답변수와예측변수데이터를추출합니다。

Y =双(流感(:2:end-1));[n、d] = (Y)大小;x = flu.WtdILI;

Y9개의응답변수는지역의독감추정값입니다。1년동안의매주별관측값이존재하므로 n = 52입니다。응답변수의차원은지역에대응되므로 d = 9입니다。x의예측변수는주별전국독감추정값입니다。

독감데이터를지역별로그룹화하여플로팅합니다。

图;区域= flu.Properties.VarNames (2: end-1);情节(x, Y,“x”)传说(地区,“位置”“西北”

图中包含一个坐标轴。轴包含9个线型对象。这些对象代表NE, MidAtl, central, WNCentral, SAtl, ESCentral, wcentral, Mtn, Pac。

다변량회귀모델 y j α j + β x j + ϵ j 를피팅합니다。여기서 1 ... n 이고 j 1 ... d 이며지역간동시상관관계 C O V ϵ j ϵ j σ j j 를가집니다。

9개의절편항과1개의공통된기울기를가지므로추정할회귀계수의개수 K = 10입니다。입력인수X d × K 크기의설계행렬로구성된요소를 n 개가진셀형배열이어야합니다。

X =细胞(n, 1);i = 1:n X{i} = [eye(d) repmat(X (i),d,1)];结束(β,σ)= mvregress (X, Y);

β K 차원계수벡터 α 1 α 2 ... α 9 β 의추정값을다음과같이포함합니다。

σ는지역간동시상관관계에대한 d × d 분산——공분산행렬 σ j d × d j 1 ... d )의추정값을포함합니다。

피팅된회귀모델을플로팅합니다。

B =[β(1:d); repmat(β(结束),1 d)];xx = linspace (5, 3.5);适合=[(大小(xx)), xx] * B;图;h =情节(x, Y,“x”xx,适合“- - -”);I = 1:d集合(h(d+ I))“颜色”get (h(我),“颜色”));结束传奇(地区,“位置”“西北”);

图中包含一个坐标轴。轴包含18个线型对象。这些对象代表NE, MidAtl, central, WNCentral, SAtl, ESCentral, wcentral, Mtn, Pac。

플롯을통해각회귀선이절편은서로다르지만기울기는동일함을알수있습니다。시각적으로검토해보면일부회귀선이다른회귀선보다데이터를더잘피팅하는것으로보입니다。

서로다른절편과기울기를갖는다고가정하고최소제곱을사용하여다변량회귀모델을패널데이터에피팅합니다。

표본데이터를불러옵니다。

负载(“流感”);

数据集형배열流感는谷歌®쿼리를기반으로하는CDC의전국독감추정값과9개개별지역의추정값을포함합니다。

응답변수와예측변수데이터를추출합니다。

Y =双(流感(:2:end-1));[n、d] = (Y)大小;x = flu.WtdILI;

Y9개의응답변수는지역의독감추정값입니다。1년동안의매주별관측값이존재하므로 n = 52입니다。응답변수의차원은지역에대응되므로 d = 9입니다。x의예측변수는주별전국독감추정값입니다。

다변량회귀모델 y j α j + β j x j + ϵ j 를피팅합니다。여기서 1 ... n 이고 j 1 ... d 이며지역간동시상관관계 C O V ϵ j ϵ j σ j j 를가집니다。

9개의절편항과9개의기울기항을가지므로추정할회귀계수의개수 K = 18입니다。X d × K 설계행렬로구성된요소를 n 개가진셀형배열입니다。

X =细胞(n, 1);i = 1:n X{i} = [eye(d) X (i)*eye(d)];结束(β,σ)= mvregress (X, Y,“算法”“cwls”);

β K 차원계수벡터 α 1 α 2 ... α 9 β 1 β 2 ... β 9 의추정값을다음과같이포함합니다。

피팅된회귀모델을플로팅합니다。

B =[β(1:d);β(d + 1:结束)');xx = linspace (5, 3.5);适合=[(大小(xx)), xx] * B;图;h =情节(x, Y,“x”xx,适合“- - -”);I = 1:d集合(h(d+ I))“颜色”get (h(我),“颜色”));结束区域= flu.Properties.VarNames (2: end-1);传奇(地区,“位置”“西北”);

图中包含一个坐标轴。轴包含18个线型对象。这些对象代表NE, MidAtl, central, WNCentral, SAtl, ESCentral, wcentral, Mtn, Pac。

플롯을통해각회귀선이서로다른절편과기울기를가짐을알수있습니다。

모든응답변수차원에대해단일 n × P 설계행렬을사용하여다변량회귀모델을피팅합니다。

표본데이터를불러옵니다。

负载(“流感”

数据集형배열流感는谷歌®쿼리를기반으로하는CDC의전국독감추정값과9개개별지역의추정값을포함합니다。

응답변수와예측변수데이터를추출합니다。

Y =双(流感(:2:end-1));[n、d] = (Y)大小;x = flu.WtdILI;

Y9개의응답변수는지역의독감추정값입니다。1년동안의매주별관측값이존재하므로 n = 52입니다。응답변수의차원은지역에대응되므로 d = 9입니다。x의예측변수는주별전국독감추정값입니다。

n × P 설계행렬X를만듭니다。회귀에상수항을포함시키기위해1로구성된열을추가합니다。

X =[(大小(X)), X);

다음과같은다변량회귀모델을피팅합니다。

y j α j + β j x j + ϵ j

여기서 1 ... n 이고 j 1 ... d 이며,다음과같은지역간동시상관관계가존재합니다。

C O V ϵ j ϵ j σ j j

9개의절편항과9개의기울기항을가지므로추정할회귀계수는18개입니다。

[β,σ,E, CovB logL] = mvregress (X, Y);

β P × d 계수행렬의추정값을포함합니다。σ는지역간동시상관관계에대한 d × d 분산——공분산행렬의추정값을포함합니다。E는잔차로구성된행렬입니다。CovB는회귀계수의추정된분산——공분산행렬입니다。logL은마지막반복후의로그가능도목적함수값입니다。

피팅된회귀모델을플로팅합니다。

B =β;xx = linspace (5, 3.5);适合=[(大小(xx)), xx] * B;图h = plot(x,Y,“x”xx,适合“- - -”);I = 1:d集合(h(d+ I))“颜色”get (h(我),“颜色”))结束区域= flu.Properties.VarNames (2: end-1);传奇(地区,“位置”“西北”

图中包含一个坐标轴。轴包含18个线型对象。这些对象代表NE, MidAtl, central, WNCentral, SAtl, ESCentral, wcentral, Mtn, Pac。

플롯을통해각회귀선이서로다른절편과기울기를가짐을알수있습니다。

입력인수

모두축소

다변량회귀에대한설계행렬로,행렬또는행렬로구성된셀형배열로지정됩니다。n은데이터에있는관측값개수이고,K는추정할회귀계수의개수이고,p는예측변수의개수이고,d는응답변수행렬Y에있는차원수입니다。

  • d = 1인경우X를단일n×K설계행렬로지정하십시오。

  • d > 1이고모든d개의차원이동일한설계행렬을갖는경우X를(셀형배열에포함되지않은)단일n×p설계행렬로지정할수있습니다。

  • d > 1이고모든n개의관측값이동일한설계행렬을갖는경우X를단일d×K설계행렬을포함하는셀형배열로지정할수있습니다。

  • n d > 1이고개의관측값이동일한설계행렬을갖지않는경우X를d×K설계행렬을포함하는길이가n인셀형배열로지정하십시오。

회귀모델에상수항을포함시키려면각설계행렬이1로구성된열을포함해야합니다。

mvregressX에있는값을누락값으로처리하고X에서누락값이있는행을무시합니다。

데이터형:||细胞

응답변수로,n×d행렬로지정됩니다。n은데이터에있는관측값개수이고,d는응답변수에있는차원수입니다。d = 1이면mvregressY에있는값을n개의독립된응답변수값처럼처리합니다。

mvregressY에있는값을누락값으로간주하고이름——값쌍의인수算法을사용하여지정된추정알고리즘에따라처리합니다。

데이터형:|

이름——값쌍의인수

선택적으로名称,值인수가쉼표로구분되어지정됩니다。여기서的名字은인수이름이고价值는대응값입니다。的名字은따옴표안에표시해야합니다。Name1, Value1,…,的家과같이여러개의이름——값쌍의인수를어떤순서로든지정할수있습니다。

예:“算法”、“cwls’,‘covar0’,C는공분산행렬C를사용하는공분산가중최소제곱추정을지정합니다。

추정알고리즘으로,“算法”과함께다음중하나가쉼표로구분되어지정됩니다。

“mvn” 일반다변량정규최대가능도추정。
ecm的 ECM알고리즘을통한최대가능도추정。
“cwls” 공분산가중최소제곱추정。

디폴트알고리즘은누락값의존재여부에따라달라집니다。

  • 전체데이터의경우디폴트값은“mvn”입니다。

  • 으로표시되는누락값인응답이있으면표본크기가모든모수를추정하기에충분할경우디폴트값은ecm的입니다。그렇지않을경우디폴트알고리즘은“cwls”입니다。

참고

算法의값이“mvn”인경우mvregress는추정전에누락응답변수값이있는관측값을제거합니다。

예:“算法”、“ecm的

회귀계수에대한초기추정값으로,“beta0”과함께K개의요소를가진벡터가쉼표로구분되어지정됩니다。디폴트값은0으로구성된벡터입니다。

추정算法“mvn”이면beta0인수는사용되지않습니다。

분산——공분산행렬σ에대한초기추정값으로,“covar0”양과함께d×d의정부호대칭행렬이쉼표로구분되어지정됩니다。디폴트값은단위행렬입니다。

추정算法“cwls”이면mvregress는각반복에서covar0을변경없이가중행렬로사용합니다。

Y에대해추정할분산——공분산행렬유형으로,“covtype”과함께다음중하나가쉼표로구분되어지정됩니다。

“全部” 모든d (d + 1) / 2개의분산——공분산요소를추정합니다。
“对角线” 분산——공분산행렬의d개의대각선요소만추정합니다。

예:“covtype”、“对角线”

추정알고리즘에대한최대반복횟수로,“麦克斯特”과함께양의정수가쉼표로구분되어지정됩니다。

반복은추정값이수렴허용오차tolbetatolobj내에들어가거나麦克斯特로지정된최대반복횟수에도달할때까지계속됩니다。tolbetatolobj0인가모두경우mvregress는수렴검정없이麦克斯特회의반복을수행합니다。

예:“麦克斯特”,50岁

각반복에서평가할함수로,“outputfcn”과함께함수핸들이쉼표로구분되어지정됩니다。함수는논리값真正的또는를반환해야합니다。각반복에서mvregress는함수를평가합니다。결과가真正的인경우반복이중지됩니다。그렇지않은경우계속반복됩니다。예를들어,현재반복결과를플로팅하거나표시하고,图를닫는경우真正的를반환하는함수를지정할수있습니다。

함수는다음과같은순서로3개의입력인수를받아야합니다。

  • 현재계수추정값으로구성된벡터

  • 다음과같은3개의필드를포함하는구조체:

    柯伐合金 분산——공분산행렬의현재값
    迭代 현재반복횟수
    fval 로그가능도목적함수의현재값

  • 다음과같은3개의값을받는텍스트

    “init” 함수가초기화중에호출된경우
    “通路” 함수가하나의반복후에호출된경우
    “完成” 함수가완료후에호출된경우

회귀계수에대한수렴허용오차로,“tolbeta”와함께양의스칼라값이쉼표로구분되어지정됩니다。

b t 가반복t에서의계수벡터추정값을나타내고 τ β tolbeta로지정된허용오차라고하겠습니다。회귀계수추정에대한수렴조건은다음과같습니다。

b t b t 1 < τ β K 1 + b t

여기는서K b t 의길이이고 v 는벡터 v 의노름입니다。

반복은추정값이수렴허용오차tolbetatolobj내에들어가거나麦克斯特로지정된최대반복횟수에도달할때까지계속됩니다。tolbetatolobj0인가모두경우mvregress는수렴검정없이麦克斯特회의반복을수행합니다。

예:e-5 tolbeta, 1

로그가능도목적함수에대한수렴허용오차로,“tolobj”와함께양의스칼라값이쉼표로구분되어지정됩니다。

l t 이반복t에서의로그가능도목적함수값을나타내고 τ tolobj로지정된허용오차라고하겠습니다。목적함수의수렴조건은다음과같습니다。

| l t l t 1 | < τ 1 + | l t |

반복은추정값이수렴허용오차tolbetatolobj내에들어가거나麦克斯特로지정된최대반복횟수에도달할때까지계속됩니다。tolbetatolobj0인가모두경우mvregress는수렴검정없이麦克斯特회의반복을수행합니다。

예:e-5 tolobj, 1

모수추정분산——공분산행렬CovB에대한형식으로,“varformat”과함께다음중하나가쉼표로구분되어지정됩니다。

“β” 회귀계수추정값β에대해서만분산——공분산행렬을반환합니다。
“全部” 회귀계수추정값β와분산——공분산행렬추정값σ모두에대해분산——공분산행렬을반환합니다。

예:“varformat”,“全部”

모수추정을위한분산——공분산행렬유형으로,“vartype”과함께“海赛”또는“雪”가쉼표로구분되어지정됩니다。

  • 값이“海赛”인경우mvregress는헤세관(측된정보)행렬을사용하여CovB를계산합니다。

  • 값이“雪”인경우mvregress는전체데이터피셔(예상된정보)행렬을사용하여CovB를계산합니다。

“海赛”방법은누락데이터로인해증가한불확실성을고려하는반면“雪”방법은이를고려하지않습니다。

예:“vartype”、“费雪的

출력인수

모두축소

추정된회귀계수로,열벡터또는행렬로반환됩니다。

  • X를단일n×K설계행렬로지정할경우mvregressβK를길이가인열벡터로서반환합니다。예를들어,X가20×5설계행렬이면β는5×1열벡터입니다。

  • X를하나이상의d×K설계행렬을포함하는셀형배열로지정할경우mvregressβK를길이가인열벡터로서반환합니다。예를들어,X가2×10설계행렬을포함하는셀형배열이면β는10×1열벡터입니다。

  • X를(셀형배열에포함되지않은)단일n×p설계행렬로지정하고Y1 d의차원가보다클경우mvregressβ를p×d행렬로서반환합니다。예를들어,X가20×5설계행렬이고Y가d = 2로두개의차원을가지면β는5×2행렬이고피팅된Y값은X×β입니다。

Y에있는응답변수에대해추정된분산——공분산행렬로,d×d정사각행렬로반환됩니다。

참고

추정된분산——공분산행렬σ는잔차행렬E의표본공분산행렬이아닙니다。

피팅된회귀모델에대한잔차로,n×d행렬로반환됩니다。

算法의값이ecm的또는“cwls”일경우mvregressY에있는누락값에대응되는잔차값을조건부대치값과피팅된값사이의차이로계산합니다。

참고

算法의값이“mvn”인경우mvregress는추정전에누락응답변수값이있는관측값을제거합니다。

모수추정분산——공분산행렬로,정사각행렬로반환됩니다。

  • varformat의값이“β”(디폴트값)일경우CovBβ에있는계수추정값의분산——공분산행렬입니다。

  • varformat의값이“全部”일경우CovBβσ에있는결합된추정값의분산——공분산행렬입니다。

마지막반복후의로그가능도목적함수값으로,스칼라값으로반환됩니다。

세부정보

모두축소

다변량정규회귀

다변량정규회귀는예측변수의설계행렬을토대로한d차원응답변수의회귀로,정규분포된오차를갖습니다。오차는이분산성(异方差的)이고상관관계가있을수있습니다。

이모델은다음과같습니다。

y X β + e 1 ... n

여기서

  • y 는응답변수로구성차된d원벡터입니다。

  • X 는예측변수의설계행렬입니다。

  • β 는회귀계수로구성된벡터또는행렬입니다。

  • e 는오차항으로구성차된d원벡터로,다음과같은다변량정규분포를갖습니다。

    e V N d 0 Σ

조건부대치값

기대값/조건부최대화(ecm的)및공분산가중최소제곱(“cwls”)추정알고리즘은누락응답변수값을대치합니다。

y ˜ 가누락된관측값을나타낸다고하겠습니다。조건부대치값 Ε y ˜ | y 는관측된데이터를기반으로한누락된관측값의기대값입니다。

누락된응답변수와관측된응답변수의결합분포는다음과같은다변량정규분포입니다。

y ˜ y V N X ˜ β X β Σ y ˜ Σ y ˜ y Σ y y ˜ Σ y

조건부대치기대값을다변량정규분포의속성을사용하여다음식으로구할수있습니다。

Ε y ˜ | y X ˜ β + Σ y ˜ y Σ y 1 y X β

참고

mvregress는누락응답변수값만대치합니다。설계행렬에서누락값이있는관측값은제거됩니다。

참고문헌

[1] Little, Roderick J. A.和Donald B. Rubin。《缺失数据的统计分析》,第2版,霍博肯:约翰·威利父子公司,2002。

[2]孟,小李,唐纳德·鲁宾。“通过ECM算法的最大似然估计。”生物统计学。第80卷,第2期,1993年,267-278页。

塞克斯顿,乔,斯文森。《以EM速度收敛的ECM算法》。第87卷第3期,2000年,第651-662页。

登普斯特,a.p., n.m.莱尔德,D. B.鲁宾。“通过EM算法从不完整数据得到的最大似然”。皇家统计学会杂志。B系列,第39卷,第1期,1977年,第1 - 37页。

R2006b에개발됨