主要内容

mvregress

多元线性回归

描述

实例

β= mvregress (X,Y)返回一个参数的估计系数多元正态回归D维反应Y在设计矩阵中X

实例

β= mvregress (X,Y,名称,值)使用由一个或多个名称-值对参数指定的附加选项返回估计的系数。例如,您可以为回归指定估计算法、初始估计值或最大迭代次数。

实例

[β,σ) = mvregress (___)也返回估计的D——- - - - - -D方差协方差矩阵Y,使用前面语法中的任何输入参数。

实例

[β,σ,E,冠状病毒,logL) = mvregress (___)也返回残差矩阵E,估计回归系数的方差-协方差矩阵冠状病毒,最后一次迭代后的对数似然目标函数值logL

例子

全部折叠

拟合多元回归模型的面板数据,假设不同截距和共同的斜率。

加载示例数据。

负载(“流感”)

数据集的数组流行性感冒包含国家疾控中心流感估计,以及9个独立的区域估计,基于谷歌®查询数据。

提取响应和预测数据。

Y=double(flu(:,2:end-1));[n,d]=size(Y);x=flu.WtdILI;

中的回应Y这是九个地区流感估计数。在一年内每周都有观察,所以 N = 52。响应的维度对应于区域,所以 D = 9。的预测因素x是每周全国流感估计数。

绘制流感数据,按地区分组。

图;regions=flu.Properties.VarNames(2:end-1);plot(x,Y,“x”)传说(地区,“位置”,“西北”)

图中包含一个轴对象。axis对象包含9个类型为line的对象。这些对象代表NE, MidAtl, central, WNCentral, SAtl, ESCentral, wcentral, Mtn, Pac。

拟合多元回归模型 Y J = α J + β x J + ϵ J ,在那里 = 1. , , N J = 1. , , D ,区域间并行相关 C O v ( ϵ J , ϵ J ) = σ J J

K =10要估计的回归系数:九个截距项和一个公共斜率。输入参数X应该是一个 N -element cell数组 D ——- - - - - - K 设计矩阵。

X =细胞(n, 1);对于i = 1:n X{i} = [eye(d) repmat(X (i),d,1)];终止(β,σ)= mvregress (X, Y);

β包含 K -维数系数向量 ( α 1. , α 2. , , α 9 , β )

σ包含 D ——- - - - - - D 方差协方差矩阵 ( σ J ) D × D , , J = 1. , , D 用于区域间并发相关性。

绘制拟合的回归模型。

B =[β(1:d); repmat(β(结束),1 d)];xx = linspace (5, 3.5);适合=[(大小(xx)), xx] * B;图;h =情节(x, Y,“x”xx,适合'-');对于I = 1:d集合(h(d+ I))“颜色”get (h(我),“颜色”));终止传奇(地区,“位置”,“西北”);

图中包含一个轴对象。axis对象包含18个类型为line的对象。这些对象代表NE, MidAtl, central, WNCentral, SAtl, ESCentral, wcentral, Mtn, Pac。

图中显示,每条回归线的截距不同,但斜率相同。通过目视检查,一些回归线似乎比其他回归线更适合数据。

假设截距和斜率不同,使用最小二乘法将多元回归模型拟合到面板数据。

加载示例数据。

负载(“流感”);

数据集的数组流行性感冒包含国家疾病预防控制中心的流感估计,以及9个独立的区域估计基于谷歌®查询。

提取响应和预测数据。

Y=double(flu(:,2:end-1));[n,d]=size(Y);x=flu.WtdILI;

中的回应Y这是九个地区流感估计数。在一年内每周都有观察,所以 N = 52。响应的维度对应于区域,所以 D = 9。的预测因素x是每周全国流感估计数。

拟合多元回归模型 Y J = α J + β J x J + ϵ J ,在那里 = 1. , , N J = 1. , , D ,区域间并行相关 C O v ( ϵ J , ϵ J ) = σ J J

K =18要估计的回归系数:九个截距项和九个斜率项。X是一个 N -element cell数组 D ——- - - - - - K 设计矩阵。

X =细胞(n, 1);对于i=1:nx{i}=[眼睛(d)X(i)*眼睛(d)];终止(β,σ)= mvregress (X, Y,“算法”,“cwls”);

β包含 K -维数系数向量 ( α 1. , α 2. , , α 9 , β 1. , β 2. , , β 9 )

绘制拟合的回归模型。

B=[beta(1:d)';beta(d+1:end)';xx=linspace(.5,3.5)';fits=[one(size(xx)),xx]*B;图;h=plot(x,Y,“x”xx,适合'-');对于I = 1:d集合(h(d+ I))“颜色”get (h(我),“颜色”));终止regions=flu.Properties.VarNames(2:end-1);图例(regions,“位置”,“西北”);

图中包含一个轴对象。axis对象包含18个类型为line的对象。这些对象代表NE, MidAtl, central, WNCentral, SAtl, ESCentral, wcentral, Mtn, Pac。

该图显示,每条回归线有不同的截距和斜率。

拟合多元回归模型使用单一 N ——- - - - - - P 所有响应维度的设计矩阵。

加载示例数据。

负载(“流感”)

数据集的数组流行性感冒包含国家疾病预防控制中心的流感估计,以及9个独立的区域估计基于谷歌®查询。

提取响应和预测数据。

Y=double(flu(:,2:end-1));[n,d]=size(Y);x=flu.WtdILI;

中的回应Y这是九个地区流感估计数。在一年内每周都有观察,所以 N = 52。响应的维度对应于区域,所以 D = 9。的预测因素x是每周全国流感估计数。

创建一个 N ——- - - - - - P 设计矩阵X.添加一列“1”以在回归中包含常数项。

X =[(大小(X)), X);

拟合多元回归模型

Y J = α J + β J x J + ϵ J ,

在哪里 = 1. , , N J = 1. , , D ,区域间并行相关

C O v ( ϵ J , ϵ J ) = σ J J

有18个回归系数需要估计:9个截距项和9个斜率项。

[β,σ,E, CovB logL] = mvregress (X, Y);

β包含 P ——- - - - - - D 系数矩阵。σ包含 D ——- - - - - - D 区域间并发相关性的方差-协方差矩阵。E是残差矩阵。冠状病毒为回归系数的估计方差-协方差矩阵。logL为最后一次迭代后对数似然目标函数的值。

绘制拟合的回归模型。

B =β;xx = linspace (5, 3.5);适合=[(大小(xx)), xx] * B;图h = plot(x,Y,“x”xx,适合'-');对于I = 1:d集合(h(d+ I))“颜色”get (h(我),“颜色”))终止regions=flu.Properties.VarNames(2:end-1);图例(regions,“位置”,“西北”)

图中包含一个轴对象。axis对象包含18个类型为line的对象。这些对象代表NE, MidAtl, central, WNCentral, SAtl, ESCentral, wcentral, Mtn, Pac。

该图显示,每条回归线有不同的截距和斜率。

输入参数

全部折叠

为多元回归设计矩阵,指定为矩阵或矩阵单元阵列。N为数据中观测的次数,K是要估计的回归系数的数目,P是预测变量的数量,和D是响应变量矩阵中的维数Y

  • 如果D= 1,然后指定X作为一个单独的N——- - - - - -K设计矩阵。

  • 如果D> 1和全部D尺寸有相同的设计矩阵,然后你可以指定X作为一个单独的N——- - - - - -P设计矩阵(不在单元格数组中)。

  • 如果D> 1和全部N观察有相同的设计矩阵,然后你可以指定X作为包含单个D——- - - - - -K设计矩阵。

  • 如果D> 1和全部N观察结果没有相同的设计矩阵,则说明X作为长度的单元格数组N包含D——- - - - - -K设计矩阵。

要在回归模型中包含一个常数项,每个设计矩阵应该包含一列1。

mvregress对待X作为缺少的值,并忽略行X缺少值。

数据类型:||细胞

响应变量,指定为N——- - - - - -D矩阵。N是数据中观察到的次数,和D是响应的维度数。当D= 1,mvregress处理Y就像N独立的响应值。

mvregress对待Y作为缺失值,并根据使用名称-值对参数指定的估计算法处理它们算法

数据类型:|

名称值参数

指定可选的逗号分隔的字符对名称,值参数。的名字是参数名和价值为对应值。的名字必须出现在引号内。可以以任意顺序指定多个名称和值对参数Name1, Value1,…,的家

例子:“算法”、“cwls’,‘covar0’,C使用协方差矩阵指定协方差加权最小二乘估计C

估计算法,指定为逗号分隔对组成“算法”和下面的一个。

“mvn” 普通多元正态最大似然估计。
ecm的 通过ECM算法进行最大似然估计。
“cwls” 协方差加权最小二乘估计。

默认算法取决于缺失数据的存在。

  • 对于完整数据,默认值为“mvn”

  • 如果有任何缺少的响应(由),默认为ecm的,前提是样本量足以估计所有参数。否则,默认算法为“cwls”

笔记

如果算法有价值“mvn”然后mvregress在估计之前移除缺少响应值的观察值。

例子:“算法”、“ecm的

初始估计的回归系数,指定为逗号分隔对组成“beta0”一个向量K元素。默认值是一个0的向量。

这个beta0参数不使用,如果估计算法“mvn”

方差-协方差矩阵的初始估计,σ,指定为逗号分隔的对,由“covar0”对称的正定的,D——- - - - - -D矩阵。默认值是单位矩阵。

如果估计算法“cwls”然后mvregress使用covar0为每次迭代的加权矩阵,而不改变它。

估计的方差-协方差矩阵的类型Y,指定为逗号分隔的对,由“covtype”和下面的一个。

“全部” 估计所有D(D+ 1)/2方差-协方差元素。
“对角线” 估计只有D方差-协方差矩阵的对角元素。

例子:“covtype”,“对角线”

估计算法的最大迭代次数,指定为逗号分隔对,由“麦克斯特”一个正整数。

迭代继续,直到估计在收敛容忍范围内tolbetatolobj或指定的最大迭代次数马克西特是达到了。如果两个tolbetatolobj是0,那么mvregress表演马克西特没有收敛测试的迭代。

例子:“麦克斯特”,50岁

函数在每次迭代时求值,指定为逗号分隔对,由“outputfcn”和一个函数句柄。函数必须返回一个逻辑真正的错误的.在每一次迭代,mvregress评估函数。如果结果是真正的,迭代停止。否则,迭代继续。例如,您可以指定一个绘图或显示当前迭代结果并返回的函数真正的如果你关闭这个数字。

该函数必须接受三个输入参数,顺序如下:

  • 电流系数估计向量

  • 包含这三个字段的结构:

    科瓦尔 方差-协方差矩阵的当前值
    迭代 当前迭代次数
    未来值 对数似然目标函数的当前值

  • 采用以下三个值的文本:

    “init” 当函数在初始化期间被调用时
    “国际热核实验堆” 在迭代后调用函数时
    “完成” 当函数在完成后被调用时

回归系数的收敛公差,指定为逗号分隔对,包括“托尔贝塔”和一个正标量值。

B T 表示迭代时系数向量的估计T, τ β 公差为tolbeta.回归系数估计的收敛准则为

B T B T 1. < τ β K ( 1. + B T ) ,

在哪里K长度是多少 B T v 向量的范数是多少 v

迭代继续,直到估计在收敛容忍范围内tolbetatolobj或指定的最大迭代次数马克西特是达到了。如果两个tolbetatolobj是0,那么mvregress表演马克西特没有收敛测试的迭代。

例子:e-5 tolbeta, 1

对数似然目标函数的收敛容差,指定为逗号分隔对由“tolobj”和一个正标量值。

L T 表示迭代时对数似然目标函数的值T, τ 公差为tolobj.目标函数的收敛标准为

| L T L T 1. | < τ ( 1. + | L T | )

迭代继续,直到估计在收敛容忍范围内tolbetatolobj或指定的最大迭代次数马克西特是达到了。如果两个tolbetatolobj是0,那么mvregress表演马克西特没有收敛测试的迭代。

例子:e-5 tolobj, 1

参数估计方差协方差矩阵的格式,冠状病毒,指定为逗号分隔的对,由“varformat”和下面的一个。

“贝塔” 只返回回归系数估计的方差-协方差矩阵,β
“全部” 返回两个回归系数估计值的方差-协方差矩阵,β,方差-协方差矩阵估计,σ

例子:“varformat”,“全部”

参数估计的方差-协方差矩阵的类型,指定为逗号分隔对,由“vartype”,要么“黑森”“费舍尔”

  • 如果值为“黑森”然后mvregress使用Hessian矩阵,或观察到的信息来计算冠状病毒

  • 如果值为“费舍尔”然后mvregress使用完整的数据或预期信息矩阵进行计算冠状病毒

这个“黑森”方法考虑了由于缺失数据而增加的不确定性,而“费舍尔”方法不。

例子:“vartype”、“费雪的

输出参数

全部折叠

估计的回归系数,返回为列向量或矩阵。

  • 如果您指定X作为一个单独的N——- - - - - -K设计矩阵,然后mvregress返回β作为一个长度的列向量K.例如,如果X是一个20乘5的设计矩阵吗β是一个5 × 1的列向量。

  • 如果您指定X作为包含一个或多个的单元格数组D——- - - - - -K设计矩阵,然后mvregress返回β作为一个长度的列向量K.例如,如果X那么,单元阵列是否包含2 × 10的设计矩阵呢β是一个10 × 1的列向量。

  • 如果您指定X作为一个单独的N——- - - - - -P设计矩阵(不在单元格数组中),和Y有尺寸D> 1,那么mvregress返回β作为一个P——- - - - - -D矩阵。例如,如果X是一个20乘5的设计矩阵吗Y有两个维度使得D= 2,然后β是一个5乘2的矩阵吗Y价值观是X×β

中响应的估计方差-协方差矩阵Y,以D——- - - - - -D方阵。

笔记

估计方差-协方差矩阵,σ,不是残差矩阵的样本协方差矩阵,E

拟合回归模型的残差,作为N——- - - - - -D矩阵。

如果算法有价值ecm的“cwls”然后mvregress计算与中缺失值对应的残值Y作为两者的区别有条件地估算值以及拟合值。

笔记

如果算法有价值“mvn”然后mvregress在估计之前移除缺少响应值的观察值。

参数估计方差-协方差矩阵,返回为方阵。

  • 如果varformat有价值“贝塔”(默认)冠状病毒系数估计的方差-协方差矩阵在吗β

  • 如果varformat有价值“全部”然后冠状病毒是中组合估计的估计方差协方差矩阵βσ

最后一次迭代后的对数似然目标函数值,作为标量值返回。

更多关于

全部折叠

多元正态回归

多元正态回归是一元回归D具有正态分布误差的预测变量设计矩阵上的-维响应。误差可以是异方差的和相关的。

模型是

Y = X β + E , = 1. , , N ,

在哪里

  • Y 是一个D-响应的维度向量。

  • X 是预测变量的设计矩阵。

  • β 为回归系数的向量或矩阵。

  • E 是一个D误差项的维向量,具有多元正态分布

    E ~ M v N D ( 0 , Σ )

条件插补值

期望/条件最大化(ecm的)及协方差加权最小二乘(“cwls”)估计算法包括缺失响应值的插补。

Y ˜ 表示失踪的观察。条件输入值是给定观测数据的缺失观测值的期望值, Ε ( Y ˜ | Y )

缺失响应和观测响应的联合分布为多元正态分布,

( Y ˜ Y ) ~ M v N { ( X ˜ β X β ) , ( Σ Y ˜ Σ Y ˜ Y Σ Y Y ˜ Σ Y ) }

利用多元正态分布的性质,导出条件期望

Ε ( Y ˜ | Y ) = X ˜ β + Σ Y ˜ Y Σ Y 1. ( Y X β )

笔记

mvregress仅估算缺失响应值。删除设计矩阵中缺失值的观测值。

参考文献

[1] Little, Roderick J. A.和Donald B. Rubin。缺失数据的统计分析第二版,新泽西州霍博肯:约翰·威利父子公司,2002年。

[2]孟,小李,唐纳德·鲁宾。“通过ECM算法的最大似然估计。”生物统计学.第80卷,第2期,1993年,267-278页。

塞克斯顿,乔,斯文森。"以电磁速率收敛的电子对抗算法"生物统计学.第87卷第3期,2000年,第651-662页。

登普斯特,a.p., n.m.莱尔德,D. B.鲁宾。“通过EM算法从不完整数据得到的最大似然”。皇家统计学会杂志.B系列,第39卷,第1期,1977年,第1 - 37页。

在R2006b中引入