主要内容gydF4y2Ba

检验类别均值之间的差异gydF4y2Ba

这个例子展示了如何测试类别(组)之间的显著差异gydF4y2BatgydF4y2Ba-检验、双向方差分析(two-way ANOVA)和协方差分析(ancova)分析。gydF4y2Ba

确定一辆汽车每加仑的预期行驶里程是否取决于它的生产年代或生产地点。gydF4y2Ba

加载样例数据gydF4y2Ba

负载gydF4y2BacarsmallgydF4y2Ba独特的(Model_Year)gydF4y2Ba
ans =gydF4y2Ba3×1gydF4y2Ba70 76 82gydF4y2Ba

的变量gydF4y2Ba英里/加仑gydF4y2Ba有100辆汽车样本的每加仑英里数。的变量gydF4y2BaModel_YeargydF4y2Ba而且gydF4y2Ba起源gydF4y2Ba包含每辆车的型号年份和原产国。gydF4y2Ba

第一个有趣的因素是制造的十年。数据中有三个制造年份。gydF4y2Ba

为制造十年创造因素gydF4y2Ba

创建一个命名为gydF4y2Ba十年gydF4y2Ba通过合并多年来的观察gydF4y2Ba70gydF4y2Ba而且gydF4y2Ba76gydF4y2Ba归入一个标签为gydF4y2Ba1970年代gydF4y2Ba的观测结果gydF4y2Ba82gydF4y2Ba归入一个标签为gydF4y2Ba1980年代gydF4y2Ba.gydF4y2Ba

十年=离散化(Model_Year,[70 77 82],gydF4y2Ba...gydF4y2Ba“分类”gydF4y2Ba,[gydF4y2Ba“1970年代”gydF4y2Ba,gydF4y2Ba“1980年代”gydF4y2Ba]);类别(十年)gydF4y2Ba
ans =gydF4y2Ba2 x1细胞gydF4y2Ba{“1970年代”}{“1980年代”}gydF4y2Ba

按类别分组的图数据gydF4y2Ba

画一个以每加仑行驶英里数为单位的箱形图,按生产年代分组。gydF4y2Ba

箱线图(MPG,十年)标题(gydF4y2Ba每加仑英里数,按制造年代分组gydF4y2Ba)gydF4y2Ba

图中包含一个轴对象。标题为“每加仑英里数,按制造年代分组”的axis对象包含14个类型为line的对象。gydF4y2Ba

这个箱形图表明,20世纪80年代生产的汽车每加仑行驶的英里数比70年代生产的汽车要高。gydF4y2Ba

计算汇总统计信息gydF4y2Ba

计算每十年每加仑英里数的平均值和方差。gydF4y2Ba

[xbar,s2,grp] = grpstats(MPG,Decade,[gydF4y2Ba“的意思是”gydF4y2Ba,gydF4y2Ba“var”gydF4y2Ba,gydF4y2Ba“gname”gydF4y2Ba])gydF4y2Ba
xbar =gydF4y2Ba2×1gydF4y2Ba19.7857 - 31.7097gydF4y2Ba
s2 =gydF4y2Ba2×1gydF4y2Ba35.1429 - 29.0796gydF4y2Ba
grp =gydF4y2Ba2 x1细胞gydF4y2Ba{“1970年代”}{“1980年代”}gydF4y2Ba

这个输出表明,20世纪80年代每加仑汽油的平均行驶里程约为gydF4y2Ba31.71gydF4y2Ba,相比之下gydF4y2Ba19.79gydF4y2Ba20世纪70年代。两组的方差相似。gydF4y2Ba

进行两个示例gydF4y2BatgydF4y2Ba-相等组均值检验gydF4y2Ba

进行两个样本gydF4y2BatgydF4y2Ba-test,假设方差相等,以测试组均值之间的显著差异。假设是gydF4y2Ba

HgydF4y2Ba 0gydF4y2Ba :gydF4y2Ba μgydF4y2Ba 7gydF4y2Ba 0gydF4y2Ba =gydF4y2Ba μgydF4y2Ba 8gydF4y2Ba 0gydF4y2Ba HgydF4y2Ba 一个gydF4y2Ba :gydF4y2Ba μgydF4y2Ba 7gydF4y2Ba 0gydF4y2Ba ≠gydF4y2Ba μgydF4y2Ba 8gydF4y2Ba 0gydF4y2Ba .gydF4y2Ba

MPG70 = MPG(十年==gydF4y2Ba“1970年代”gydF4y2Ba);MPG80 = MPG(十年==gydF4y2Ba“1980年代”gydF4y2Ba);[h,p] = ttest2(MPG70,MPG80)gydF4y2Ba
H = 1gydF4y2Ba
P = 3.4809e-15gydF4y2Ba

逻辑值gydF4y2Ba1gydF4y2Ba表示原假设在默认的0.05显著性水平下被拒绝。测试的p值非常小。有足够的证据表明,20世纪80年代每加仑汽油的平均行驶里程与20世纪70年代的不同。gydF4y2Ba

创建制造地点因素gydF4y2Ba

第二个值得关注的因素是生产地点。首先,把gydF4y2Ba起源gydF4y2Ba到一个分类数组。gydF4y2Ba

Location = categorical(cellstr(Origin));汇总(位置)gydF4y2Ba
价值计算百分比法国4 4.00%德国9 9.00%意大利1 1.00%日本15 15.00%瑞典2 2.00%美国69 69.00%gydF4y2Ba

有六个不同的生产国家。欧洲国家的观察结果相对较少。gydF4y2Ba

合并的类别gydF4y2Ba

合并类别gydF4y2Ba法国gydF4y2Ba,gydF4y2Ba德国gydF4y2Ba,gydF4y2Ba意大利gydF4y2Ba,gydF4y2Ba瑞典gydF4y2Ba进入一个名为gydF4y2Ba欧洲gydF4y2Ba.gydF4y2Ba

位置= mergecats(位置,gydF4y2Ba...gydF4y2Ba[gydF4y2Ba“法国”gydF4y2Ba,gydF4y2Ba“德国”gydF4y2Ba,gydF4y2Ba“意大利”gydF4y2Ba,gydF4y2Ba“瑞典”gydF4y2Ba),gydF4y2Ba“欧洲”gydF4y2Ba);汇总(位置)gydF4y2Ba
价值计数百分比欧洲16 16.00%日本15 15.00%美国69 69.00%gydF4y2Ba

计算汇总统计信息gydF4y2Ba

计算每加仑汽油的平均里程,按生产地点分组。gydF4y2Ba

[meanMPG,locationGroup] = grpstats(MPG,Location,[gydF4y2Ba“的意思是”gydF4y2Ba,gydF4y2Ba“gname”gydF4y2Ba])gydF4y2Ba
meanMPG =gydF4y2Ba3×1gydF4y2Ba26.6667 31.8000 21.1328gydF4y2Ba
locationGroup =gydF4y2Ba3 x1细胞gydF4y2Ba{'欧洲'}{'日本'}{'美国'}gydF4y2Ba

这一结果表明,在美国生产的汽车样本中,每加仑汽油的平均行驶里程最低gydF4y2Ba

双向方差分析gydF4y2Ba

进行双向方差分析,以测试各因素水平之间的每加仑预期英里数的差异gydF4y2Ba十年gydF4y2Ba而且gydF4y2Ba位置gydF4y2Ba.gydF4y2Ba

统计模型为gydF4y2Ba

米gydF4y2Ba PgydF4y2Ba GgydF4y2Ba 我gydF4y2Ba jgydF4y2Ba =gydF4y2Ba μgydF4y2Ba +gydF4y2Ba αgydF4y2Ba 我gydF4y2Ba +gydF4y2Ba βgydF4y2Ba jgydF4y2Ba +gydF4y2Ba ϵgydF4y2Ba 我gydF4y2Ba jgydF4y2Ba ,gydF4y2Ba 我gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba 2gydF4y2Ba ;gydF4y2Ba jgydF4y2Ba =gydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba 2gydF4y2Ba ,gydF4y2Ba 3.gydF4y2Ba ,gydF4y2Ba

在哪里gydF4y2Ba 米gydF4y2Ba PgydF4y2Ba GgydF4y2Ba 我gydF4y2Ba jgydF4y2Ba 每加仑英里数,是10年生产的汽车的反应吗gydF4y2Ba 我gydF4y2Ba 在位置gydF4y2Ba jgydF4y2Ba .第一个因素的处理效果,生产的十年,是gydF4y2Ba αgydF4y2Ba 我gydF4y2Ba Terms(约束求和为零)。第二个因素,生产地点的处理效果是gydF4y2Ba βgydF4y2Ba jgydF4y2Ba Terms(约束求和为零)。的gydF4y2Ba ϵgydF4y2Ba 我gydF4y2Ba jgydF4y2Ba 是不相关的正态分布噪声项。gydF4y2Ba

要检验的假设是十年效应相等,gydF4y2Ba

HgydF4y2Ba 0gydF4y2Ba :gydF4y2Ba αgydF4y2Ba 1gydF4y2Ba =gydF4y2Ba αgydF4y2Ba 2gydF4y2Ba =gydF4y2Ba 0gydF4y2Ba HgydF4y2Ba 一个gydF4y2Ba :gydF4y2Ba 一个gydF4y2Ba tgydF4y2Ba lgydF4y2Ba egydF4y2Ba 一个gydF4y2Ba 年代gydF4y2Ba tgydF4y2Ba ogydF4y2Ba ngydF4y2Ba egydF4y2Ba αgydF4y2Ba 我gydF4y2Ba ≠gydF4y2Ba 0gydF4y2Ba ,gydF4y2Ba

以及位置效应的相等性,gydF4y2Ba

HgydF4y2Ba 0gydF4y2Ba :gydF4y2Ba βgydF4y2Ba 1gydF4y2Ba =gydF4y2Ba βgydF4y2Ba 2gydF4y2Ba =gydF4y2Ba βgydF4y2Ba 3.gydF4y2Ba =gydF4y2Ba 0gydF4y2Ba HgydF4y2Ba 一个gydF4y2Ba :gydF4y2Ba 一个gydF4y2Ba tgydF4y2Ba lgydF4y2Ba egydF4y2Ba 一个gydF4y2Ba 年代gydF4y2Ba tgydF4y2Ba ogydF4y2Ba ngydF4y2Ba egydF4y2Ba βgydF4y2Ba jgydF4y2Ba ≠gydF4y2Ba 0gydF4y2Ba .gydF4y2Ba

你可以使用gydF4y2BaanovangydF4y2Ba.gydF4y2Ba

anovan (MPG}{十年,位置,gydF4y2Ba...gydF4y2Ba“Varnames”gydF4y2Ba,[gydF4y2Ba“十年”gydF4y2Ba,gydF4y2Ba“位置”gydF4y2Ba]);gydF4y2Ba

{

这个输出显示了双向方差分析的结果。检验十年效应相等性的p值为gydF4y2Ba2.88503 e-18gydF4y2Ba,因此原假设在0.05显著性水平下被拒绝。检验位置效应相等性的p值为gydF4y2Ba7.40416平台以及gydF4y2Ba,所以这个零假设也被拒绝。gydF4y2Ba

进行ANOCOVA分析gydF4y2Ba

在这一分析中,一个潜在的混杂因素是汽车重量。重量越大的汽车耗油量就越低。包括变量gydF4y2Ba重量gydF4y2Ba作为方差分析中的连续协变量;也就是说,进行ANOCOVA分析。gydF4y2Ba

假设有平行线,统计模型为gydF4y2Ba

米gydF4y2Ba PgydF4y2Ba GgydF4y2Ba 我gydF4y2Ba jgydF4y2Ba kgydF4y2Ba =gydF4y2Ba μgydF4y2Ba +gydF4y2Ba αgydF4y2Ba 我gydF4y2Ba +gydF4y2Ba βgydF4y2Ba jgydF4y2Ba +gydF4y2Ba γgydF4y2Ba WgydF4y2Ba egydF4y2Ba 我gydF4y2Ba ggydF4y2Ba hgydF4y2Ba tgydF4y2Ba 我gydF4y2Ba jgydF4y2Ba kgydF4y2Ba +gydF4y2Ba ϵgydF4y2Ba 我gydF4y2Ba jgydF4y2Ba kgydF4y2Ba ,gydF4y2Ba 我gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba 2gydF4y2Ba ;gydF4y2Ba jgydF4y2Ba =gydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba 2gydF4y2Ba ,gydF4y2Ba 3.gydF4y2Ba ;gydF4y2Ba kgydF4y2Ba =gydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba .gydF4y2Ba .gydF4y2Ba .gydF4y2Ba ,gydF4y2Ba 1gydF4y2Ba 0gydF4y2Ba 0gydF4y2Ba .gydF4y2Ba

该模型与双向方差分析模型的区别在于包含了连续预测因子gydF4y2Ba WgydF4y2Ba egydF4y2Ba 我gydF4y2Ba ggydF4y2Ba hgydF4y2Ba tgydF4y2Ba 我gydF4y2Ba jgydF4y2Ba kgydF4y2Ba 的权重gydF4y2Ba kgydF4y2Ba 这辆车是在gydF4y2Ba 我gydF4y2Ba 10年和20世纪gydF4y2Ba jgydF4y2Ba 位置。斜率参数为gydF4y2Ba γgydF4y2Ba .gydF4y2Ba

将连续协变量作为第三组添加到第二组中gydF4y2BaanovangydF4y2Ba输入参数。使用gydF4y2Ba连续gydF4y2Ba参数来指定gydF4y2Ba重量gydF4y2Ba(第三组)是连续的gydF4y2Ba

anovan (MPG,{十年、位置、重量},gydF4y2Ba“连续”gydF4y2Ba3,gydF4y2Ba...gydF4y2Ba“Varnames”gydF4y2Ba,[gydF4y2Ba“十年”gydF4y2Ba,gydF4y2Ba“位置”gydF4y2Ba,gydF4y2Ba“重量”gydF4y2Ba]);gydF4y2Ba

{

该输出表明,当考虑汽车重量时,没有足够的证据表明制造地点效应(p-value =gydF4y2Ba0.1044gydF4y2Ba).gydF4y2Ba

使用互动工具gydF4y2Ba

你可以使用交互式gydF4y2BaaoctoolgydF4y2Ba探究这个结果。该命令打开三个对话框。gydF4y2Ba

aoctool(重量、MPG、位置);gydF4y2Ba

{

{

{

在ANOCOVA预测图对话框中,选择gydF4y2Ba单独的意思gydF4y2Ba模型。gydF4y2Ba

anocova-separate-means.pnggydF4y2Ba

此输出显示当您不包含gydF4y2Ba重量gydF4y2Ba在模型中,三个生产地在每加仑汽油的预期英里数上存在相当大的差异。请注意,这里的模型没有针对制造业的十年进行调整。gydF4y2Ba

现在,选择gydF4y2Ba平行线gydF4y2Ba模型。gydF4y2Ba

anocova-parallel-lines.pnggydF4y2Ba

当你把gydF4y2Ba重量gydF4y2Ba在该模型中,三个生产地在每加仑汽油的预期英里数上的差异要小得多。gydF4y2Ba

另请参阅gydF4y2Ba

|gydF4y2Ba|gydF4y2Ba|gydF4y2Ba|gydF4y2Ba|gydF4y2Ba

相关的话题gydF4y2Ba