主要内容

GRPSTATS.

按组组织的汇总统计

描述

例子

statarray= grpstats(TBL.groupvar返回表或数据集数组,其中包含指定的数据组的手段TBL.由分组变量或中指定的变量的值确定groupvar

  • 如果有一个单独的分组变量,那么就有一行statarray对于分组变量的每个值。GRPSTATS.通过出现的顺序进行排序的组(如果分组变量是一个字符向量或标量串),在上升的数字顺序(如果该分组变量是数字),或在水平的订单(如果分组变量是分类)。

  • 如果groupvar一个字符向量的字符串数组或单元格数组包含多个分组变量名,或一个列号的向量,然后在statarray对于每一个观察到的分组变量值的唯一组合。GRPSTATS.排序由所述第一分组变量的值,则该第二分组的变量,等等的基团。

  • 如果有变量TBL.(不包括groupvar)不是数字或逻辑阵列,那么您必须指定要使用名称值对参数计算手段的数字和逻辑变量的名称或列编号,Datavars.

例子

statarray= grpstats(TBL.groupvarwhichstats中指定的摘要统计信息类型的组值whichstats

例子

statarray= grpstats(TBL.groupvarwhichstats名称,价值使用由一个或多个指定的附加选项名称,价值对论点。

例子

方法= grpstats(X团体使用矩阵或向量中的数据组的手段返回列向量或矩阵X由分组变量或变量的值来确定,团体.行的行方法对应于分组变量值。

  • 如果有一个单独的分组变量,那么就有一行方法对于分组变量的每个值。GRPSTATS.通过出现的顺序进行排序的组(如果分组变量是一个字符向量或标量串),在上升的数字顺序(如果该分组变量是数字),或在水平的订单(如果分组变量是分类)。

  • 如果团体是一个字符串数组或单元格数组的分组变量,然后有一行在方法对于每一个观察到的分组变量值的唯一组合。GRPSTATS.排序由所述第一分组变量的值,则该第二分组的变量,等等的基团。

  • 如果X是一个矩阵,然后方法是一个具有相同数量的列的矩阵X.每列方法对应列的组是否表示X

例子

stats1,...,statsn] = grpstats(X团体whichstats返回列向量或包含组值的列向量或数组,以获取规定的摘要统计类型whichstats

例子

stats1,...,statsn] = grpstats(X团体whichstats,'Α',α指定置信度和预测区间的显著性级别。

例子

grpstats(X团体α在向量或矩阵中绘制数据组的平均值X由分组变量的值决定,团体.分组变量值在横轴上。每组均值为100×(1 -α)% 置信区间。

  • 如果X是一个矩阵,然后GRPSTATS.图表的每个塔中的装置和置信区间X

  • 如果团体是分组变量的单元格数组吗GRPSTATS.图中各组数据的均值和置信区间X通过分组变量的值的唯一组合确定。例如,如果有两个分组变量,每个具有两个值,有分组变量值的四种可能的组合。该图仅包括存在于输入分组变量(不是所有可能的组合)的值的组合。

例子

全部收缩

加载样本数据。

加载(“医院”

数据集数组医院有100个观察结果和7个变量。

仅使用变量创建数据集数组年龄重量, 和吸烟者

dsa =医院(:,{“性”'年龄''重量'“吸烟者”});

是一个标称阵列,水平男性.变量年龄重量有数值,和吸烟者具有逻辑值。

计算数值和逻辑数组的平均值,年龄重量, 和吸烟者,通过在水平分组

statarray = grpstats(DSA,“性”
statarray =性别GroupCount mean_Age mean_Weight mean_Smoker女女53 37.717 130.47 0.24528男男47 38.915 180.53 0.44681

statarray一个有两行的数据集数组,对应于GroupCount为每组观测的次数。的手段年龄重量, 和吸烟者分组,,给出mean_Agemean_Weight, 和mean_Smoker

计算的平均值年龄重量,由价值观分组吸烟者

statarray = grpstats(DSA,“吸烟者”'意思''DataVars',{'年龄''重量'})
statarray =吸烟者GroupCount mean_Age mean_Weight 0 false 66 37.97 149.91 1 true 34 38.882 161.94

在这种情况下,不是所有的变量DSA.(不包括分组变量,吸烟者)为数字或逻辑数组;的变量是标称阵列。当输入数据集数组中不是所有的变量是数字或逻辑阵列,您必须指定您使用要计算汇总统计变量Datavars.

计算最小和最大权重,按中值的组合分组吸烟者

statarray = grpstats (dsa) {“性”“吸烟者”},{“最小值”'最大限度'},...'DataVars''重量'
statarray = Sex吸烟者GroupCount min_Weight max_Weight Female_0 Female false 40 111 147 Female_1 Female true 13 115 146 Male_0 Male false 26 158 194 Male_1 Male true 21 164 202

有两个独特的值吸烟者和两个层面,共有四种可能的值组合:女性非吸烟者(Female_0)女性吸烟者(Female_1),男性非吸烟者(Male_0)及男性吸烟者(Male_1)。

指定输出中的列的名称。

statarray = grpstats (dsa) {“性”“吸烟者”},{“最小值”'最大限度'},...'DataVars''重量'“VarNames”,{“性别”“吸烟者”...“GroupCount”'低级''最高款'})
Statarray =性别吸烟者Groupcount oboutweight最高款女性_0女性假40 111 147女性_1女性True 13 115 146 Male_0男性假26 158 194 Male_1男性True 21 164 202

加载样本数据。

加载(“医院”

数据集数组医院有100个观察结果和7个变量。

仅使用变量创建数据集数组年龄重量, 和吸烟者

dsa =医院(:,{'年龄''重量'“吸烟者”});

变量年龄重量有数值,和吸烟者具有逻辑值。

计算数值和逻辑数组的平均值、最小值和最大值,年龄重量, 和吸烟者,没有分组。

statarray = grpstats(DSA,[],{'意思'“最小值”'最大限度'})
statarray = GroupCount mean_Age MIN_AGE MAX_AGE mean_Weight所有100 38.28 25 50 154 min_Weight max_Weight mean_Smoker min_Smoker max_Smoker全部111 202 0.34假真

观察名全部表示所有的观测值DSA.用于计算汇总统计。

加载样本数据。

加载(“carsmall”

所有的变量都可供100辆汽车进行测量。起源是每辆车的原产国(法国、德国、意大利、日本、瑞典或美国)。气缸有三个独特的价值,46, 和8指示在每节车厢的气缸数。

计算平均加速度,按原产国分组。

手段= GRPSTATS(加速,起源)
手段=6×114.4377 18.0500 15.8867 16.3778 16.6000 15.5000

方法是一个6×1矢量的平均加速度,其中每个值对应于原籍国。

计算平均值的加速度,由产地和气缸数的两个国家进行分组。

手段= GRPSTATS(加速,{OUSING,CYLINDERS})
手段=10×117.0818 16.5267 11.6406 18.0500 15.9143 15.5000 16.3375 16.7000 16.6000 15.5000

分组变量值有18种可能的组合,因为起源具有6个唯一值和气缸有3个独特的价值观。只有可能的组合10出现在数据,所以方法是对应于值的观察到的组合组装置的10×1向量。

返回组名称与各组的平均加速度一起。

[意味着,毛评点]= grpstats(加速度,{起源、汽缸},{'意思'“gname”})
手段=10×117.0818 16.5267 11.6406 18.0500 15.9143 15.5000 16.3375 16.7000 16.6000 15.5000
毛评点=10 x2细胞{'USA'} {'4'} {'6'} {'6'} {'美国'} {'8'} {'8'} {'france'} {'4'} {'4'} {'4'} {'4'} {'4'} {'4'} {'4'}{'日本'} {'6'} {'德国'} {'4'} {'德国'} {'6'} {'6'} {'瑞典'} {'瑞典'} {'4'} {'4'} {'Italy'} {'4'}

输出毛评点显示10观察到的分组变量值的组合。例如,法国制造的4缸车的平均加速度为18.05。

加载样本数据。

负载carsmall

的变量加速测量了100辆汽车。的变量起源是每辆车的原产国(法国、德国、意大利、日本、瑞典或美国)。

返回原籍国分组的最小和最大加速度。

(grpMin、grpMax grp) = grpstats(加速度,起源,{“最小值”'最大限度'“gname”})
grpMin =6×18.0000 15.3000 13.9000 12.2000 15.7000 15.5000
grpmax =6×122.2000 21.9000 18.2000 24.6000 17.5000 15.5000
GRP =6x1细胞{'美国'}{“法国”}{‘日本’}{“德国”}{“瑞典”}{“意大利”}

具有最低加速度的样品汽车在美国制造,并在德国制造具有最高加速的样品。

加载样本数据。

加载(“carsmall”

的变量重量测量了100辆汽车。的变量model_year.有三个独特的价值,7076, 和82,对应于模型1970年,1976年,和1982年。

计算每个模型年的平均重量和90%的预测间隔。

[装置,预解码值,GRP] = grpstats(重量,Model_Year,...'意思''predci'“gname”},'Α', 0.1);

情节误差线显示平均体重和90%的预测区间,在品牌年度区分。与组名称标记水平轴。

ngrps =长度(grp);%组数errorbar((1:ngrps)”,手段,预解码值(:,2)-means)XLIM([0.5 3.5])组(GCA,'XTICK',1:ngrps,'xticklabel'、grp)标题(“按年预测90%的重量区间”

加载样本数据。

加载(“carsmall”

变量加速重量为100辆汽车的加速度和重量值。的变量气缸在每节车厢的气缸数。的变量model_year.有三个独特的价值,7076, 和82,对应于模型1970年,1976年,和1982年。

绘图均值加速度,分组气缸, 95%置信区间。

grpstats(加速、气缸、0.05)

ans =.3×116.6706 16.4765 11.6406

8缸汽车的平均加速度明显低于4或6缸汽车。

绘制平均加速度和重量,分组气缸, 95%置信区间。规模的重量值乘以1000的平均值重量加速都是相同的数量级。

GRPSTATS([加速,重量/ 1000],圆柱,0.05)

ans =.3×216.6706 2.3726 16.4765 3.1255 11.6406 3.9703

汽车的平均重量随汽缸的数量而增加,并且平均加速度随汽缸的数量而降低。

绘图均值加速度,由两者分组气缸model_year..指定95%置信区间。

GRPSTATS(加速,{缸,MODEM_YEAR},0.05)

ans =.8×116.1875 16.8667 16.7036 15.5000 17.0000 16.0333 11.0217 13.2222

变量值分组有9种可能的组合,因为在气缸和三个独特的价值model_year..图中没有显示8缸车型为1982年的汽车,因为数据中没有包括这一组合。

1976年制造的8缸车的平均加速度明显大于1970年制造的8缸车的平均加速度。

输入参数

全部收缩

输入数据,指定为表或数据集数组。TBL.必须包含至少一个是分组变量的变量。

概述统计信息只能计算具有数字或逻辑数据类型的变量。如果有变量TBL.(除分组变量)不是数字或逻辑阵列,然后用名称 - 值对参数Datavars.指定名称或数字的列数,并要计算汇总统计逻辑变量。

输入数据中的分组变量的标识符,TBL.,指定为下列其中之一:

字符向量、字符串数组或字符向量的单元格数组 分组变量的名称
正整数或正整数的向量 分组变量的变量数
逻辑值矢量与元素数等于变量数量TBL. 与价值逻辑指标真的用于分组变量和错误的除此以外
[] 没有组(返回所有数据的摘要统计信息)

任何可变的变量groupvar作为分组变量,必须具有有效的分组变量数据类型:类别数组、逻辑或数字向量、日期时间或持续时间向量、字符串数组或字符向量的单元格数组。

例如,考虑一个输入表,TBL.,有六个变量。第四个变量被命名性别.要成为有效的分组变量,则性别可能是字符串数组,字符向量的单元格数组,或标称数组,具有唯一值男性.指定变量性别作为分组变量,您可以使用以下任何语法:

  • “性别”statarray = grpstats(台)

  • statarray = grpstats(TBL,4)

  • statarray = grpstats(tbl,逻辑([0 0 0 1 0 0])))

数据类型:|逻辑|char|字符串|细胞

摘要统计类型计算,指定为以下值之一。

  • 指定汇总统计信息类型的字符向量或字符串标量,如本表所述。

    类型 描述
    '意思' 意思
    'sem' 均值的标准误差
    'numel' 数或数非的-Nan.元素
    “gname” 组名称
    'std' 标准偏差
    “var” 方差
    “最小值” 最低限度
    '最大限度' 最大值
    “范围” 范围
    'vesci' 平均值的95%置信区间。您可以使用使用的不同意义级别α名称-值对的论点。
    'predci' 新观察的95%预测间隔。您可以使用使用的不同意义级别α名称-值对的论点。

  • 功能句柄指定任何其他类型的摘要统计信息。您可以将句柄与接受列或矩阵的任何功能,每次返回相同的大小输出GRPSTATS.调用函数句柄(即使某些组的输出为空)。

    • 如果函数接受一列数据,则该函数可以返回标量值或一个造船-by-1列向量用于描述长度统计造船(例如,置信区间的长度为2)。如果函数接受一个矩阵,则函数必须返回一个1-by-ncols行向量或造船-经过-ncols矩阵,其中ncols是输入数据矩阵中的列数。

    • 对于不计算逐列统计功能,指定的计算方向,而指定的功能。例如,使用总和函数,指定函数手柄@(x)总和(x,1)因为总和计算与两个或两个以上的行矩阵列明智的统计数据,而不是单行矩阵。

  • 字符串数组或字符vectors或函数处理的单元格数组,以指定多种类型的摘要统计信息。

例子:stat1 = grpstats(x,group,'sem')

例子:@ stat1 = grpstats (X,集团(X)和(X, 1))

例子:[stat1, stat2, stat3) = grpstats (X,,{“的意思是”,“性病”,@skewness})

意义级别,指定为范围内的标量值(0,1)。

  • 当你指定'vesci'或者'predci'whichstats,你可以使用α指定的信心或预测区间的显着性水平。如果您指定α,然后GRPSTATS.返回100×(1 -α)%置信或预测区间。如果没有指定α,然后GRPSTATS.返回95%的间隔(α= 0.05)。

  • α与之句法绘制组手段和相应的100×(1 -α)% 置信区间。

数据类型:

输入数据,指定为向量或矩阵。如果X是一个矩阵,然后GRPSTATS.返回汇总统计的每一列X

数据类型:|

分组变量,指定为分类数组、逻辑或数字向量、日期时间或持续时间向量、字符串数组或字符向量的单元格数组。分组变量中的每个唯一值定义一个组。GRPSTATS.使用分组变量值对数据进行分组,以获得汇总统计信息。

输入数据的每行必须有一个分组变量值X.观测(行)与分组变量的相同值是在同一组中。用[]计算所有数据的汇总统计信息,而不使用组。

例如,如果性别是一个字符串数组或具有值的字符向量的单元数组'男性''女性',你可以使用性别作为分组变量,按性别总结你的数据。

还可以使用多个分组变量对汇总统计数据进行分组。在这种情况下,指定分组变量的单元格数组。

例如,如果吸烟者逻辑向量有值吗0对于非闻名者而言1对于吸烟者,然后指定单元阵列{性别,吸烟者}将观察分为四组:男性吸烟者,男性不吸烟者,女性吸烟者和女性不吸烟者。GRPSTATS.返回汇总统计仅针对值的存在于输入分组变量(不是所有可能的组合)的组合。

数据类型:||逻辑|char|字符串|细胞|分类|约会时间|持续时间

名称值对参数

指定可选的逗号分隔的对名称,价值论点。的名字参数名和价值是相应的价值。的名字必须出现在引号内。您可以以任何顺序指定多个名称和值对参数name1,value1,...,namen,valuen

例子:'DataVars',[1,3,4], '阿尔法',0.01指定在数据集阵列中为第1,第3和第4变量计算摘要统计信息,置信间隔99%。

置信度和预测间隔的重要性水平,指定为逗号分隔的对组成'Α'和范围(0,1)的标量值。

当你包括'vesci'或者'predci'whichstats,你可以使用α指定置信度或预测间隔的重要性水平。如果指定值α.,然后GRPSTATS.返回100×(1 -α.)%置信或预测区间。

如果没有指定值α,然后GRPSTATS.返回95%的间隔(α.= 0.05)。

例子:'阿尔法',0.1

数据类型:

可变名称或列,指示输入数据中的哪些变量TBL.要计算的汇总统计信息,指定为逗号分隔的对,由'DataVars'和一个字符串阵列,字符向量的小区数组,正整数的矢量或逻辑向量。使用字符向量或字符串标量来指定变量名称,正整数,以指定变量列号,或逻辑值,以指示要包含哪些变量的变量(真的如果你想计算汇总统计,错误的否则)。

您必须指定Datavars.如果有任何变量TBL.(除了指定的分组变量之外groupvar)不是数字或逻辑阵列。概述统计信息只能计算具有数字或逻辑数据类型的变量。

例子:'datavars',{'height','prefe'}

数据类型:|字符串|细胞|char

输出的变量名statarray,指定为逗号分隔的配对组成“VarNames”和一个字符串数组或字符向量的单元阵列。默认情况下,GRPSTATS.通过将输入数据的前缀附加到变量名,构造输出变量名TBL..该前缀对应于汇总统计名称。

例子:'varnames',{'gender','groupcount','malemear','femalemean'}

数据类型:字符串|细胞

输出参数

全部收缩

组摘要统计信息,作为表或数据集数组返回。如果TBL.是一个表,GRPSTATS.返回statarray作为一张桌子。如果TBL.是一个数据集数组,GRPSTATS.返回statarray作为数据集数组。

statarray包含数据组中的摘要统计值TBL.由指定的分组变量的级别确定groupvar.有一排statarray对于每个观察到的值或由此指定的变量中的值组合groupvar.输出statarray包含:

  • 指定的所有分组变量groupvar

  • 的变量GroupCount含各组中观察次数。

  • 在所有变量组汇总统计值TBL.(但由groupvar),或仅用于指定的变量Datavars.

变量的总数statarrayngroupvars.+ 1 +ndatavars.×nstats,在那里ngroupvars.是的变量数groupvarndatavars.是计算摘要统计数据的变量数,以及nstats在指定摘要统计类型的数目whichstats

GRPSTATS.中的变量指定默认名称statarray,除非您使用的名称 - 值对参数指定的变量名varnames.

组手段用于矢量或矩阵中的数据组X由水平决定团体,返回一个ngroups-经过-ncols大批。在这里,ngroups是唯一值的分组变量的数量,并且ncols是列数X.如果X是一个矢量,然后方法是一个列向量。

对向量或矩阵中的数据组进行汇总统计X由水平决定团体,返回ngroups-经过-ncols数组。在这里,ngroups是唯一值的分组变量的数量,并且ncols是列数X.中指定的每种汇总统计信息类型必须指定输出参数whichstats

如果汇总统计类型为whichstats返回一个长度的值造船(例如,置信区间是长度为2的描述性统计量),那么相应的输出参数是ngroups-经过-ncols-经过-造船大批。

算法

  • GRPSTATS.对待s作为缺失值,在计算摘要统计信息之前,从输入数据中删除它们。

  • GRPSTATS.忽略空组名称。

替代功能

MATLAB®包括功能团体ummary,这也将返回组总结,当你与表工作的建议。

扩展功能

在R2006A之前介绍