主要内容

GRPSTATS.

摘要统计组织组织

描述

例子

attarray.= grpstats(TBLGroupvar.返回表或数据集数组,其中包含指定的数据组的手段TBL由分组变量或中指定的变量的值确定Groupvar.

  • 如果有一个分组变量,则存在一行attarray.对于分组变量的每个值。GRPSTATS.按外观顺序排序组(如果分组变量是字符向量或字符串标量),则按升序数字顺序(如果分组变量为数字),或按照级别的顺序(如果分组变量为分类)。

  • 如果Groupvar.是包含多个分组变量名称的字符串数组或单元阵列,或列号的向量矢量,然后有一行attarray.对于每个观察到的分组变量的唯一组合。GRPSTATS.按照第一个分组变量的值对组进行排序,然后是第二个分组变量等。

  • 如果任何变量TBL(除了指定的人之外Groupvar.)不是数字或逻辑阵列,那么您必须指定要使用名称值对参数计算手段的数字和逻辑变量的名称或列编号,DataVars

例子

attarray.= grpstats(TBLGroupvar.这件事返回指定的摘要统计信息的组值这件事

例子

attarray.= grpstats(TBLGroupvar.这件事名称,价值使用一个或多个指定的其他选项名称,价值对论点。

例子

方法= grpstats(X团体返回与该数据组中的矩阵或向量的装置的列矢量或矩阵X由分组变量或变量的值确定,团体.行的行方法对应于分组变量值。

  • 如果有一个分组变量,则存在一行方法对于分组变量的每个值。GRPSTATS.按外观顺序排序组(如果分组变量是字符向量或字符串标量),则按升序数字顺序(如果分组变量为数字),或按照级别的顺序(如果分组变量为分类)。

  • 如果团体是一个分组变量的字符串数组或单元格数组,然后有一行方法对于每个观察到的分组变量的唯一组合。GRPSTATS.按照第一个分组变量的值对组进行排序,然后是第二个分组变量等。

  • 如果X是一个矩阵,然后方法是具有相同的列数为一个矩阵X.每列方法是否具有相应列的组意味着X

例子

stats1,...,statsn] = grpstats(X团体这件事返回列向量或包含组值的列向量或数组,以获取规定的摘要统计类型这件事

例子

stats1,...,statsn] = grpstats(X团体这件事,'Α',α指定置信度和预测区间的显著性级别。

例子

grpstats(X团体α在矢量或矩阵中绘制数据组的手段X由分组变量的值决定,团体.分组变量值在横轴上。每组均值为100×(1 -α)% 置信区间。

  • 如果X是一个矩阵,然后GRPSTATS.绘制每列的手段和置信区间X

  • 如果团体是一个分组变量的单元格数组,然后是GRPSTATS.绘制数据组的手段和置信区间X由分组变量的唯一值的独特组合确定。例如,如果存在两个分组变量,每个分组变量有两个值,则分组变量值有四种可能的组合。该曲线仅包括输入分组变量中存在的值的组合(不是所有可能的组合)。

例子

全部收缩

加载样本数据。

加载('医院'

数据集数组医院有100个观察和7个变量。

创建仅变量的数据集阵列年龄重量, 和吸烟者

dsa =医院(:,{'性别''年龄''重量'“吸烟者”});

是一个标称阵列,水平男性女性.变量年龄重量有数值,和吸烟者具有逻辑值。

计算数值和逻辑数组的平均值,年龄重量, 和吸烟者,由水平分组

statarray = grpstats(dsa,'性别'
statarray = sex groupcount incom_age _重量意味着_moker女性女性53 37.717 130.47 0.24528男性47 38.915 180.53 0.44681

attarray.是一个具有两行的数据集数组,对应于级别GroupCount是每组的观察数。手段年龄重量, 和吸烟者,通过分组,给出mean_Age含义_重量, 和意思是_Moker.

计算平均值年龄重量,由价值观分组吸烟者

statarray = grpstats(dsa,“吸烟者”'意思''datavars',{'年龄''重量'})
statarray =吸烟者GroupCount mean_Age mean_Weight 0 false 66 37.97 149.91 1 true 34 38.882 161.94

在这种情况下,并非所有变量DSA.(不包括分组变量,吸烟者)是数字或逻辑阵列;变量是一个标称阵列。当输入数据集数组中的所有变量都是数字或逻辑数组时,必须指定要为其计算摘要统计信息的变量DataVars

计算最小和最大权重,按中值的组合分组吸烟者

statarray = grpstats(dsa,{'性别'“吸烟者”},{'min''最大限度'},......'datavars''重量'
statarray = Sex吸烟者GroupCount min_Weight max_Weight Female_0 Female false 40 111 147 Female_1 Female true 13 115 146 Male_0 Male false 26 158 194 Male_1 Male true 21 164 202

有两个独特的值吸烟者和两个层面,总共有四种可能的价值组合:女性非商员(女性_0.),女性吸烟者(女性_1.),男性nonsmoker(male_0.)及男性吸烟者(male_1.)。

指定输出中列的名称。

statarray = grpstats(dsa,{'性别'“吸烟者”},{'min''最大限度'},......'datavars''重量''varnames',{'性别'“吸烟者”......“GroupCount”'LowestWeight''最高款'})
Statarray =性别吸烟者Groupcount oboutweight最高款女性_0女性假40 111 147女性_1女性True 13 115 146 Male_0男性假26 158 194 Male_1男性True 21 164 202

加载样本数据。

加载('医院'

数据集数组医院有100个观察和7个变量。

创建仅变量的数据集阵列年龄重量, 和吸烟者

dsa =医院(:,{'年龄''重量'“吸烟者”});

变量年龄重量有数值,和吸烟者具有逻辑值。

计算数字和逻辑阵列的平均值,最小值和最大值,年龄重量, 和吸烟者,没有分组。

statarray = grpstats(dsa,[],{'意思''min''最大限度'})
statArray = groupcount incom_age min_age max_age mean_weight all 100 38.28 25 50 154 min_weight max_weight mean_smoker min_smoker max_smoker所有111 202 0.34 false true

观察名称全部表明所有观察DSA.用于计算摘要统计信息。

加载样本数据。

加载('Carsmall'

所有变量都是测量100辆汽车的。起源是每辆车的原产国(法国、德国、意大利、日本、瑞典或美国)。气瓶有三个独特的价值观,46, 和8,表示每辆车中的汽缸数。

计算按原产国分组的平均加速度。

手段= grpstats(加速度,产地)
手段=6×114.4377 18.0500 15.8867 16.3778 16.6000 15.5000

方法是一个6×1矢量的平均加速度,其中每个值对应于原籍国。

计算平均加速度,由原产地和气缸数量分组。

手段= grpstats(加速度,{来源,气缸})
手段=10×117.0818 16.5267 11.6406 18.0500 15.9143 15.5000 16.3375 16.7000 16.6000 15.5000

分组变量值有18种可能的组合,因为起源有6个独特的价值观气瓶有3个独特的值。只有10个可能的组合出现在数据中,因此方法是一个10×1向量的组手段,对应于观察到的值组合。

将组名与每个组的平均加速度返回。

[意味着,毛评点]= grpstats(加速度,{起源、汽缸},{'意思'“gname”})
手段=10×117.0818 16.5267 11.6406 18.0500 15.9143 15.5000 16.3375 16.7000 16.6000 15.5000
GRPS =10x2细胞{'USA'} {'4'} {'6'} {'6'} {'美国'} {'8'} {'8'} {'france'} {'4'} {'4'} {'4'} {'4'} {'4'} {'4'} {'4'}{'日本'} {'6'} {'德国'} {'4'} {'德国'} {'6'} {'6'} {'瑞典'} {'瑞典'} {'4'} {'4'} {'Italy'} {'4'}

输出毛评点显示10观察到的分组变量值的组合。例如,法国制造的4缸车的平均加速度为18.05。

加载样本数据。

加载Carsmall.

的变量加速测量了100辆汽车。的变量起源是每辆车的原产国(法国、德国、意大利、日本、瑞典或美国)。

返回原籍国分组的最小和最大加速度。

[grpmin,grpmax,grp] = grpstats(加速,origin,{'min''最大限度'“gname”})
grpmin =6×18.0000 15.3000 13.9000 12.2000 15.7000 15.5000
grpMax =6×122.2000 21.9000 18.2000 24.6000 17.5000 15.5000
GRP =6x1的细胞{'美国'}{“法国”}{‘日本’}{“德国”}{“瑞典”}{“意大利”}

具有最低加速度的样品汽车在美国制造,并在德国制造具有最高加速的样品。

加载样本数据。

加载('Carsmall'

的变量重量测量了100辆汽车。的变量Model_Year有三个独特的价值观,7076., 和82.,与1970年,1976年和1982年相对应的。

计算每个车型年的平均重量和90%的预测区间。

[均值,pred,grp] = grpstats(重量,model_year,......'意思''predci'“gname”},'Α', 0.1);

绘制误差栏显示模型年份分组的平均重量和90%的预测间隔。使用组名称标记水平轴。

ngrps =长度(grp);%组数错误栏((1:ngrps)',手段,pred(:,2) -  emeans)xlim([0.5 3.5])集(gca,'xtick',1:ngrps,'xticklabel'、grp)标题('90%的重量预测间隔逐年'

图中包含一个坐标轴。标题为90% Weight by Year的预测区间的坐标轴包含一个类型为errorbar的对象。

加载样本数据。

加载('Carsmall'

变量加速重量为100辆汽车的加速度和重量值。的变量气瓶每辆车的汽缸数量。的变量Model_Year有三个独特的价值观,7076., 和82.,与1970年,1976年和1982年相对应的。

绘制平均加速,通过分组气瓶,95%的置信区间。

GRPSTATS(加速,圆柱体,0.05)

图中包含一个坐标轴。具有标题装置的轴和每个组的置信区间包含误差栏的对象。

ans =.3×116.6706 16.4765 11.6406

带8个气缸的汽车的平均加速度明显低于带有4或6个气缸的汽车。

绘制意味着加速度和重量,分组气瓶, 95%置信区间。规模的重量值乘以1000的平均值重量加速都是相同的数量级。

GRPSTATS([加速,重量/ 1000],圆柱,0.05)

图中包含一个坐标轴。标题为“每组的均值和置信区间”的轴包含2个类型为errorbar的对象。

ans =.3×216.6706 2.3726 16.4765 3.1255 11.6406 3.9703

汽车的平均重量随汽缸的数量而增加,并且平均加速度随汽缸的数量而降低。

绘图均值加速度,由两者分组气瓶Model_Year.指定95%置信区间。

grpstats(加速度,{缸,Model_Year},0.05)

图中包含一个坐标轴。具有标题装置的轴和每个组的置信区间包含9个类型的误差栏,文本的对象。

ans =.8×116.1875 16.8667 16.7036 15.5000 17.0000 16.0333 11.0217 13.2222

有因为有三个独特值分组变量值9层可能的组合气瓶和三个独特的价值Model_Year.图中没有显示8缸车型为1982年的汽车,因为数据中没有包括这一组合。

在1976年由8缸汽车的平均加速度大于在1970年由8缸汽车的平均加速度显著大。

输入参数

全部收缩

输入数据,指定为表或数据集数组。TBL必须包括至少一个变量,它是一个分组变量。

概述统计信息只能计算具有数字或逻辑数据类型的变量。如果任何变量TBL(除分组变量除外)不是数字或逻辑阵列,然后使用名称值对参数DataVars指定计算摘要统计信息的数字和逻辑变量的名称或列数。

在输入数据分组变量标识符,TBL,指定为以下之一:

字符向量、字符串数组或字符向量的单元格数组 分组变量的名称
正整数或正整数的矢量 分组变量的变量数
用元件的数量的逻辑值的矢量等于变量的数量TBL 具有价值的逻辑指示器真的用于分组变量和错误的除此以外
[] 没有群组(所有数据返回汇总统计)

由鉴定的任何变量Groupvar.作为分组变量,必须具有有效的分组变量数据类型:类别数组、逻辑或数字向量、日期时间或持续时间向量、字符串数组或字符向量的单元格数组。

例如,考虑一个输入表,TBL,有六个变量。第四变量命名性别.是有效的分组变量,数据类型性别可能是字符串数组,字符向量的单元格数组,或标称数组,具有唯一值男性女性.指定变量性别作为分组变量,你可以使用这些语法:

  • statarray = grpstats(tbl,'性别')

  • statarray = grpstats(tbl,4)

  • statarray = grpstats(tbl,逻辑([0 0 0 1 0 0])))

数据类型:双倍的|逻辑|char|细绳|细胞

摘要统计类型计算,指定为以下值之一。

  • 字符向量或标量的字符串指定摘要统计的类型,在此表中所描述的。

    类型 描述
    '意思' 意思
    'sem' 该均值的标准差
    'numel' 数或数非的-Nan.元素
    “gname” 组名称
    'std' 标准偏差
    'var' 方差
    'min' 最低限度
    '最大限度' 最大值
    '范围' 范围
    'meanci' 对于平均95%的置信区间。您可以使用使用的不同意义级别Α名称-值对的论点。
    'predci' 新观察的95%预测间隔。您可以使用使用的不同意义级别Α名称-值对的论点。

  • 功能句柄指定任何其他类型的汇总统计。可以使用手柄将接受一个列或数据的矩阵的任何函数,每一次返回相同的大小输出GRPSTATS.调用函数句柄(即使某些组的输出为空)。

    • 如果函数接受一列数据,则该函数可以返回标量值或一个造船-by-1列向量用于描述长度统计造船(例如,置信区间具有两个长度)。如果函数接受矩阵,则该函数必须返回一个逐个尼尔斯行矢量或一个造船-经过-尼尔斯矩阵,其中尼尔斯是输入数据矩阵中的列数。

    • 对于不计算列明确统计信息的函数,指定函数的同时指定计算方向。例如,使用功能,指定函数句柄@(x)总和(x,1)因为计算具有两个或更多行的矩阵的列明智统计,但不适用于单行矩阵。

  • 字符串数组或字符vectors或函数处理的单元格数组,以指定多种类型的摘要统计信息。

例子:STAT1 = grpstats(X,组, 'SEM')

例子:stat1 = grpstats(x,group,@(x)sum(x,1))

例子:[stat1,stat2,stat3] = grpstats(x,group,{'incal','std',@ skewness})

显着性水平,指定为在范围(0,1)的标量值。

  • 当您指定时'meanci'或者'predci'这件事,你可以使用α指定置信度或预测间隔的显着级别。如果您指定α,然后GRPSTATS.返回100×(1 -α)百分比或预测间隔。如果没有指定α,然后GRPSTATS.返回95%的间隔(alpha = 0.05)。

  • α与之句法到情节组装置和对应的100×(1 -α)% 置信区间。

数据类型:双倍的

输入数据,指定为向量或矩阵。如果X是一个矩阵,然后GRPSTATS.返回每列的摘要统计信息X

数据类型:双倍的|单身的

分组变量,指定为分类数组、逻辑或数字向量、日期时间或持续时间向量、字符串数组或字符向量的单元格数组。分组变量中的每个唯一值定义一个组。GRPSTATS.使用分组变量值对数据进行分组,以获得汇总统计信息。

必须有所述输入数据的每一行分组变量值X.分组变量相同值的观察(行)在同一组中。用[]计算所有数据的汇总统计信息,而不使用组。

例如,如果性别是一个字符串数组或具有值的字符向量的单元数组'男性''女性',你可以使用性别作为分组变量,按性别总结你的数据。

还可以使用多个分组变量对汇总统计数据进行分组。在这种情况下,指定分组变量的单元格数组。

例如,如果吸烟者是一个值的逻辑向量0对于非吸烟者和1对于吸烟者,然后指定单元阵列{性别,吸烟者}将观察分为四组:男性吸烟者,男性非商民,女性吸烟者和女性非主人。GRPSTATS.仅返回摘要统计信息,仅适用于输入分组变量中存在的值(不是所有可能的组合)。

数据类型:单身的|双倍的|逻辑|char|细绳|细胞|分类|约会时间|持续时间

名称值对参数

指定可选的逗号分离对名称,价值论点。姓名是参数名称和价值是相应的价值。姓名必须出现在引号内。您可以以任何顺序指定多个名称和值对参数name1,value1,...,namen,valuen

例子:'datavars',[1,3,4],'alpha',0.01指定在数据集阵列中为第1,第3和第4变量计算摘要统计信息,置信间隔99%。

显着性水平为信心和预测区间,指定为逗号分隔的一对组成的'Α'和范围(0,1)的标量值。

当你包括'meanci'或者'predci'这件事,你可以使用Α指定信心或预测区间的显着性水平。如果您指定的值α,然后GRPSTATS.返回100×(1 -α)百分比或预测间隔。

如果您未指定值Α,然后GRPSTATS.返回95%的间隔(α= 0.05)。

例子:'alpha',0.1

数据类型:双倍的

变量名或列表示哪个变量在输入数据TBL您想要计算摘要统计信息,指定为包含的逗号分隔对'datavars'和一个字符串阵列,字符向量的小区数组,正整数的矢量或逻辑向量。使用字符向量或字符串标量来指定变量名称,正整数,以指定变量列号,或逻辑值,以指示要包含哪些变量的变量(真的如果要计算汇总统计,错误的否则)。

您必须指定DataVars如果有任何变量TBL(除了指定的分组变量之外Groupvar.)不是数字或逻辑阵列。概述统计信息只能计算具有数字或逻辑数据类型的变量。

例子:'DataVars',{ '身高', '体重'}

数据类型:双倍的|细绳|细胞|char

输出的变量名称attarray.,指定为逗号分隔的配对组成'varnames'和字符串数组或字符向量阵列。默认情况下,GRPSTATS.通过将输入数据的前缀附加到变量名,构造输出变量名TBL.该前缀对应于汇总统计名称。

例子:'VarNames',{ '性别', 'GroupCount', 'MaleMean', 'FemaleMean'}

数据类型:细绳|细胞

输出参数

全部收缩

组摘要统计信息,作为表或数据集数组返回。如果TBL是一个表,GRPSTATS.返回attarray.作为一张桌子。如果TBL是一个数据集数组,GRPSTATS.返回attarray.作为数据集数组。

attarray.包含数据的这些基团中总结统计值TBL由指定的分组变量的水平来确定Groupvar..有一排attarray.用于在由指定的变量值的每个观测值或组合Groupvar..输出attarray.包含:

  • 指定的所有分组变量Groupvar.

  • 的变量GroupCount,包含每组的观察数。

  • 组摘要所有变量的统计值TBL(除了指定的人之外Groupvar.),或仅用于指定的变量DataVars

变量总数attarray.ngroupvars+ 1 +ndatavars×nstats., 在哪里ngroupvars是变量的数量Groupvar.ndatavars是计算摘要统计数据的变量数,以及nstats.是指定的摘要统计类型数这件事

GRPSTATS.将默认名称分配给变量attarray.,除非您使用名称值对参数指定变量名称VarNames

组手段用于矢量或矩阵中的数据组X通过的水平来确定团体,返回一个ngroups.-经过-尼尔斯大批。在这里,ngroups.是分组变量中的唯一值的数量,以及尼尔斯是列数X.如果X是一个矢量,然后方法是一个列向量。

集团摘要统计载体或矩阵中的数据组X通过的水平来确定团体,返回ngroups.-经过-尼尔斯数组。在这里,ngroups.是分组变量中的唯一值的数量,以及尼尔斯是列数X.您必须为每种类型的摘要统计指定输出参数这件事

如果摘要统计类型这件事返回一个长度的值造船(例如,置信区间是长度的描述性统计数据),那么相应的输出参数是一个ngroups.-经过-尼尔斯-经过-造船大批。

算法

  • GRPSTATS.对待S作为缺失值,并计算概要统计之前,从所述输入数据中删除。

  • GRPSTATS.忽略空组名称。

替代功能

马铃薯®包括功能团体ummary,这也返回了组摘要,并在使用表格时建议使用。

扩展能力

在R2006A之前介绍