使用哑变量unstack重塑表(编辑:替代交叉表方法)

7视图(30天)

显示旧的评论

西蒙 2023年4月1日

0
链接

这个问题直接联系

//www.tatmou.com/matlabcentral/answers/1939169-use-unstack-to-reshape-table-with-dummy-variable-edited-alternative-crosstab-method

评论道: 西蒙2023年5月13日

答:接受 Stephen23

后根据一组变量排序表,我喜欢把组值作为“头”列并将其成员在其他同一行中的列。

数据为了骨干示范:

                          C = {第一季度的,第一季度的,“第二季”,“第三季”,“第三季”,“第三季”;
                         
                          “苹果”,“:”,“香蕉”,“橙”,“猩猩”,“橙”}';
                         
                          T = cell2table (C,“VariableNames”,{“代码”,“水果”});
                         
                          [GroupsID、组]= findgroups (T.code);
                         
                          unique_groupID =独特(GroupsID);
                         
                          gT =表(“大小”4],[10日,“VariableTypes”,{“字符串”,“字符串”,“字符串”,“字符串”});

方法1。(编辑)残酷的for循环,我不喜欢,和它的结果需要更多的处理在每一行删除冗余。

                          为k = 1:大小(unique_groupID)
                         
                          %提取组元素从“水果”
                         
                          tmp = T.fruit (GroupsID = = unique_groupID (k));
                         
                          l =大小(tmp ', 2);
                         
                          gT (k, 1) ={组(k)};
                         
                          gT (k, 2: l + 1) = tmp”;
                         
                          结束
                         
                          rmmissing (gT,“MinNumMissing”3)
                         
                             ans =3×4表
                            
                             Var1
                             Var2
                             Var3
                             Var4
                             ____
                             ________
                             _____
                             _____“苹果”“q1:“<失踪>“第二季”“香蕉”<失踪> <失踪>“第三季”“橙色”“猩猩”“橙色”

方法2使用unstack

我创建了一个哑变量的方法为了使用unstack ()。代码较短但不给我想要的结果。

                          D = {“dm1”,“dm2”,“dm3”,“dm4”,“dm5”,“德国”;
                         
                          第一季度的,第一季度的,“第二季”,“第三季”,“第三季”,“第三季”;
                         
                          “苹果”,“:”,“香蕉”,“橙”,“猩猩”,“橙”}';
                         
                          T = cell2table (D,“VariableNames”,{“假”,“代码”,“水果”});
                         
                          unstack (T)“水果”,“假”)
                         
                             ans =表3×7
                            
                             代码
                             dm1
                             dm2
                             dm3
                             dm4
                             dm5
                             德国马克
                             ______
                             __________
                             __________
                             __________
                             __________
                             __________
                             __________{q1的}{‘苹果’}{':'}{0×0字符}{0×0字符}{0×0字符}{0×0字符}{q2的}{0×0字符}{0×0字符}{“香蕉”}{0×0字符}{0×0字符}{0×0字符}{“第三季”}{0×0字符}{0×0字符}{0×0字符}{“橙色”}{‘猩猩’}{“橙色”}

编辑。方法使用交叉表3。该方法很好地工作,但我希望我没有使用一个for循环。这种方法的结果正是我想要的。

[结核病,~,~,磅]=交叉表(T。代码,T.fruit);

for循环创建目标表:

                          m =大小(结核,1);
                         
                          头=磅(1:m, 1);
                         
                          水果=磅(:,2);
                         
                          gT =表(“大小”4],[6日,“VariableTypes”,{“字符串”,“字符串”,“字符串”,“字符串”});
                         
                          为i = 1: m
                         
                          tmp =水果(结核病(我:)> 0)';
                         
                          l =大小(tmp, 2);
                         
                          gT(我“Var1”)=头(我);
                         
                          gT(我,2:l + 1) = tmp;
                         
                          结束
                         
                          rmmissing (gT,“MinNumMissing”4)
                         
                             ans =3×4表
                            
                             Var1
                             Var2
                             Var3
                             Var4
                             ____
                             ________
                             _____
                             _____“苹果”“q1:“<失踪>“第二季”“香蕉”<失踪> <失踪>“第三季”“橙色”“猩猩”<失踪>

编辑。我帖子上面的代码后,我想到这个方法3可以精简。

                          第九=找到(结核病> 0);
                         
                          (行,关口)= ind2sub((3、4),第九);
                         
                          %然后循环通过填充最后一个表行和关口。
                         
                          %我仍然不能避免循环。

2的评论
显示1年长的评论藏1年长的评论

西蒙 2023年4月1日

谢谢你的快速反应。解决方案1中的结果需要更多的处理在每一行删除冗余。解决方案3的正确结果。

我真正的有成千上万的多行数据。它的第一列存储账户密码,第二列,“账户定义”,第三列是财务数值。例如,“ 1 xxxxx的代码,和资产的是账户的定义。这两个应该有一个完美的一对一的关系。然而,由于人为因素,实际的条目的账户定义为给定帐户代码可能略有不同。例如,“资产”可以键入“资产”,或“Aset”。

代码的下游步骤是对我视觉上检查是否有任何奇怪的“账户密码”——“账户定义”。只有大约一百个独特的“账户密码”,更可以控制人类比原超高层表检查。

登录置评。

在回答这个问题。

接受的答案

Stephen23 2023年4月1日

0
链接

直接链接到这个答案

//www.tatmou.com/matlabcentral/answers/1939169-use-unstack-to-reshape-table-with-dummy-variable-edited-alternative-crosstab-method answer_1206414

编辑:Stephen23 2023年4月27日

使用UNSTACK非常简洁的解决方案,因为它会自动垫不同长度相同数量的列数据,根据需要添加“失踪”的价值观。这是否则难以复制。但使用UNSTACK,我们需要添加一个变量告诉UNSTACK列将数据移动到:

                              C = {第一季度的,第一季度的,“第二季”,“第三季”,“第三季”,“第三季”;“苹果”,“:”,“香蕉”,“橙”,“猩猩”,“橙”}';
                             
                              T = cell2table (C,“VariableNames”,{“代码”,“水果”})
                             
                                 T =6×2表
                                
                                 代码
                                 水果
                                 ______
                                 __________{q1的}{‘苹果’}{q1的}{':'}{q2的}{“香蕉”}{“第三季”}{“橙色”}{“第三季”}{‘猩猩’}{“第三季”}{“橙色”}

                              U =独特的(T,“行”);
                             
                              G = findgroups (U.code);%的招待
                             
                              F = @ (n) (1: nnz (n = = G))。”;%的招待
                             
                              U。数= cell2mat (arrayfun (F,独特的(G),“大学”,0))%的招待
                             
                                 U =5×3表
                                
                                 代码
                                 水果
                                 数
                                 ______
                                 __________
                                 _____{q1的}{‘苹果’}1 {q1的}{':'}2 {q2的}{“香蕉”}1{“第三季”}{“橙色”}1{“第三季”}{‘猩猩’}2

                              U = unstack (U,“水果”,“数”,“VariableNamingRule”,“修改”)
                             
                                 U =3×3表
                                
                                 代码
                                 x1
                                 x2
                                 ______
                                 __________
                                 __________{q1的}{‘苹果’}{':'}{q2的}{“香蕉”}{0×0字符}{“第三季”}{“橙色”}{‘猩猩’}

注一:这只是给一组的每个元素的唯一索引。令人吃惊的是,似乎并不是一个简单的内置的方式实现这一目标……有人有什么建议吗?:例如[1,1,1、2、2、1]- > [1、2、3、1、2、4]。

编辑:我发现了一个简洁的方式:

                              G = findgroups (U.code);
                             
                              U。数= grouptransform(的(大小(G)), G, @cumsum);

11日评论
显示十年长的评论隐藏10年长的评论

西蒙 2023年4月4日

谢谢你指出这个解决方案。编码工作好了。与下面的更无序的数据测试,我明白为什么“稳定”选项将导致错误。当你没有排序,cell2mat(单元阵列的“计数”)将计数错误的组。

                                   C = {第一季度的,“第三季”,第一季度的,“第二季”,“第三季”,“第三季”,第一季度的,“第三季”;
                                  
                                   “苹果”,“橙”,“:”,“香蕉”,“猩猩”,“橙”,“苹果”,“橘子”}';
                                  
                                   T = cell2table (C,“VariableNames”,{“代码”,“水果”});
                                  
                                   U =独特的(T,“行”,“稳定”);
                                  
                                   G = findgroups (U.code);
                                  
                                   F = @ (n) (1: nnz (n = = G)) ';
                                  
                                   数= arrayfun (F,独特的(G),“UniformOutput”、假);
                                  
                                   %数={1,2},{1},{1;2;3}是正确的。
                                  
                                     {2×1双}{[1]}{3×1双}

                                   U。数= cell2mat(计数)
                                  
                                      U =6×3表
                                     
                                      代码
                                      水果
                                      数
                                      ______
                                      ___________
                                      _____{q1的}{‘苹果’}1{“第三季”}{“橙色”}2 {q1的}{':'}1 {q2的}{“香蕉”}1{“第三季”}{‘猩猩’}2{“第三季”}{“橘子”}3

                                   %当你不是排序和cell2mat ()
                                  
                                   %它应该做什么,发生错误。

Stephen23 2023年4月6日

这是另一个UNSTACK-based方法,生成组使用ACCUMARRAY指数:

                                   C = {第一季度的,第一季度的,“第二季”,“第三季”,“第三季”,“第三季”;“苹果”,“:”,“香蕉”,“橙”,“猩猩”,“橙”}';
                                  
                                   T = cell2table (C,“VariableNames”,{“代码”,“水果”})
                                  
                                      T =6×2表
                                     
                                      代码
                                      水果
                                      ______
                                      __________{q1的}{‘苹果’}{q1的}{':'}{q2的}{“香蕉”}{“第三季”}{“橙色”}{“第三季”}{‘猩猩’}{“第三季”}{“橙色”}

                                   U =独特的(T,“行”);
                                  
                                   G = findgroups (U.code);
                                  
                                   F = @ (a) {cumsum (a)};
                                  
                                   U。数= cell2mat (accumarray (G的(大小(G)), [], F))
                                  
                                      U =5×3表
                                     
                                      代码
                                      水果
                                      数
                                      ______
                                      __________
                                      _____{q1的}{':'}1 {q1的}{‘苹果’}2 {q2的}{“香蕉”}1{“第三季”}{‘猩猩’}1{“第三季”}{“橙色”}2

                                   U = unstack (U,“水果”,“数”,“VariableNamingRule”,“修改”)
                                  
                                      U =3×3表
                                     
                                      代码
                                      x1
                                      x2
                                      ______
                                      __________
                                      __________{q1的}{':'}{‘苹果’}{q2的}{“香蕉”}{0×0字符}{“第三季”}{‘猩猩’}{“橙色”}

西蒙 2023年4月9日

编辑:西蒙 2023年4月9日

我试过我的真实数据的三个算法,一个自己,另2 Stephen23,将它们归类为三个功能。所以它会更方便人使用它们作为实用的解决方案或学习材料。

是一个表的数据有160000行和1600独特的“ifcode”。每个算法运行时间为

crosstab_forloop: 1.81秒

unstack_applyfun: 1.47秒

unstack_accumarray: 1.50秒。

这里有三个功能:

                                   % T是一个桌子,一列叫做“ifcode”,
                                  
                                   %的其他列称为“帐户”。
                                  
                                   函数gT = crosstab_forloop (T)
                                  
                                   [结核病,~,~,磅]=交叉表(T。ifcode T.account);
                                  
                                   m =大小(结核,1);
                                  
                                   头=磅(1:m, 1);
                                  
                                   账户=磅(:,2);
                                  
                                   gT =表(“大小”(4000 4),“VariableTypes”,{“字符串”,“字符串”,“字符串”,“字符串”},…
                                  
                                   “VariableNames”,{“ifcode”,x1的,“x2”,“x3”});
                                  
                                   为i = 1: m
                                  
                                   tmp =账户(结核病(我:)> 0)';
                                  
                                   l =大小(tmp, 2);
                                  
                                   gT(我“ifcode”)=头(我);
                                  
                                   gT(我,2:l + 1) = tmp;
                                  
                                   结束
                                  
                                   gT = rmmissing (gT,“MinNumMissing”4);
                                  
                                   结束
                                  
                                   函数U = unstack_arrayfun (T)
                                  
                                   U =独特的(T,“行”);
                                  
                                   G = findgroups (U.ifcode);
                                  
                                   F = @ (n) (1: nnz (n = = G)) ';
                                  
                                   U。withindex = cell2mat (arrayfun (F,独特的(G),“UniformOutput”、假));%的招待
                                  
                                   U = unstack (U,“账户”,“withindex”,“VariableNamingRule”,“修改”);
                                  
                                   %注一:这只是给一组的每个元素的唯一索引。
                                  
                                   %信贷属于Stephen23算法
                                  
                                   结束
                                  
                                   函数U = unstack_accumarray (T)
                                  
                                   U =独特的(T,“行”);
                                  
                                   G = findgroups (U.ifcode);
                                  
                                   F = @ (a) {cumsum (a)};
                                  
                                   U。withindex = cell2mat (accumarray (G, 1(大小(G)), [], F));
                                  
                                   U = unstack (U,“账户”,“withindex”,“VariableNamingRule”,“修改”);
                                  
                                   %信贷属于Stephen23算法
                                  
                                   结束

Stephen23 2023年4月10日

编辑:Stephen23 2023年4月11日

“它会更方便人使用它们作为实用的解决方案或学习材料。

最有可能CELL2MAT放缓下来……你不会写,你需要一个特别快方法,所以我并不认为我的代码(而不是“合理紧凑”的目标,这是大多数用户在这个论坛似乎想要)。“快”合理方法尝试CELL2MAT替换为一个以逗号分隔。

这样可能更快:

                                   C = {第一季度的,第一季度的,“第二季”,“第三季”,“第三季”,“第三季”;“苹果”,“:”,“香蕉”,“橙”,“猩猩”,“橙”}';
                                  
                                   T = cell2table (C,“VariableNames”,{“代码”,“水果”})
                                  
                                      T =6×2表
                                     
                                      代码
                                      水果
                                      ______
                                      __________{q1的}{‘苹果’}{q1的}{':'}{q2的}{“香蕉”}{“第三季”}{“橙色”}{“第三季”}{‘猩猩’}{“第三季”}{“橙色”}

                                   [U ~ X] =独特(T.code);
                                  
                                   为k = 1:元素个数(U)
                                  
                                   V =独特(T {k = = X,“水果”});
                                  
                                   U (k, 2:1 +元素个数(V)) = V;
                                  
                                   结束
                                  
                                   W = cell2table (U)
                                  
                                      W =3×3表
                                     
                                      U1
                                      U2
                                      U3
                                      ______
                                      __________
                                      _______{q1的}{':'}{‘苹果’}{q2的}{“香蕉”}{0×0双}{“第三季”}{‘猩猩’}{“橙色”}

Stephen23 2023年4月27日

编辑:Stephen23 2023年4月27日

我想到另一种方法基于GROUPTRANSFORM:

//www.tatmou.com/help/matlab/ref/double.grouptransform.html

如前所述在我回答,所需的转换(1,1,1、2、2、1]- > [1、2、3、1、2、4]。

                                   G = [1; 1; 1; 2; 2; 1];%必须列向量
                                  
                                   Y = grouptransform(的(大小(G)), G, @cumsum)
                                  
                                      Y =
                                      6×1
                                     
                                       1 2 3 1 2 4

不错,这似乎是我们想要的。然而在这种情况下G幸运的是由整数1 . . N。在所有其他情况下,我们需要使用例如FINDGROUPS第一。使用的假数据,我可以试一试我的回答:

                                   C = {第一季度的,第一季度的,“第二季”,“第三季”,“第三季”,“第三季”;“苹果”,“:”,“香蕉”,“橙”,“猩猩”,“橙”}';
                                  
                                   T = cell2table (C,“VariableNames”,{“代码”,“水果”})
                                  
                                      T =6×2表
                                     
                                      代码
                                      水果
                                      ______
                                      __________{q1的}{‘苹果’}{q1的}{':'}{q2的}{“香蕉”}{“第三季”}{“橙色”}{“第三季”}{‘猩猩’}{“第三季”}{“橙色”}

                                   U =独特的(T,“行”);
                                  
                                   G = findgroups (U.code);
                                  
                                   U。数= grouptransform(的(大小(G)), G, @cumsum)
                                  
                                      U =5×3表
                                     
                                      代码
                                      水果
                                      数
                                      ______
                                      __________
                                      _____{q1的}{':'}1 {q1的}{‘苹果’}2 {q2的}{“香蕉”}1{“第三季”}{‘猩猩’}1{“第三季”}{“橙色”}2

                                   U = unstack (U,“水果”,“数”,“VariableNamingRule”,“修改”)
                                  
                                      U =3×3表
                                     
                                      代码
                                      x1
                                      x2
                                      ______
                                      __________
                                      __________{q1的}{':'}{‘苹果’}{q2的}{“香蕉”}{0×0字符}{“第三季”}{‘猩猩’}{“橙色”}

登录置评。

答案(1)

彼得·珀金斯 2023年4月5日

1
链接

直接链接到这个答案

//www.tatmou.com/matlabcentral/answers/1939169-use-unstack-to-reshape-table-with-dummy-variable-edited-alternative-crosstab-method answer_1209989

我不能理解欲望的输出,但其他人创造了什么本质上是一个crosstabulation计数,所以,在R2023a新

                              > > T = cell2table (C,“VariableNames”,{“代码”,“水果”});
                             
                              > >主(T,行=“代码”列=“水果”)
                             
                              ans =
                             
                              3×表7
                             
                              代码:苹果香蕉猩猩橙色橙子
                             
                              _________________________________________
                             
                              {第一季度的}1 2 0 0 0 0
                             
                              {“第二季”}0 0 1 0 0 0
                             
                              {“第三季”}0 0 0 1 2 1

骑自行车的人指出,有一堆空箱子,所以原来的“整洁”格式可能更有用。对我来说,这看起来像“水果应该直言,你应该申请mergecats清理那些/不同的拼写错误”。

7评论
显示6年长的评论隐藏6年长的评论

彼得·珀金斯 2023年4月6日

编辑:彼得·珀金斯 2023年4月6日

我并不是说这绝对是更好,值得考虑。分类的目的之一是使它更简单的清理这样的数据。

                                   C = {第一季度的,“第三季”,第一季度的,“第二季”,“第三季”,“第三季”,第一季度的,“第三季”;
                                  
                                   “苹果”,“橙”,“:”,“香蕉”,“猩猩”,“橙”,“苹果”,“橘子”}';
                                  
                                   T = cell2table (C,“VariableNames”,{“代码”,“水果”})
                                  
                                      T =8×2表
                                     
                                      代码
                                      水果
                                      ______
                                      ___________{q1的}{‘苹果’}{“第三季”}{“橙色”}{q1的}{':'}{q2的}{“香蕉”}{“第三季”}{‘猩猩’}{“第三季”}{“橙色”}{q1的}{‘苹果’}{“第三季”}{“橘子”}

                                   T = convertvars (T) [“代码”“水果”),“分类”)
                                  
                                      T =8×2表
                                     
                                      代码
                                      水果
                                      ____
                                      _________第一季度苹果第三季度橙色q1: q2香蕉q3猩猩q3橙色q1苹果第三季度橘子

                                   类别(T.fruit)
                                  
                                      ans =6×1单元阵列
                                     
                                      {':'}{‘苹果’}{“香蕉”}{‘猩猩’}{“橙色”}{“橘子”}

                                   T.fruit = mergecats (T.fruit, (:“苹果”]);
                                  
                                   T.fruit = mergecats (T.fruit, (“橙色”“猩猩”“桔子”]);
                                  
                                   T
                                  
                                      T =8×2表
                                     
                                      代码
                                      水果
                                      ____
                                      ______第一季度苹果q3 q1苹果橘子香蕉q3橙橘色q3 q1苹果第三季度

                                   类别(T.fruit)
                                  
                                      ans =3×1单元阵列
                                     
                                      {'苹果'}{“香蕉”}{“橙色”}

                                   主(T,行=“代码”列=“水果”)
                                  
                                      ans =3×4表
                                     
                                      代码
                                      苹果
                                      香蕉
                                      橙色
                                      ____
                                      _____
                                      ______
                                      ______q1 3 0 0 0 1 0 0 0 4第三季度

西蒙 2023年5月13日

@Stephen23

| >编辑:我发现了一个简洁的方式:

| > G = findgroups (U.code);

| > U。数= grouptransform(的(大小(G)), G, @cumsum);

抱歉迟到的回应。我被东西。这确实是一个非常简洁的解决方案。我曾经认为grouptransform()是它的功能非常有限。但当它是把工作放在一个虚拟/额外的变量,它可以相当多才多艺的解决问题。

登录置评。

在回答这个问题。

类别

MATLAB 语言基础知识矩阵和数组

找到更多的在矩阵和数组在帮助中心和文件交换

下载188bet金宝搏

MATLAB

释放

R2023a

社区寻宝

找到宝藏在MATLAB中央,发现社区如何帮助你!

开始狩猎!

使用哑变量unstack重塑表(编辑:替代交叉表方法)

2的评论
显示1年长的评论藏1年长的评论

接受的答案

11日评论
显示十年长的评论隐藏10年长的评论

答案(1)

7评论
显示6年长的评论隐藏6年长的评论

另请参阅

类别

标签

下载188bet金宝搏

释放

社区寻宝

使用哑变量unstack重塑表(编辑:替代交叉表方法)

2的评论 显示1年长的评论藏1年长的评论

接受的答案

11日评论 显示十年长的评论隐藏10年长的评论

答案(1)

7评论 显示6年长的评论隐藏6年长的评论

另请参阅

类别

标签

下载188bet金宝搏

释放

社区寻宝

2的评论
显示1年长的评论藏1年长的评论

11日评论
显示十年长的评论隐藏10年长的评论

7评论
显示6年长的评论隐藏6年长的评论