哑变量

本主题将介绍虚拟变量,描述如何在软件分类和回归问题创建它们,并展示了如何您可以通过使用创建虚拟变量dummyvar功能。

什么是虚拟变量?

当您执行分类和回归分析,您经常需要包括连续(定量)和分类(定性)预测变量。分类变量不能被包括作为数字数组。数字阵列具有顺序和幅度。分类变量可以具有顺序(例如,一个定序变量),但它不具有幅度。使用数字阵列意味着类别之间已知的“距离”。适当的办法,包括分类预测是虚拟变量。要定义虚拟变量,即具有值0和1使用指示器变量。

该软件选三种方案中的一个来定义基于分析的类型虚拟变量,如在接下来的章节中描述。例如,假设你有三个类别分类变量:介质

全虚拟变量

表示分类变量与使用三个虚拟变量,对于每个电平一个可变三类。

X0是具有值1的用于虚拟变量,否则为0。X1是具有值1的用于虚拟变量介质,否则为0。X2是具有值1的用于虚拟变量,否则为0。

哑变量:参照组

表示分类变量使用两个虚拟变量与参考组三类。

你能辨别介质只使用X1X2X0。为观察有两个虚拟变量0。由全0代表的类别是参照组

虚拟变量为有序分类变量:参照组

假设类的数学排序<介质<。为了指示排序,使用更高类别的更多1S。

X1是具有值1的用于虚拟变量介质; 0X2是具有值1的用于虚拟变量,否则为0。

您可以表明一个明确的变量是使用数学排序“序”的名称 - 值对参数明确的功能。

创建虚拟变量

虚拟变量自动生成

统计和机器学习工具箱™提供了多种分类和回归拟合函数接受分类预测。

以下是拟合函数识别分类预测的默认行为。

  • 如果预测数据是在一个表中,则所述功能假设变量是分类,如果它是一个逻辑向量,分类矢量,字符数组,字符串数组,或字符向量的单元阵列。拟合函数是利用决策树假设有序分类向量是连续的变量。

  • 如果预测数据是矩阵,所述功能假设所有预测是连续的。

要确定任何其他预测作为分类预测,指定它们通过使用'CategoricalPredictors'要么'CategoricalVars'名称 - 值对的参数。

拟合函数处理标识分类预测如下:

  • fitcsvmfitrgpfitrsvm使用两种不同的方案来创建虚拟变量,取决于分类变量是否为无序或有序。

  • 参数回归拟合函数如fitlmfitglm采用哑变量:参照组。当功能包括虚拟变量,伪变量的估计系数是相对于参照组。对于一个示例,请参见线性回归与分类预测

  • fitlmefitglme允许您指定使用创建虚拟变量的方案'DummyVarCoding'名称 - 值对的参数。该功能支持金宝app全虚拟变量'DummyVarCoding', '全')和哑变量:参照组'DummyVarCoding', '参考')。您还可以指定'DummyVarCoding', '效果'从而使虚拟变量的估计系数总和为0。注意,这两个功能不提供用于指定分类变量的名称 - 值对参数。

  • 接受分类预测其他拟合函数使用,可以处理分类预测,而无需创建虚拟变量算法。

虚拟变量手动创建

这个例子展示了如何通过创建自己的虚拟变量的设计矩阵dummyvar功能。该函数接受分组变量和返回包含零和一,它的列是用于分组变量虚拟变量的矩阵。

创建分类数据指定性别的一个列向量。

性别分类=({'男';'女';'女';'男';'女'});

创建虚拟变量性别

DV = dummyvar(性别)
DV =5×20 1 1 0 1 0 0 1 1 0

DV具有对应于行的数量五排性别两列的独特群体,。列顺序对应级别的顺序性别。对于分类阵列,默认顺序是升序字母。您可以通过查看订单类别功能。

类别(性别)
ANS =2×1单元{'女性男性' }

要在回归模型中使用的虚拟变量,则必须删除列(创建一个参照组)或适合回归模型没有截距项。对于性别的例子,你只需要一个虚拟变量来代表两种性别。请注意,如果你添加一个截距项的完整设计矩阵发生了什么DV

X = [一(5,1)DV]
X =5×31 0 1 1 1 0 1 1 0 1 0 1 1 1 0
秩(X)
ANS = 2

与截距项的设计矩阵不是满秩的,不可逆的。由于这种线性相关的,只使用C- 1个指标变量来表示一个分类变量与C类别在回归模型截距项。

也可以看看

|

相关话题