主要内容

边缘

广义可加模型的分类边

    描述

    e=边缘(Mdl资源描述ResponseVarName返回分类的优势e)的广义可加模型Mdl使用预测数据资源描述和真正的类标签资源描述。ResponseVarName

    e=边缘(Mdl资源描述Y使用表中的预测数据资源描述和真正的类标签Y

    例子

    e=边缘(MdlXY使用矩阵中的预测数据X和真正的类标签Y

    例子

    e=边缘(___名称,值除了前面语法中的任何输入参数组合外,还使用一个或多个名称-值参数指定选项。例如,您可以指定观察权值以及是否在计算中包含交互项。

    例子

    全部折叠

    估计一个广义可加模型的测试样本分类边缘和边缘。测试样本边缘是观察到的真类分数减去假类分数,测试样本边缘是边缘的平均值。

    加载fisheriris数据集。创建X作为一个数字矩阵,包含两个萼片和两个花瓣尺寸的花斑和维珍鸢尾。创建Y作为字符向量的细胞阵列,包含相应的虹膜种类。

    负载fisheriris第1 = strcmp(物种,“多色的”) | strcmp(物种,“virginica”);X =量(第1:);: Y =物种(第1);

    利用系统中的类信息,将观测数据随机划分为训练集和测试集,并进行分层Y.指定30%的抵抗样品进行测试。

    rng (“默认”%的再现性简历= cvpartition (Y,“坚持”, 0.30);

    提取训练和测试指标。

    trainInds =培训(简历);testInds =测试(简历);

    指定训练和测试数据集。

    XTrain = X (trainInds:);YTrain = Y (trainInds);XTest = X (testInds:);欧美= Y (testInds);

    使用预测器训练GAMXTrain和类标签YTrain.推荐的做法是指定类名。

    Mdl = fitcgam (XTrain YTrain,“类名”,{“多色的”“virginica”});

    Mdl是一个ClassificationGAM模型对象。

    估计测试样本的分类边缘和边缘。

    m =利润率(Mdl XTest、欧美);e =边缘(Mdl XTest、欧美)
    e = 0.8000

    显示测试样本分类边缘的直方图。

    直方图(m,长度(独特(m)),“归一化”“概率”)包含(测试样本的利润的) ylabel (“概率”)标题(“测试样本边际的概率分布”

    图中包含一个轴对象。标题为“测试样本边缘概率分布”的坐标轴对象包含一个直方图类型的对象。

    估计一个广义可加模型的测试样本加权边缘(边际的加权平均值)。

    加载fisheriris数据集。创建X作为一个数字矩阵,包含两个萼片和两个花瓣尺寸的花斑和维珍鸢尾。创建Y作为字符向量的细胞阵列,包含相应的虹膜种类。

    负载fisheririsidx1 = strcmp(物种,“多色的”) | strcmp(物种,“virginica”);X =量(idx1,:);Y =物种(idx1,:);

    假设一些测量的质量较低,因为它们是用较旧的技术测量的。为了模拟这种效果,在20个测量值的随机子集中添加噪声。

    rng (“默认”%的再现性idx2 = randperm(大小(X, 1), 20);X(idx2,:) = X(idx2,:) + 2*randn(20,size(X,2));

    利用系统中的类信息,将观测数据随机划分为训练集和测试集,并进行分层Y.指定30%的抵抗样品进行测试。

    简历= cvpartition (Y,“坚持”, 0.30);

    提取训练和测试指标。

    trainInds =培训(简历);testInds =测试(简历);

    指定训练和测试数据集。

    XTrain = X (trainInds:);YTrain = Y (trainInds);XTest = X (testInds:);欧美= Y (testInds);

    使用预测器训练GAMXTrain和类标签YTrain.推荐的做法是指定类名。

    Mdl = fitcgam (XTrain YTrain,“类名”,{“多色的”“virginica”});

    Mdl是一个ClassificationGAM模型对象。

    估计测试样本边缘。

    e =边缘(Mdl XTest、欧美)
    e = 0.8000

    平均保证金约为0.80。

    降低噪声测量的影响的一种方法是给它们分配比其他观测值更小的权重。定义一个权重向量,使高质量的观测值的权重是其他观测值的两倍。

    n =大小(X, 1);重量= 1(大小(X, 1), 1);权重(idx2) = 0.5;weightsTrain =重量(trainInds);weightsTest =重量(testInds);

    使用预测器训练GAMXTrain、类标签YTrain,重量weightsTrain

    Mdl_W = fitcgam (XTrain YTrain,“重量”weightsTrain,...“类名”,{“多色的”“virginica”});

    利用加权方案估计测试样本的加权边缘。

    e_W =边缘(Mdl_W XTest,欧美,“重量”weightsTest)
    e_W = 0.8770

    加权平均保证金约为0.88。这一结果表明,加权分类器标签的平均置信度更高。

    通过检查测试样本的边缘和边缘,将具有线性项的GAM与具有线性和相互作用项的GAM进行比较。仅从这一比较来看,具有最高边缘和边缘的分类器是最好的模型。

    加载电离层数据集。该数据集有34个预测器和351个雷达返回的二进制响应,或坏(“b”)或好(‘g’).

    负载电离层

    利用系统中的类信息,将观测数据随机划分为训练集和测试集,并进行分层Y.指定30%的抵抗样品进行测试。

    rng (“默认”%的再现性简历= cvpartition (Y,“坚持”, 0.30);

    提取训练和测试指标。

    trainInds =培训(简历);testInds =测试(简历);

    指定训练和测试数据集。

    XTrain = X (trainInds:);YTrain = Y (trainInds);XTest = X (testInds:);欧美= Y (testInds);

    训练一个包含预测因子线性和交互项的GAM。指定包含所有可用的交互术语p-值不大于0.05。

    Mdl = fitcgam (XTrain YTrain,“互动”“所有”“MaxPValue”, 0.05)
    Mdl = classificationongam ResponseName: 'Y' CategoricalPredictors: [] ClassNames: {'b' ' 'g'} ScoreTransform: 'logit'截获:3.0398交互:[561x2 double] NumObservations: 246属性,方法

    Mdl是一个ClassificationGAM模型对象。Mdl包括所有可用的交互术语。

    估计的测试样本边缘和边缘Mdl

    M =利润率(Mdl XTest、欧美);E =边缘(Mdl XTest、欧美)
    E = 0.7848

    估计的测试样本边缘和边缘Mdl不包括交互项。

    M_nointeractions =利润率(Mdl XTest,欧美,“IncludeInteractions”、假);E_nointeractions =边缘(Mdl XTest,欧美,“IncludeInteractions”假)
    E_nointeractions = 0.7871

    使用箱形图显示边缘的分布。

    箱线图([M M_nointeractions],“标签”,{“线性和互动术语”“线性条件仅”})标题(“测试样本边距的箱形图”

    图中包含一个轴对象。标题为“测试样本边距的框图”的轴对象包含14个类型为line的对象。

    边缘M_nointeractions具有相似的分布,但只有线性项的分类器的测试样本边缘较大。利润相对较大的分类器优先。

    输入参数

    全部折叠

    广义可加性模型,指定为ClassificationGAMCompactClassificationGAM模型对象。

    • 如果你训练Mdl使用表中包含的样例数据,然后输入数据边缘也必须在表中(资源描述).

    • 如果你训练Mdl使用矩阵中包含的样本数据,然后输入数据边缘也必须在矩阵中(X).

    样本数据,指定为表。每一行的资源描述对应一个观察值,每一列对应一个预测变量。除了字符向量的单元格数组之外,不允许使用多列变量和单元格数组。

    资源描述必须包含所有用于训练的预测因子吗Mdl.可选地,资源描述可以包含一列作为响应变量,一列作为观察权值。

    • 响应变量的数据类型必须与Mdl。Y(该软件将字符串数组视为字符向量的单元格数组。)如果响应变量在资源描述是否与用于训练的响应变量同名Mdl,则不需要指定ResponseVarName

    • 权值必须是一个数字向量。中必须指定观测权值资源描述通过使用“重量”

    如果你训练Mdl使用表中包含的样例数据,然后输入数据边缘也必须在表中。

    数据类型:表格

    中的响应变量名,指定为包含响应变量名的字符向量或字符串标量资源描述.例如,如果响应变量Y存储在资源描述。Y,则指定为“Y”

    数据类型:字符|字符串

    类标签,指定为类别、字符或字符串数组、逻辑或数字向量或字符向量的单元格数组。每一行的Y的对应行的分类X资源描述

    Y必须具有相同的数据类型Mdl。Y(该软件将字符串数组视为字符向量的单元格数组。)

    数据类型:||分类|逻辑|字符|字符串|细胞

    预测器数据,指定为数字矩阵。每一行的X对应一个观察值,每一列对应一个预测变量。

    如果你训练Mdl使用矩阵中包含的样本数据,然后输入数据边缘也必须在矩阵中。

    数据类型:|

    名称-值参数

    指定可选的逗号分隔的对名称,值参数。的名字参数名和价值为对应值。的名字必须出现在引号内。可以以任意顺序指定多个名称和值对参数Name1, Value1,…,的家

    例子:“IncludeInteractions”,假的,“权重”,w指定从模型中排除交互项并使用观测权值w

    标记以包含模型的交互术语,指定为真正的

    默认的“IncludeInteractions”值是真正的如果Mdl包含交互方面。该值必须为如果模型不包含交互项。

    例子:“IncludeInteractions”,假的

    数据类型:逻辑

    中的观测权值,指定为标量值的向量或变量的名称资源描述.该软件对每一行的观察结果进行加权X资源描述对应的值在权重.的大小权重必须等于行数X资源描述

    如果您将输入数据指定为表资源描述,然后权重可以是变量的名称资源描述它包含一个数字向量。在这种情况下,您必须指定权重作为字符向量或字符串标量。例如,如果权重向量W存储在资源描述。W,则指定为' W '

    边缘对每个类别的权重进行归一化,使其与各自类别的先验概率值相加。

    数据类型:||字符|字符串

    更多关于

    全部折叠

    分类的优势

    分类的优势为分类边界的加权平均值。

    在多个分类器中进行选择的一种方法是选择产生最大边的分类器,例如执行特征选择。

    分类保证金

    分类保证金二元分类是,对于每个观察,真实类的分类分数与虚假类的分类分数之间的差值。

    如果边界在相同的尺度上(即,得分值基于相同的得分转换),那么它们将作为分类置信度度量。在众多分类公司中,那些利润率更高的公司表现更好。

    介绍了R2021a