主要内容

保证金

广义可加模型的分类裕度

    描述

    =利润(Mdl资源描述ResponseVarName返回分类保证金)的广义可加模型Mdl使用预测数据资源描述和真正的类标签资源描述。ResponseVarName

    作为n-乘1数字列向量,其中n为预测器数据中的观测次数。

    =利润(Mdl资源描述Y使用表中的预测数据资源描述和真正的类标签Y

    例子

    =利润(MdlXY使用矩阵中的预测数据X和真正的类标签Y

    例子

    =利润(___“IncludeInteractions”,includeInteractions指定是否在计算中包含交互项。您可以指定includeInteractions除了前面语法中的任何输入参数组合之外。

    例子

    全部折叠

    估计一个广义可加模型的测试样本分类边缘和边缘。测试样本边缘是观察到的真类分数减去假类分数,测试样本边缘是边缘的平均值。

    加载fisheriris数据集。创建X作为一个数字矩阵,包含两个萼片和两个花瓣尺寸的花斑和维珍鸢尾。创建Y作为字符向量的细胞阵列,包含相应的虹膜种类。

    负载fisheriris第1 = strcmp(物种,“多色的”) | strcmp(物种,“virginica”);X =量(第1:);: Y =物种(第1);

    利用系统中的类信息,将观测数据随机划分为训练集和测试集,并进行分层Y.指定30%的抵抗样品进行测试。

    rng (“默认”%的再现性简历= cvpartition (Y,“坚持”, 0.30);

    提取训练和测试指标。

    trainInds =培训(简历);testInds =测试(简历);

    指定训练和测试数据集。

    XTrain = X (trainInds:);YTrain = Y (trainInds);XTest = X (testInds:);欧美= Y (testInds);

    使用预测器训练GAMXTrain和类标签YTrain.推荐的做法是指定类名。

    Mdl = fitcgam (XTrain YTrain,“类名”,{“多色的”“virginica”});

    Mdl是一个ClassificationGAM模型对象。

    估计测试样本的分类边缘和边缘。

    m =利润率(Mdl XTest、欧美);e =边缘(Mdl XTest、欧美)
    e = 0.8000

    显示测试样本分类边缘的直方图。

    直方图(m,长度(独特(m)),“归一化”“概率”)包含(测试样本的利润的) ylabel (“概率”)标题(“测试样本边际的概率分布”

    图中包含一个轴对象。标题为“测试样本边缘概率分布”的坐标轴对象包含一个直方图类型的对象。

    通过检查测试样本的边缘和边缘,将具有线性项的GAM与具有线性和相互作用项的GAM进行比较。仅从这一比较来看,具有最高边缘和边缘的分类器是最好的模型。

    加载电离层数据集。该数据集有34个预测器和351个雷达返回的二进制响应,或坏(“b”)或好(‘g’).

    负载电离层

    利用系统中的类信息,将观测数据随机划分为训练集和测试集,并进行分层Y.指定30%的抵抗样品进行测试。

    rng (“默认”%的再现性简历= cvpartition (Y,“坚持”, 0.30);

    提取训练和测试指标。

    trainInds =培训(简历);testInds =测试(简历);

    指定训练和测试数据集。

    XTrain = X (trainInds:);YTrain = Y (trainInds);XTest = X (testInds:);欧美= Y (testInds);

    训练一个包含预测因子线性和交互项的GAM。指定包含所有可用的交互术语p-值不大于0.05。

    Mdl = fitcgam (XTrain YTrain,“互动”“所有”“MaxPValue”, 0.05)
    Mdl = classificationongam ResponseName: 'Y' CategoricalPredictors: [] ClassNames: {'b' ' 'g'} ScoreTransform: 'logit'截获:3.0398交互:[561x2 double] NumObservations: 246属性,方法

    Mdl是一个ClassificationGAM模型对象。Mdl包括所有可用的交互术语。

    估计的测试样本边缘和边缘Mdl

    M =利润率(Mdl XTest、欧美);E =边缘(Mdl XTest、欧美)
    E = 0.7848

    估计的测试样本边缘和边缘Mdl不包括交互项。

    M_nointeractions =利润率(Mdl XTest,欧美,“IncludeInteractions”、假);E_nointeractions =边缘(Mdl XTest,欧美,“IncludeInteractions”假)
    E_nointeractions = 0.7871

    使用箱形图显示边缘的分布。

    箱线图([M M_nointeractions],“标签”,{“线性和互动术语”“线性条件仅”})标题(“测试样本边距的箱形图”

    图中包含一个轴对象。标题为“测试样本边距的框图”的轴对象包含14个类型为line的对象。

    边缘M_nointeractions具有相似的分布,但只有线性项的分类器的测试样本边缘较大。利润相对较大的分类器优先。

    输入参数

    全部折叠

    广义可加性模型,指定为ClassificationGAMCompactClassificationGAM模型对象。

    • 如果你训练Mdl使用表中包含的样例数据,然后输入数据保证金也必须在表中(资源描述).

    • 如果你训练Mdl使用矩阵中包含的样本数据,然后输入数据保证金也必须在矩阵中(X).

    样本数据,指定为表。每一行的资源描述对应一个观察值,每一列对应一个预测变量。除了字符向量的单元格数组之外,不允许使用多列变量和单元格数组。

    资源描述必须包含所有用于训练的预测因子吗Mdl.可选地,资源描述可以包含一列作为响应变量,一列作为观察权值。

    • 响应变量的数据类型必须与Mdl。Y(该软件将字符串数组视为字符向量的单元格数组。)如果响应变量在资源描述是否与用于训练的响应变量同名Mdl,则不需要指定ResponseVarName

    • 权值必须是一个数字向量。中必须指定观测权值资源描述通过使用“重量”

    如果你训练Mdl使用表中包含的样例数据,然后输入数据保证金也必须在表中。

    数据类型:表格

    中的响应变量名,指定为包含响应变量名的字符向量或字符串标量资源描述.例如,如果响应变量Y存储在资源描述。Y,则指定为“Y”

    数据类型:字符|字符串

    类标签,指定为类别、字符或字符串数组、逻辑或数字向量或字符向量的单元格数组。每一行的Y的对应行的分类X资源描述

    Y必须具有相同的数据类型Mdl。Y(该软件将字符串数组视为字符向量的单元格数组。)

    数据类型:||分类|逻辑|字符|字符串|细胞

    预测器数据,指定为数字矩阵。每一行的X对应一个观察值,每一列对应一个预测变量。

    如果你训练Mdl使用矩阵中包含的样本数据,然后输入数据保证金也必须在矩阵中。

    数据类型:|

    标记以包含模型的交互术语,指定为真正的

    默认的includeInteractions值是真正的如果Mdl包含交互方面。该值必须为如果模型不包含交互项。

    数据类型:逻辑

    更多关于

    全部折叠

    分类保证金

    分类保证金二元分类是,对于每个观察,真实类的分类分数与虚假类的分类分数之间的差值。

    如果边界在相同的尺度上(即,得分值基于相同的得分转换),那么它们将作为分类置信度度量。在众多分类公司中,那些利润率更高的公司表现更好。

    介绍了R2021a