主要内容

FeatureTransformer

生成功能转换

    描述

    一个FeatureTransformer对象包含关于从训练数据集生成的特征转换的信息。为了更好地理解生成的特性,您可以使用描述对象的功能。要将相同的训练集特征转换应用到测试集,可以使用变换对象的功能。

    创建

    创建一个FeatureTransformer对象的gencfeatures.函数。

    属性

    展开全部

    此属性是只读的。

    模型类型,指定为“分类”

    此属性是只读的。

    期望的学习者类型,指定为“线性”“包”.该软件创建并选择新的特征,假设它们将分别用于训练线性分类器或袋式集成分类器。

    此属性是只读的。

    由此产生的工程特征数量gencfeatures.并存储在FeatureTransformer,返回为非负标量。

    数据类型:双倍的

    此属性是只读的。

    保留的原始特征的数量gencfeatures.并存储在FeatureTransformer,返回为非负标量。

    数据类型:双倍的

    此属性是只读的。

    存储的特性总数FeatureTransformer,返回为非负标量。TotalNumFeatures等于NumEngineeredFeaturesNumOriginalFeatures

    数据类型:双倍的

    对象的功能

    描述 描述生成特性
    变换 使用生成的特性转换新数据

    例子

    全部收缩

    利用预测器数据表生成特征gencfeatures..控件检查生成的特性描述对象的功能。

    将停电数据作为表读取到工作区中。删除缺少值的观察,并显示表的前几行。

    中断= readtable (“outages.csv”);台= rmmissing(中断);头(台)
    ans =.8×6表地区OutageTime RestorationTime造成损失客户  _____________ ________________ ______ __________ ________________ ___________________ {' 西南的}2002-02-01 12:18 458.98 - 1.8202 e + 06 2002-02-01 16:50{“暴风雪”}{“东南”}2003-02-07)21:15 289.4 - 1.4294 e + 05 2003-02-07 08:14{“暴风雪”}{‘西方’}2004-04-06 05:44 434.813.4037e+05 2004-04-06 06:10 {'equipment fault'} {'MidWest'} 2002-03-16 06:18 23:23 {'severe storm'} {'West'} 2003-06-18 02:49 00 2003-06-18 10:54 {'attack'} {'NorthEast'} 2003-07-16 16:23 239.93 49434 2003-07-17 01:12 {'fire'} {'MidWest'} 2004-09-27 11:09 286.72 66104 2004-09-27 16:37 {'equipment fault'}2004-09-05 17:48 73.387 36073 2004-09-05 20:46{'设备故障'}

    一些变量,比如OutageTimeRestorationTime,具有类别训练功能的不支持的数据类型金宝appfitcensemble

    从预测器中生成25个特性资源描述那可以用来训练一套宽松的服装。指定地区表变量作为响应。

    变压器= gencfeatures(资源描述,“地区”25岁的“TargetLearner”“包”
    变压器= FeatureTransformer具有属性:类型:'分类'TargetLearner:'袋'NumengineReedures:22码码型:3 Totalnumfeatures:25

    变压器对象包含关于生成的特性和用于创建它们的转换的信息。

    要更好地理解生成的特性,请使用描述对象的功能。

    信息=描述(变压器)
    info =25×4表键入IsOriginal InputVariables变换___________ __________ ___________________________ _________________________________________________________________________________________________________________损耗数值真损失“” C(原因)范畴真正原因“类型分类的变量从一个单元中的数据类型转换”,“数字真顾客顾客” RestorationTime-OutageTime数字假OutageTime,RestorationTime“经过时间在几秒钟内以秒为单位,在几秒钟之间“SDN(OutageTime)数字虚假超越OUTME”从01-FEB-2002-2002 12:18:00“WOE3(C(原因))数字错误原因”从单元数据转换的类型分类的变量类型 - >证据的重量(正面=东南)“DOY(OutageTime)数字虚假超越”一年中的一天“年”年(OutageTime)数字虚假过帐“年”KMD1数字假丢失,客户“欧几里德距离地点1(kmeansk = 10)“KMD5数字假丢失,客户”euclidean distance到质心5(kmeans群集与k = 10)“四分之一(OutageTime)数字假OutageTime”一年中的季度“WOE2(C(原因))数字错误原因”从单元数据类型转换的类型分类的变量“证据(正面级别=东北)“年(恢复时间)数字错误恢复时间”年“月”月份(OutageTime)数字虚假过帐“年的月份”亏损。*客户数字假丢失,客户“丢失”)数字虚假超越“一天中的时间”⋮

    信息表中显示如下:

    • 前三个生成的特性是原始的资源描述,尽管软件可以转换原始文件导致变量变成分类变量c(原因)

    • OutageTimeRestorationTime变量没有作为生成的特性包含在内,因为它们是datetime变量,不能用于训练袋装集成模型。然而,该软件从这些变量中派生出许多生成的特性,例如第四个特性RestorationTime-OutageTime

    • 一些生成的特性是多个转换的组合。例如,该软件生成第六个特性WOE3(C(原因))通过转换导致变量到分类变量,然后计算结果变量的证据权重值。

    仅使用由返回的数字生成的特征来训练线性分类器gencfeatures.

    加载病人数据集。从变量的子集创建一个表。

    负载病人台=表(年龄、舒张压、高度、SelfAssessedHealthStatus...吸烟者、收缩压、体重、性别);

    将数据划分为训练集和测试集。使用大约70%的观察数据作为训练数据,30%的观察数据作为测试数据。使用cvpartition

    rng (“默认”) c = cvpartition(Tbl.)性别、“坚持”, 0.30);TrainTbl =(资源(培训(c):);TestTbl =台(测试(c):);

    使用训练数据生成25个新特征。指定最小冗余最大相关性(MRMR)特征选择方法来选择新特征。

    变压器= gencfeatures (TrainTbl,“性别”25岁的...“peazerseltionmethod”“mrmr”
    Type: 'classification' TargetLearner: 'linear' NumEngineeredFeatures: 24 NumOriginalFeatures: 1 TotalNumFeatures: 25

    检查生成的特性。

    信息=描述(变压器)
    info =25×4表类型甲型Insoliginal Inputvarizations转型___________ ___________________________________________________________________________c(收缩系统))数字假收缩“SQRT() - >具有Z分数的标准化(平均值= 11.086,STD = 0.29694)”ZSC(SIN(SIN(SYSTOLIC))数字错误的收缩系统“SIN() - >标准化与Z-score(平均= -0.1303,std = 0.72575)“zsc(systolic./weight)数字假收缩,重量”收缩性./重量 - >标准化与z-score(平均​​值= 0.82662,std = 0.14555)“zsc(年龄+重量)数字错误年龄,重量“年龄+重量 - >具有z分数的标准化(平均值= 191.1143,std = 28.6976)”zsc(年龄/重量)数字错误年龄,重量“年龄/重量 - >标准化与z分数标准化(平均值= 0.25424,STD= 0.062486)“Zsc(舒张压率*重量)数字假舒张,重量”舒张。*重量 - >标准化与Z分数(平均值= 12864.6857,STD = 2731.1613)“Q6(高度)分类假高度”Quiprobable Binning(Number箱= 6)“Zsc(收缩+重量)数值假收缩,重量”收缩+重量 - >具有Z分数的标准化(平均值= 276.1429,STD = 28.7111)“ZSC(舒张重量)数字假舒张,重量”舒张 - 重量 - >用Z分数标准化(平均值= -69.4286,STD = 26.2411)“ZSC(年龄重量)数字错误年龄,重量”年龄 - 重量 - >具有Z分数的标准化(平均值= -115.2,STD= 27.0113)“ZSC(高度为/重)数字假高度,重量”高度“/重量 - >具有Z分数的标准化(平均值= 0.44797,STD = 0.067992)”ZSC(高度。*重量)数字错误高度,重量“高度。*重量 - >标准化用Z分数(平均值= 10291.0714,STD = 2111.9071)”ZSC(舒张压+重量)数字假舒张,重量“舒张+重量 - >标准化具有z-score(平均​​值= 236.8857,std = 29.2439)“zsc(年龄。*重量)数字错误年龄,重量”年龄。*重量 - >用z分数标准化(平均值= 5836.5571,std = 1621.0685)“⋮

    转换训练和测试集,但只保留数字预测器。

    numericIdx =(信息。类型= =“数字”);NewTrainTbl =变换(变压器、TrainTbl、numericIdx);NewTestTbl =变换(变压器、TestTbl、numericIdx);

    使用转换后的训练数据训练线性模型。使用混淆矩阵可视化模型测试集预测的准确性。

    Mdl = fitclinear (NewTrainTbl TrainTbl.Gender);NewTestTbl testLabels =预测(Mdl);confusionchart (TestTbl.Gender testLabels)

    在R2021A介绍