文档帮助中心文档
生成功能转换
一个FeatureTransformer对象包含关于从训练数据集生成的特征转换的信息。为了更好地理解生成的特性,您可以使用描述对象的功能。要将相同的训练集特征转换应用到测试集,可以使用变换对象的功能。
FeatureTransformer
描述
变换
创建一个FeatureTransformer对象的gencfeatures.函数。
gencfeatures.
展开全部
类型
“分类”
此属性是只读的。
模型类型,指定为“分类”.
targetlearner
“线性”
“包”
期望的学习者类型,指定为“线性”或“包”.该软件创建并选择新的特征,假设它们将分别用于训练线性分类器或袋式集成分类器。
NumEngineeredFeatures
由此产生的工程特征数量gencfeatures.并存储在FeatureTransformer,返回为非负标量。
数据类型:双倍的
双倍的
NumOriginalFeatures
保留的原始特征的数量gencfeatures.并存储在FeatureTransformer,返回为非负标量。
TotalNumFeatures
存储的特性总数FeatureTransformer,返回为非负标量。TotalNumFeatures等于NumEngineeredFeatures和NumOriginalFeatures.
全部收缩
利用预测器数据表生成特征gencfeatures..控件检查生成的特性描述对象的功能。
将停电数据作为表读取到工作区中。删除缺少值的观察,并显示表的前几行。
中断= readtable (“outages.csv”);台= rmmissing(中断);头(台)
ans =.8×6表地区OutageTime RestorationTime造成损失客户 _____________ ________________ ______ __________ ________________ ___________________ {' 西南的}2002-02-01 12:18 458.98 - 1.8202 e + 06 2002-02-01 16:50{“暴风雪”}{“东南”}2003-02-07)21:15 289.4 - 1.4294 e + 05 2003-02-07 08:14{“暴风雪”}{‘西方’}2004-04-06 05:44 434.813.4037e+05 2004-04-06 06:10 {'equipment fault'} {'MidWest'} 2002-03-16 06:18 23:23 {'severe storm'} {'West'} 2003-06-18 02:49 00 2003-06-18 10:54 {'attack'} {'NorthEast'} 2003-07-16 16:23 239.93 49434 2003-07-17 01:12 {'fire'} {'MidWest'} 2004-09-27 11:09 286.72 66104 2004-09-27 16:37 {'equipment fault'}2004-09-05 17:48 73.387 36073 2004-09-05 20:46{'设备故障'}
一些变量,比如OutageTime和RestorationTime,具有类别训练功能的不支持的数据类型金宝appfitcensemble.
OutageTime
RestorationTime
fitcensemble
从预测器中生成25个特性资源描述那可以用来训练一套宽松的服装。指定地区表变量作为响应。
资源描述
地区
变压器= gencfeatures(资源描述,“地区”25岁的“TargetLearner”,“包”)
变压器= FeatureTransformer具有属性:类型:'分类'TargetLearner:'袋'NumengineReedures:22码码型:3 Totalnumfeatures:25
的变压器对象包含关于生成的特性和用于创建它们的转换的信息。
变压器
要更好地理解生成的特性,请使用描述对象的功能。
信息=描述(变压器)
info =25×4表键入IsOriginal InputVariables变换___________ __________ ___________________________ _________________________________________________________________________________________________________________损耗数值真损失“” C(原因)范畴真正原因“类型分类的变量从一个单元中的数据类型转换”,“数字真顾客顾客” RestorationTime-OutageTime数字假OutageTime,RestorationTime“经过时间在几秒钟内以秒为单位,在几秒钟之间“SDN(OutageTime)数字虚假超越OUTME”从01-FEB-2002-2002 12:18:00“WOE3(C(原因))数字错误原因”从单元数据转换的类型分类的变量类型 - >证据的重量(正面=东南)“DOY(OutageTime)数字虚假超越”一年中的一天“年”年(OutageTime)数字虚假过帐“年”KMD1数字假丢失,客户“欧几里德距离地点1(kmeansk = 10)“KMD5数字假丢失,客户”euclidean distance到质心5(kmeans群集与k = 10)“四分之一(OutageTime)数字假OutageTime”一年中的季度“WOE2(C(原因))数字错误原因”从单元数据类型转换的类型分类的变量“证据(正面级别=东北)“年(恢复时间)数字错误恢复时间”年“月”月份(OutageTime)数字虚假过帐“年的月份”亏损。*客户数字假丢失,客户“丢失”)数字虚假超越“一天中的时间”⋮
的信息表中显示如下:
信息
前三个生成的特性是原始的资源描述,尽管软件可以转换原始文件导致变量变成分类变量c(原因).
导致
c(原因)
的OutageTime和RestorationTime变量没有作为生成的特性包含在内,因为它们是datetime变量,不能用于训练袋装集成模型。然而,该软件从这些变量中派生出许多生成的特性,例如第四个特性RestorationTime-OutageTime.
datetime
RestorationTime-OutageTime
一些生成的特性是多个转换的组合。例如,该软件生成第六个特性WOE3(C(原因))通过转换导致变量到分类变量,然后计算结果变量的证据权重值。
WOE3(C(原因))
仅使用由返回的数字生成的特征来训练线性分类器gencfeatures..
加载病人数据集。从变量的子集创建一个表。
病人
负载病人台=表(年龄、舒张压、高度、SelfAssessedHealthStatus...吸烟者、收缩压、体重、性别);
将数据划分为训练集和测试集。使用大约70%的观察数据作为训练数据,30%的观察数据作为测试数据。使用cvpartition.
cvpartition
rng (“默认”) c = cvpartition(Tbl.)性别、“坚持”, 0.30);TrainTbl =(资源(培训(c):);TestTbl =台(测试(c):);
使用训练数据生成25个新特征。指定最小冗余最大相关性(MRMR)特征选择方法来选择新特征。
变压器= gencfeatures (TrainTbl,“性别”25岁的...“peazerseltionmethod”,“mrmr”)
Type: 'classification' TargetLearner: 'linear' NumEngineeredFeatures: 24 NumOriginalFeatures: 1 TotalNumFeatures: 25
检查生成的特性。
info =25×4表类型甲型Insoliginal Inputvarizations转型___________ ___________________________________________________________________________c(收缩系统))数字假收缩“SQRT() - >具有Z分数的标准化(平均值= 11.086,STD = 0.29694)”ZSC(SIN(SIN(SYSTOLIC))数字错误的收缩系统“SIN() - >标准化与Z-score(平均= -0.1303,std = 0.72575)“zsc(systolic./weight)数字假收缩,重量”收缩性./重量 - >标准化与z-score(平均值= 0.82662,std = 0.14555)“zsc(年龄+重量)数字错误年龄,重量“年龄+重量 - >具有z分数的标准化(平均值= 191.1143,std = 28.6976)”zsc(年龄/重量)数字错误年龄,重量“年龄/重量 - >标准化与z分数标准化(平均值= 0.25424,STD= 0.062486)“Zsc(舒张压率*重量)数字假舒张,重量”舒张。*重量 - >标准化与Z分数(平均值= 12864.6857,STD = 2731.1613)“Q6(高度)分类假高度”Quiprobable Binning(Number箱= 6)“Zsc(收缩+重量)数值假收缩,重量”收缩+重量 - >具有Z分数的标准化(平均值= 276.1429,STD = 28.7111)“ZSC(舒张重量)数字假舒张,重量”舒张 - 重量 - >用Z分数标准化(平均值= -69.4286,STD = 26.2411)“ZSC(年龄重量)数字错误年龄,重量”年龄 - 重量 - >具有Z分数的标准化(平均值= -115.2,STD= 27.0113)“ZSC(高度为/重)数字假高度,重量”高度“/重量 - >具有Z分数的标准化(平均值= 0.44797,STD = 0.067992)”ZSC(高度。*重量)数字错误高度,重量“高度。*重量 - >标准化用Z分数(平均值= 10291.0714,STD = 2111.9071)”ZSC(舒张压+重量)数字假舒张,重量“舒张+重量 - >标准化具有z-score(平均值= 236.8857,std = 29.2439)“zsc(年龄。*重量)数字错误年龄,重量”年龄。*重量 - >用z分数标准化(平均值= 5836.5571,std = 1621.0685)“⋮
转换训练和测试集,但只保留数字预测器。
numericIdx =(信息。类型= =“数字”);NewTrainTbl =变换(变压器、TrainTbl、numericIdx);NewTestTbl =变换(变压器、TestTbl、numericIdx);
使用转换后的训练数据训练线性模型。使用混淆矩阵可视化模型测试集预测的准确性。
Mdl = fitclinear (NewTrainTbl TrainTbl.Gender);NewTestTbl testLabels =预测(Mdl);confusionchart (TestTbl.Gender testLabels)
描述|fitcensemble|fitclinear|gencfeatures.|变换
fitclinear
您有此示例的修改版本。您是否希望使用您的编辑打开此示例?
您点击了一个对应于这个MATLAB命令的链接:
在MATLAB命令窗口中输入它来运行命令。Web浏览器不支持MATLAB命令。金宝app
选择一个网站来获得可用的翻译内容,并看到当地的活动和提供。根据您所在的位置,我们建议您选择:.
你也可以从以下列表中选择一个网站:
请选择表现最佳的中国网站(中文或英文)。MathWorks的其他国家网站并没有针对您所在位置的访问进行优化。
联系您当地的办公室