主要内容

支持向量机预测的定点代码生成

这个例子展示了如何为支持向量机(SVM)模型的预测生成定点C/ c++代码。金宝app与一般的C/ c++代码生成工作流相比,定点代码生成需要一个额外的步骤,定义预测所需的变量的定点数据类型。使用。创建定点数据类型结构generateLearnerDataTypeFcn,并将该结构用作的输入参数loadLearnerForCoder在入口点函数中。您还可以在生成代码之前优化定点数据类型。

此流程图显示了定点代码生成工作流。

  1. 训练支持向量机模型。

  2. 使用保存训练过的模型saveLearnerForCoder

  3. 通过使用生成的数据类型函数定义预测所需变量的定点数据类型generateLearnerDataTypeFcn

  4. 定义一个入口点函数,通过使用这两个函数来加载模型loadLearnerForCoder和结构,然后调用预测函数。

  5. (可选)优化定点数据类型。

  6. 生成定点C/ c++代码。

  7. 验证生成的代码。

步骤5是一个可选步骤,用于改进生成的定点代码的性能。要做到这一点,重复这两个步骤,直到您对代码性能感到满意:

  1. 使用方法记录变量的最小值和最大值,用于预测buildInstrumentedMex(定点设计师)

  2. 使用showInstrumentationResults(定点设计师).然后,调优定点数据类型(如果必要的话),以防止溢出和下流,并提高定点代码的精度。

在此工作流中,通过使用生成的数据类型函数定义定点数据类型generateLearnerDataTypeFcn.将变量的数据类型从算法中分离出来可以使测试更简单。通过使用数据类型函数的输入参数,可以通过编程在浮点和定点之间切换数据类型。此外,这个工作流是兼容的手动定点转换工作流(定点设计师)

数据进行预处理

加载census1994数据集。这个数据集由美国人口普查局的人口统计数据组成,用来预测一个人的年收入是否超过5万美元。

负载census1994

考虑一个模型,它根据员工的年龄、工人阶级、教育水平、资本损益和每周工作时间来预测员工的工资类别。提取感兴趣的变量并使用表保存它们。

台= adultdata (:, {“年龄”“education_num”“capital_gain”“capital_loss”“hours_per_week”});

打印表格的摘要。

总结(台)
变量:年龄:32561 x1双重价值:17分钟37 Max 90 education_num中位数:32561 x1双重价值:1分钟10马克斯16 capital_gain中位数:32561 x1双重价值:最小值0最大99999 capital_loss: 32561 x1双重价值:最小值0最大4356 hours_per_week: 32561 x1双重价值:最小值40 Max 99

变量的比例是不一致的。在这种情况下,您可以使用标准化数据集训练模型,方法是指定“标准化”的名称-值对参数fitcsvm.然而,在定点代码中添加标准化操作可能会降低精度并增加内存使用。相反,您可以手动标准化数据集,如本例所示。该示例还描述了如何在最后检查内存使用情况。

定点代码生成不支持表或类别数组。金宝app定义预测数据X使用数字矩阵,并定义类标签Y使用逻辑向量。逻辑向量在二进制分类问题中最有效地使用内存。

X = table2array(台);Y = adultdata。工资= =“< = 50 k”

定义观测权值w

w = adultdata.fnlwgt;

随着模型中支持向量数量的增加,训练模型的记忆使用也会增加。金宝app为了减少支持向量的数量,可以在训练时通过使用金宝app“BoxConstraint”名称-值对参数或使用下采样的代表性数据集进行训练。注意,增加方框约束会导致训练时间变长,而使用下采样数据集会降低训练模型的准确性。在本例中,从数据集中随机抽取1000个观察数据,并使用下采样的数据进行训练。

rng (“默认”%的再现性[X_sampled, idx] = datasample (X, 1000,“替换”、假);Y_sampled = Y (idx);w_sampled = w (idx);

通过对模型的训练,得到加权平均值和标准差“重量”“标准化”名称-值对参数。

tempMdl = fitcsvm (X_sampled Y_sampled,“重量”w_sampled,“KernelFunction”“高斯”“标准化”,真正的);μ= tempMdl.Mu;σ= tempMdl.Sigma;

如果你不使用“成本”“之前”,或“重量”的名称-值对参数,然后可以通过使用zscore函数。

[standardizedX_sampled、μ、σ]= zscore (X_sampled);

通过使用标准化预测数据μσ

standardizedX = (xμ)。/σ;standardizedX_sampled = standardizedX (idx:);

您可以使用测试数据集来验证经过训练的模型,并测试仪器化的MEX函数。使用指定测试数据集并标准化测试预测器数据μσ

XTest = table2array(成人(:{“年龄”“education_num”“capital_gain”“capital_loss”“hours_per_week”}));standardizedXTest = (XTest-mu)。/σ;欧美=成人。工资= =“< = 50 k”

火车模型

训练二值支持向量机分类模型。

Mdl = fitcsvm (standardizedX_sampled Y_sampled,“重量”w_sampled,“KernelFunction”“高斯”);

Mdl是一个ClassificationSVM模型。

计算训练数据集和测试数据集的分类误差。

损失(Mdl standardizedX_sampled Y_sampled)
ans = 0.1663
损失(Mdl standardizedXTest、欧美)
ans = 0.1905

支持向量机分类器误分类了大约17%的训练数据和19%的测试数据。

保存模型

将SVM分类模型保存到文件中myMdl.mat通过使用saveLearnerForCoder

saveLearnerForCoder (Mdl“myMdl”);

定义定点数据类型

使用generateLearnerDataTypeFcn生成一个函数,定义支持向量机模型预测所需变量的定点数据类型。使用所有可用的预测器数据来获得定点数据类型的真实范围。

generateLearnerDataTypeFcn (“myMdl”, (standardizedX;standardizedXTest])

generateLearnerDataTypeFcn生成myMdl_datatype函数。显示myMdl_datatype.m通过使用类型函数。

类型myMdl_datatype.m
函数T = myMdl_datatype (dt) % myMdl_datatype为定点定义数据类型生成代码% % T = myMdl_datatype (dt)返回的数据类型结构T,它定义了%所需的变量的数据类型生成定点C / c++代码%机器学习模型的预测。T的每个字段都包含一个fi返回的%定点对象。输入参数dt指定定点对象的% DataType属性。指定dt为'Fixed'(默认)%用于定点代码生成,或指定dt为'Double'以模拟定点代码的%浮点行为。使用输出结构T作为入口点%函数的输入参数和%入口点函数中loadLearnerForCoder的第二个输入参数。有关更多信息,请参见loadLearnerForCoder。%文件:myMdl_datatype。m % Statistics and Machine Learning Toolbox Version 12.1 (Release R2021a) % Generated by MATLAB, 23-Feb-2021 19:10:54 if nargin < 1 dt = 'Fixed';fm = fimath('RoundingMethod','Floor',…‘OverflowAction’,‘包装’,…… 'ProductMode','FullPrecision', ... 'MaxProductWordLength',128, ... 'SumMode','FullPrecision', ... 'MaxSumWordLength',128); % Data type for predictor data T.XDataType = fi([],true,16,11,fm,'DataType',dt); % Data type for output score T.ScoreDataType = fi([],true,16,14,fm,'DataType',dt); % Internal variables % Data type of the squared distance dist = (x-sv)^2 for the Gaussian kernel G(x,sv) = exp(-dist), % where x is the predictor data for an observation and sv is a support vector T.InnerProductDataType = fi([],true,16,6,fm,'DataType',dt); end

注意:如果您点击位于此示例右上角部分的按钮,并在MATLAB®中打开示例,则MATLAB将打开示例文件夹。这个文件夹包括入口点函数文件。

myMdl_datatype函数使用默认字长(16),并根据每个变量的默认字长(16)和安全裕度(10%)提出最大分数长度以避免溢出。

创建一个结构T通过使用定义定点数据类型myMdl_datatype

T = myMdl_datatype (“固定”
T =结构体字段:XDataType: [0 x0嵌入。fi] ScoreDataType: [0x0 embedded.fi] InnerProductDataType: [0x0 embedded.fi]

结构T方法所需的已命名变量和内部变量的字段预测函数。每个字段包含一个定点对象,由fi(定点设计师).例如,显示预测器数据的定点数据类型属性。

T.XDataType
ans = [] DataTypeMode: Fixed-point: binary point scaling signature: Signed WordLength: 16 FractionLength: 11 RoundingMethod: Floor OverflowAction: Wrap ProductMode: FullPrecision MaxProductWordLength: 128 SumMode: FullPrecision MaxSumWordLength: 128

有关生成的函数和结构的更多细节,请参见数据类型的函数

定义入口点函数

定义一个入口点函数名为myFixedPointPredict它的作用如下:

  • 接受预测数据X和定点数据类型结构T

  • 加载一个定点版本的训练支持向量机分类模型使用两者loadLearnerForCoder以及结构T。

  • 使用加载模型预测标签和分数。

函数(标签,分数)= myFixedPointPredict (X, T)% # codegenMdl = loadLearnerForCoder (“myMdl”“数据类型”T);(标签,分数)=预测(Mdl X);结束

(可选)优化定点数据类型

使用以下方法优化定点数据类型buildInstrumentedMexshowInstrumentationResults.使用方法记录所有命名变量和内部变量的最小值和最大值buildInstrumentedMex.使用showInstrumentationResults;然后,根据结果调优变量的定点数据类型属性。

指定入口点函数的输入参数类型

的输入参数类型myFixedPointPredict使用2 × 1单元阵列。

ARGS =细胞(2,1);

第一个输入参数是预测器数据。的XDataType结构场T指定预测器数据的定点数据类型。转换X中指定的类型T.XDataType通过使用(定点设计师)函数。

X_fx =投(standardizedX,“喜欢”, T.XDataType);

测试数据集与训练数据集的大小不相同。指定ARGS {1}通过使用coder.typeof(MATLAB编码器)以便MEX函数可以接受大小可变的输入。

ARGS {1} = coder.typeof (X_fx、大小(standardizedX) [1,0]);

第二个输入参数是结构T,它必须是一个编译时常量。使用编码器。常数(MATLAB编码器)指定T作为代码生成期间的常量。

ARGS {2} = coder.Constant (T);

Create Instrumented MEX函数

使用buildInstrumentedMex(定点设计师)

  • 属性指定入口点函数的输入参数类型arg游戏选择。

  • 属性指定MEX函数名- o选择。

  • 计算直方图使用柱状图选择。

  • 支持完整的代码生成金宝app编码器选择。

buildInstrumentedMexmyFixedPointPredictarg游戏arg游戏- omyFixedPointPredict_instrumented柱状图编码器
代码生成成功。

测试仪表MEX功能

运行仪表MEX功能,记录仪表结果。

[labels_fx1, scores_fx1] = myFixedPointPredict_instrumented (X_fx T);

可以多次运行检测到的MEX函数,以记录来自各种测试数据集的结果。使用以下命令运行检测到的MEX函数standardizedXTest

Xtest_fx =投(standardizedXTest,“喜欢”, T.XDataType);[labels_fx1_test, scores_fx1_test] = myFixedPointPredict_instrumented (Xtest_fx T);

查看仪器MEX功能的结果

调用showInstrumentationResults(定点设计师)打开包含测量结果的报告。查看模拟的最小值和最大值,建议的分数长度,当前范围的百分比,和整数状态。

showInstrumentationResults (“myFixedPointPredict_instrumented”

中建议的单词长度和分数长度X和在?XDataType结构T

通过单击查看变量的直方图变量选项卡。

该窗口包含直方图和带有变量信息的对话框面板。有关此窗口的信息,请参阅NumericTypeScope(定点设计师)参考页面。

通过使用清除结果clearInstrumentationResults(定点设计师)

clearInstrumentationResults (“myFixedPointPredict_instrumented”

验证仪表MEX功能

比较预测myFixedPointPredict_instrumented

(标签、分数)=预测(Mdl standardizedX);labels_fx1 verify_labels1 = isequal(标签)
verify_labels1 =逻辑0

isequal返回逻辑1 (true) if标签labels_fx1是相等的。如果标签不相等,可按如下方法计算标签分类错误的百分比。

diff_labels1 =总和(比较字符串(字符串(labels_fx1),字符串(标签))= = 0)/长度(labels_fx1) * 100
diff_labels1 = 0.1228

找出分数输出之间的最大相对差异。

diff_scores1 = max (abs (scores_fx1.double(: 1)分数(:1))。/分数(:1)))
diff_scores1 = 83.0713

调优定点数据类型

如果记录的结果显示溢出或下溢,或者希望提高生成代码的精度,则可以调优定点数据类型。的方法来修改定点数据类型myMdl_datatype函数并创建新结构,然后使用新结构生成代码。更新myMdl_datatype函数,您可以在函数文件(myMdl_datatype.m).或者,您可以使用generateLearnerDataTypeFcn并指定较长的单词长度,如本例所示。有关详细信息,请参见提示

生成一个新的数据类型函数。指定单词长度为32和名称myMdl_datatype2为生成的函数。

generateLearnerDataTypeFcn (“myMdl”, (standardizedX;standardizedXTest),“字”32岁的“OutputFunctionName”“myMdl_datatype2”

显示myMdl_datatype2.m

类型myMdl_datatype2.m
函数T = myMdl_datatype2 (dt) % myMdl_datatype2为定点定义数据类型生成代码% % T = myMdl_datatype2 (dt)返回的数据类型结构T,它定义了%所需的变量的数据类型生成定点C / c++代码%机器学习模型的预测。T的每个字段都包含一个fi返回的%定点对象。输入参数dt指定定点对象的% DataType属性。指定dt为'Fixed'(默认)%用于定点代码生成,或指定dt为'Double'以模拟定点代码的%浮点行为。使用输出结构T作为入口点%函数的输入参数和%入口点函数中loadLearnerForCoder的第二个输入参数。有关更多信息,请参见loadLearnerForCoder。%文件:myMdl_datatype2。m % Statistics and Machine Learning Toolbox Version 12.1 (Release R2021a) % Generated by MATLAB, 23-Feb-2021 19:12:22 if nargin < 1 dt = 'Fixed';fm = fimath('RoundingMethod','Floor',…‘OverflowAction’,‘包装’,…… 'ProductMode','FullPrecision', ... 'MaxProductWordLength',128, ... 'SumMode','FullPrecision', ... 'MaxSumWordLength',128); % Data type for predictor data T.XDataType = fi([],true,32,27,fm,'DataType',dt); % Data type for output score T.ScoreDataType = fi([],true,32,30,fm,'DataType',dt); % Internal variables % Data type of the squared distance dist = (x-sv)^2 for the Gaussian kernel G(x,sv) = exp(-dist), % where x is the predictor data for an observation and sv is a support vector T.InnerProductDataType = fi([],true,32,22,fm,'DataType',dt); end

myMdl_datatype2函数指定单词长度32,并提出最大的分数长度以避免溢出。

创建一个结构T2通过使用定义定点数据类型myMdl_datatype2

T2 = myMdl_datatype2 (“固定”
T2 =结构体字段:XDataType: [0 x0嵌入。fi] ScoreDataType: [0x0 embedded.fi] InnerProductDataType: [0x0 embedded.fi]

创建一个新的测量MEX函数,记录结果,并使用buildInstrumentedMexshowInstrumentationResults

X_fx2 =投(standardizedX,“喜欢”, T2.XDataType);buildInstrumentedMexmyFixedPointPredictarg游戏{X_fx2, coder.Constant (T2)}- omyFixedPointPredict_instrumented2柱状图编码器
代码生成成功。
[labels_fx2, scores_fx2] = myFixedPointPredict_instrumented2 (X_fx2, T2);showInstrumentationResults (“myFixedPointPredict_instrumented2”

检查仪表报告,然后清除结果。

clearInstrumentationResults (“myFixedPointPredict_instrumented2”

验证myFixedPointPredict_instrumented2

labels_fx2 verify_labels2 = isequal(标签)
verify_labels2 =逻辑0
diff_labels2 =总和(比较字符串(字符串(labels_fx2),字符串(标签))= = 0)/长度(labels_fx2) * 100
diff_labels2 = 0.0031
diff_scores2 = max (abs (scores_fx2.double(: 1)分数(:1))。/分数(:1)))
diff_scores2 = 2.0602

错误分类标签的百分比diff_labels2得分值的相对差异diff_scores2小于使用默认字长(16)生成的前一个MEX函数的值。

关于通过测试MATLAB®代码优化定点数据类型的更多细节,请参阅参考页面buildInstrumentedMex(定点设计师)showInstrumentationResults(定点设计师),clearInstrumentationResults(定点设计师),以及例子使用Min/Max Instrumentation设置数据类型(定点设计师)

生成代码

使用生成入口点函数的代码codegen.使用指定固定大小的输入,而不是为预测器数据集指定可变大小的输入coder.typeof.如果您知道传递给生成代码的预测器数据集的大小,那么为固定大小的输入生成代码对于代码的简单性更可取。

codegenmyFixedPointPredictarg游戏{coder.typeof (X_fx2 [1,5], [0]), coder.Constant (T2)}
代码生成成功。

codegen生成MEX函数myFixedPointPredict_mex与平台相关的扩展。

验证生成的代码

你可以验证myFixedPointPredict_mex函数的方法与验证仪表化的MEX函数的方法相同。看到验证仪表MEX功能部分细节。

[labels_sampled, scores_sampled] =预测(Mdl standardizedX_sampled);n =大小(standardizedX_sampled, 1);labels_fx = true (n, 1);scores_fx = 0 (n, 2);i = 1: n [labels_fx(我),scores_fx(我,:)]= myFixedPointPredict_mex (X_fx2 (idx(我):),T2);结束verify_labels = isequal (labels_sampled labels_fx)
verify_labels =逻辑1
diff_labels =总和(比较字符串(字符串(labels_fx),字符串(labels_sampled)) = = 0) /长度(labels_fx) * 100
diff_labels = 0
diff_scores = max (abs (scores_fx (: 1) -scores_sampled(: 1))。/ scores_sampled (: 1)))
diff_scores = 0.0638

内存使用

一个好的做法是在训练模型之前手动标准化预测数据。如果你使用“标准化”名称-值对参数,然后生成的定点代码包括标准化操作,这可能导致精度损失和内存使用增加。

如果您生成一个静态库,您可以通过使用代码生成报告来查找生成代码的内存使用情况。指定配置:自由要生成静态库,请使用报告选项生成代码生成报告。

codegenmyFixedPointPredictarg游戏{coder.typeof (X_fx2 [1,5], [0]), coder.Constant (T2)}- omyFixedPointPredict_lib配置:自由报告

总结选项卡的代码生成报告,单击代码度量.函数信息部分显示了累积的堆栈大小。

找出训练过的模型的记忆用途“标准化”,“真正的”,您可以运行以下代码。

Mdl = fitcsvm (X_sampled Y_sampled,“重量”w_sampled,“KernelFunction”“高斯”“标准化”,真正的);saveLearnerForCoder (Mdl“myMdl”);generateLearnerDataTypeFcn (“myMdl”[X;XTest),“字”32岁的“OutputFunctionName”“myMdl_standardize_datatype”) T3 = mymdl_standarze_datatype (“固定”);X_fx3 =投(X_sampled,“喜欢”, T3.XDataType);codegenmyFixedPointPredictarg游戏{coder.typeof (X_fx3 [1,5], [0]), coder.Constant (T3)}- omyFixedPointPredict_standardize_lib配置:自由报告

另请参阅

|||(定点设计师)|(定点设计师)|(定点设计师)|(定点设计师)|(定点设计师)|(MATLAB编码器)

相关的话题