主要内容

训练线性回归模型

Statistics and Machine Learning Toolbox™为训练线性回归模型提供了几个特性。

  • 要在低维到中维数据集上获得更高的精度,请使用fitlm.模型拟合完成后,可以使用对象函数对拟合模型进行改进、评估和可视化。要使回归规则化,请使用套索

  • 为了减少在高维数据集上的计算时间,使用fitrlinear.这个函数为交叉验证、正则化和超参数优化提供了有用的选项。

这个例子展示了线性回归分析的典型工作流程fitlm.工作流程包括准备数据集,拟合线性回归模型,评估和改进拟合模型,并预测新的预测器数据的响应值。该示例还介绍了如何适应和评估高阵列的线性回归模型。

准备数据

加载示例数据集NYCHousing2015

负载NYCHousing2015

该数据集包括10个变量,包含了2015年纽约市房产销售的信息。本例使用其中一些变量来分析销售价格。

而不是加载样本数据集NYCHousing2015,你可以从纽约市公开的数据网站并如下导入数据。

文件夹=“Annualized_Rolling_Sales_Update”;ds = spreadsheetDatastore(文件夹,“texttype”“字符串”“NumHeaderLines”4);ds。文件= ds.Files(包含(ds.Files,“2015”));ds.selectedvariablenames = [“区”“社区”“BUILDINGCLASSCATEGORY”“RESIDENTIALUNITS”......“观众”“LANDSQUAREFEET”“GROSSSQUAREFEET”“YEARBUILT”“SALEPRICE”“发售日期”];NYCHousing2015 = readall (ds);

对数据集进行预处理,选择感兴趣的预测变量。首先,为便于阅读,将变量名改为小写。

NYCHousing2015.Properties。VariableNames =低(NYCHousing2015.Properties.VariableNames);

接下来,把销售日期变量,指定为datetime数组,分成两个数字列毫米(月)和DD(天),并将销售日期变量。忽略年份值,因为所有样本都是2015年。

[~,NYCHousing2015.MM,NYCHousing2015.DD]=ymd(NYCHousing2015.saledate);NYCHousing2015.saledate=[];

中的数值变量表示行政区的名称。使用名称将变量更改为分类变量。

NYCHousing2015。区= categorical(NYCHousing2015.borough,1:5,......“曼哈顿”“布朗克斯”“布鲁克林”“皇后”“史泰登岛”]);

邻里Variable有254个类别。为了简单起见,请删除此变量。

nychousing2015.neighborhood = [];

转换buildingclasscategory变量为分类变量,并通过使用wordcloud函数。

NYCHousing2015。buildingclasscategory =分类(NYCHousing2015.buildingclasscategory);wordcloud (NYCHousing2015.buildingclasscategory);

假设你只对一户、二户和三户住宅感兴趣。找到这些住宅的样本索引,并删除其他样本。的数据类型buildingclasscategory变量来双重的

idx = ismember(String(nychousing2015.buildingclasscategory),......“01一个家庭住宅”02两户住宅“03三个家庭住宅”]);NYCHousing2015 = NYCHousing2015 (idx:);NYCHousing2015。buildingclasscategory = renamecats (NYCHousing2015.buildingclasscategory,......“01一个家庭住宅”02两户住宅“03三个家庭住宅”),......“1”“2”“3”]);NYCHousing2015。buildingclasscategory =双(NYCHousing2015.buildingclasscategory);

buildingclasscategory变量现在表示一个住宅中的家庭数量。

探究响应变量saleprice使用概括函数。

s =总结(NYCHousing2015);s.saleprice
ans =结构体字段:Size: [37881 1] Type: 'double' Description: " Units: " Continuity: [] Min: 0中位数:352000 Max: 37000000 NumMissing: 0

假设一个saleprice少于或等于1000美元表示所有权转让而没有现金对价。移除有这个的样本saleprice

idx0 = NYCHousing2015。saleprice < = 1000;NYCHousing2015 (idx0:) = [];

创建的直方图saleprice变量。

直方图(Nychousing2015.saleprice)

最大值saleprice 3. 7 × 1 0 7 ,但大多数值小于 0 5 × 1 0 7 .你可以找出离群值saleprice通过使用isoullier.函数。

idx = isoutlier (NYCHousing2015.saleprice);

删除已识别的异常值并再次创建直方图。

Nychousing2015(IDX,:) = [];直方图(Nychousing2015.saleprice)

使用以下方法将数据集划分为训练集和测试集cvpartition

rng (“默认”%的再现性c = cvpartition(高度(NYCHousing2015),“坚持”, 0.3);trainData = NYCHousing2015(培训(c):);testData = NYCHousing2015(测试(c):);

火车模型

拟合线性回归模型,利用fitlm函数。

mdl = fitlm (trainData,“PredictorVars”,[“自治市镇”“grosssquarefeet”......“landsquarefeet”“buildingclasscategory”“yearbuilt”“嗯”“弟弟”),......“ResponseVar”“saleprice”
mdl =线性回归模型:销售价格~ 1 +自治区+建筑类别+土地平方英尺+总平方英尺+建成年+ MM + DDEstimate SE tStat pValue ___________ __________ ________ ___________(拦截)2.0345e+05 1.0308e+05 1.9736 0.048441 borough_Bronx -3.0165e+05 56676 -5.3224 1.0378e-07 borough_Brooklyn -41160 56490 -0.72862 0.46624 borough_Queens -91136 56537 -1.612 0.10699 borough_Staten Island -2.2199e+05 56726 -3.9134 9.1385e-05 buildingclasscategory 3165.73510.0.90185 0.36715 landsquarefeet 13.149 0.84534 15.555 3.714e-54 grosssquarefeet 112.9494 38.09 8.0393e-304 yearbuilt 100.07 45.464 2.201 0.02775 MM 3850.5 543.79 7.0808 1.4936e-12 DD -367.19 207.56 -1.7691 0.076896观测数:15848,误差自由度:15837均方根误差:2.32e+05 R-squared:F-statistic vs. constant model: 487, p-value = 0

mdl是A.LinearModel对象。模型显示包括模型公式、估计系数和汇总统计。

是一个类别变量,有五个类别:曼哈顿布朗克斯布鲁克林皇后,斯塔顿岛.拟合模型mdl有四个指示器变量。的fitlm函数使用第一类曼哈顿作为参考水平,因此模型不包含参考水平的指标变量。fitlm修正参考电平的指标变量的系数为零。四个指标变量的系数值是相对的曼哈顿.有关函数如何处理分类预测器的更多细节,请参见算法fitlm

要了解如何解释模型显示中的值,请参见解释线性回归结果

您可以使用a的属性LinearModel摘要目的探讨拟合的线性回归模型。对象属性包括关于系数估计、汇总统计、拟合方法和输入数据的信息。例如,您可以在rsquared.财产。您可以通过Workspace浏览器或使用点符号访问属性值。

mdl.rsquared.
ans =结构体字段:普通:0.2352调整:0.2348

模型显示还显示了这些值。R线值表示该模型在响应变量中解释了大约24%的变化。看到特性LinearModel对象以获取其他属性的详细信息。

评估模型

模型显示屏显示了p-每个系数的值。的p-Values表示哪些变量对模型很重要。对于分类预测因子,模型使用四个指标变量并显示四个p值。将分类变量作为一组指标变量进行检验,使用对象函数方差分析.该函数返回模型的方差(ANOVA)统计分析。

方差分析(mdl)
ans =8×5表SumSq DF MeanSq F pValue __________ _____ __________ _______ ___________ borough 1.123e+14 4 2.8076e+13 520.96 0 buildingclasscategory 4.3833e+10 1 4.3833e+10 0.81334 0.36715 landsquarefeet 1.3039e+13 1 1.3039e+13 241.95 3.714e-54 grosssquarefeet 7.8189e+13 1 7.8189e+13 1450.8 8.0393e-304 yearbuilt 2.6108e+11 1 2.6108e+11 4.8444 0.02775 MM2.7021e+12 1 2.7021e+12 50.138 1.4936 -12 DD 1.6867e+11 1 1.6867e+11 3.1297 0.076896错误8.535e+14 15837 5.3893e+10

p-value为指示器变量borough_Brooklynborough_Queens很大,但是p价值的变量作为一组四个指标变量几乎为零,这表明变量是统计学上的。

p值的buildingclasscategoryDD大于0.05,表明这些变量在5%的意义水平下不显着。因此,您可以考虑删除这些变量。

你也可以使用Coeffci.coeefTest,DWTest.进一步评估拟合模型。

  • coefCI返回系数估计的置信区间。

  • colealt对模型系数进行线性假设检验。

  • DWTest.执行Durbin-Watson测试。(此测试用于时间序列数据,因此DWTest.在此示例中不合适。)

可视化模型和汇总统计

一个LinearModel对象提供多个绘图函数。

此外,情节为整个模型创建一个附加的变量图,除了截距项,如果mdl包括多个预测变量。

情节(mdl)

这张图相当于plotAdded (mdl).拟合线表示模型如何作为一组变量,可以解释响应变量。配合线的斜率不接近零,并且置信度绑定不包括水平线,表明模型比仅由恒定术语组成的简并模型更好。模型显示中显示的测试统计值(f统计量与常数模型)也表明该模型比退化模型拟合得更好。

为不重要的变量创建一个添加的变量图buildingclasscategoryDD.的p这些变量的值大于0.05。首先,找到这些系数的索引mdl。CoefficientNames

mdl。CoefficientNames
ans =1×11单元{'(拦截)'}{'borough_Bronx'} {'borough_Brooklyn'} {'borough_Queens'} {'borough_Staten Island'} {'buildingclass '} {'landsquarefeet'} {'grosssquarefeet'} {'yearbuilt'} {'MM'} {'DD'}

buildingclasscategoryDD是第6和第11系数。为这两个变量创建一个添加的曲线。

plotAdded (mdl[6、11])

拟合线的斜率接近于零,表明来自两个变量的信息不能解释其他预测器不能解释的响应值的部分。有关添加的变量图的详细信息,请参见添加变量图

创建模型残差的直方图。plotResiduals使用概率密度函数缩放绘制原始残差的直方图。

plotResiduals (mdl)

直方图显示,有一些残差小于 - 1 × 1 0 6 .识别这些异常值。

查找(mdl.residuals.raw <-1 * 10 ^ 6)
ans =4×11327 4136 4997 13894

或者,您可以使用使用isoullier..指定“拉布”选择应用格拉布测试。这个选项适用于正态分布的数据集。

找到(isoutlier (mdl.Residuals.Raw,“拉布”))
ans =3×11327 4136 4997

isoullier.函数不识别残差13894作为一个局外人。这个残差接近于-1 × 10 6 .显示剩余值。

mdl.Residuals.Raw (13894)
ans = -1.0720 e + 06

的方法拟合线性回归模型时,可以排除异常值排除名称-值对的论点。在这种情况下,示例调整拟合模型,并检查改进的模型是否也能解释异常值。

调整模型

去除那个DDbuildingclasscategory变量使用removeterms.

newMdl1 = removeTerms (mdl,“DD + buildingclasscategory”
newMdl1 =线性回归模型:销售价格~ 1 +自治区+土地平方英尺+总平方英尺+建成年+ MM估算SE tStat pValue ___________ __________ ________ __________(拦截)2.0529e+05 1.0274e+05 1.9981 0.045726 borough_Bronx -3.0038e+05 56675 -5.3 1.1739e-07 borough_Brooklyn -39704 56488 -0.70286 0.48215 borough_Queens -90231 56537 -1.596 0.11052 borough_Staten Island -2.2149e+05 56720 -3.9049 9.4652e-05 landsquarefeet 13.04 0.83912 15.544.6278e-54总平方英尺113.85 2.5078 45.396 0年建成96.649 45.395 2.1291 0.033265 MM 3875.6 543.49 7.131 1.0396e-12观测数:15848,误差自由度:15839均方根误差:2.32e+05 r平方:0.235,调整r平方:0.235 F-statistic vs. constant model: 608, p-value = 0

由于这两个变量在解释响应变量时不显著,r平方和调整的r平方值新MDL1的值接近mdl

通过添加或删除变量来改进模型.该模型的默认上限是包含截距项的模型,每个预测器的线性术语以及所有不同预测器对的所有产品(没有平方项),默认下限是包含截距项的模型。下载188bet金宝搏指定要保持30的最大步数。当没有单步改善模型时,函数停止。

newMdl2=步骤(newMdl1,“NSteps”, 30)
1.添加自治市:grosssquarefeet, FStat = 58.7413, pValue = 2.63078e-49添加自治市:年建,FStat = 31.5067, pValue = 3.50645e-263 . FStat = 29.5473, pValue = 1.60885e-24添加grosssquarefeet:年建成,FStat = 69.312, pValue = 9.08599e-17增加陆地平方英尺:grosssquarefeet, FStat = 33.2929, pValue = 8.07535e-09新增土地面积:年建成面积,FStat = 45.2756, pValue = 1.7704e-11添加年建:MM, FStat = 18.0785, pValue = 2.13196e-05增加住宅单位,FStat = 16.0491, pValue = 6.20026e-05新增住宅单位:landsquarefeet, FStat = 160.2601, pValue = 1.49309e-36 Adding residentialunits:grosssquarefeet, FStat = 27.351, pValue = 1.71835e-07 11. Adding commercialunits, FStat = 14.1503, pValue = 0.000169381 12. Adding commercialunits:grosssquarefeet, FStat = 25.6942, pValue = 4.04549e-07 13. Adding borough:commercialunits, FStat = 6.1327, pValue = 6.3015e-05 14. Adding buildingclasscategory, FStat = 11.1412, pValue = 0.00084624 15. Adding buildingclasscategory:landsquarefeet, FStat = 66.9205, pValue = 3.04003e-16 16. Adding buildingclasscategory:yearbuilt, FStat = 15.0776, pValue = 0.0001036 17. Adding buildingclasscategory:grosssquarefeet, FStat = 18.3304, pValue = 1.86812e-05 18. Adding residentialunits:yearbuilt, FStat = 15.0732, pValue = 0.00010384 19. Adding buildingclasscategory:residentialunits, FStat = 13.5644, pValue = 0.00023129 20. Adding borough:buildingclasscategory, FStat = 2.8214, pValue = 0.023567 21. Adding landsquarefeet:MM, FStat = 4.9185, pValue = 0.026585 22. Removing grosssquarefeet:yearbuilt, FStat = 1.6052, pValue = 0.20519
newMdl2 =线性回归模型:saleprice ~ 1 +区* buildingclasscategory +区* commercialunits +区* landsquarefeet +区* grosssquarefeet +区* yearbuilt + buildingclasscategory * residentialunits + buildingclasscategory * landsquarefeet + buildingclasscategory * grosssquarefeet + buildingclasscategory * yearbuilt + residentialunits * landsquarefeet +住宅单位*总平方英尺+住宅单位*建成年+商业单位*总平方英尺+土地平方英尺*建成年+土地平方英尺*MM +建成年*MM估计系数:估算SE tStat pValue ___________ __________ ________ __________(拦截)2.2152 2e+07 1.318e+07 1.6808 0.092825 borough_Bronx -2.3263e+07 1.3176e+07 -1.7656 0.077486 borough_Brooklyn -1.8935e+07 1.3174e+07 -1.4373 0.15064 borough_Queens -2.1757e+07 1.3173e+07 -1.6516 0.098636 borough_Staten Island -2.3471e+07 1.3177e+07 -1.7813 0.074891建筑类类别-7.2403e+05 1.9374e+05 -3.737 0.00018685住宅单元6.1912e+05 1.2399e+05 4.9932 6.003e-07商业单元4.2016e+05 1.2815e+05 3.2786 0.0010456土地平方英尺-390.54 96.349 -4.0535 5.0709e-05 grosssquare平方英尺189.33 83.723 2.2614 0.023748年建成-11556 6958.7 -1.6606 0.096805 MM 95189borough_Bronx:buildingclasscategory -1.1972e+05 1.0481e+05 -1.1422 0.25338 borough_Brooklyn:buildingclasscategory -1.4154e+05 1.0448e+05 -1.3548 0.17551 borough_Queens:buildingclasscategory -1.1597e+05 1.0454e+05 -1.1093 0.2673 borough_Staten Island:buildingclasscategory -1.1851e+05 1.0513e+05 -1.1273 0.25964 borough_Bronx:commercialunitsborough_Brooklyn:commercialunits - 3.8288 e+05 1.2835e+05 -2.9784 0.0020008 borough_Staten Island:commercialunits -4.9381e+05 1.353e+05 -3.0906 0.0020008 borough_Bronx:landsquarefeet 121.81 77.442 1.573 0.11574borough_Brooklyn: landsquarefeet 113.09 77.413 1.4609 0.14405 borough_Queens: landsquarefeet 99.894 77.374 1.2911 0.1967 borough_Staten岛:landsquarefeet 84.508 77.376 1.0922 0.27477 borough_Bronx: grosssquarefeet -55.417 83.412 -0.66437 0.50646 borough_Brooklyn: grosssquarefeet 6.4033 83.031 0.077119 0.93853 borough_Queens: grosssquarefeet 38.2883.144 0.46041 0.64523 borough_Staten Island:grosssquarefeet 12.539 83.459 0.15024 0.88058 borough_Bronx:yearbuilt 12121 6956.8 1.7422 0.081485 borough_Brooklyn:yearbuilt 9986.5 6955.8 1.4357 0.1511 borough_Queens:yearbuilt 11382 6955.3 1.6364 0.10177 borough_Staten Island:yearbuilt 12237 6957.1 1.7589 0.078613建筑类别:住宅单元21392 5465 3.9143 9.1041e-05建筑类别:土地平方英尺-13.099 2.0014 -6.545 6.1342e-11建筑类别:总平方英尺-30.087 5.2786 -5.6998 1.2209e-08建筑类别:年建462.31 85.912 5.3813 7.5021e-08住宅单元:土地平方英尺-1.0826 0.13896 -7.7911 7.0554e-15 residentialunits:grosssquarefeet -5.1192 1.7923 -2.8563 0.0042917 residentialunits:yearbuilt -326.69 63.556 -5.1403 2.7762e-07 commercialunits:grosssquarefeet -29.839 5.0231 -5.9403 2.9045e-09 landsquarefeet:grosssquarefeet -0.0055199 0.0010364 -5.3262 1.0165e-07 landsquarefeet:yearbuilt 0.1766 0.030902 5.7151 1.1164e-08 landsquarefeet:MM 0.6595 0.30229 2.1817 0.029145 yearbuilt:MM -47.944 16.392 -2.9248 0.0034512 Number of observations: 15848, Error degrees of freedom: 15804 Root Mean Squared Error: 2.25e+05 R-squared: 0.285, Adjusted R-Squared: 0.283 F-statistic vs. constant model: 146, p-value = 0

R形和调整的R线值值newMdl2的值大于新MDL1

通过使用创建模型残差的直方图plotResiduals

plotresids(newmdl2)

的残差直方图newMdl2是对称的,没有异常值。

你也可以使用addTerms添加特定的术语。或者,您可以使用stepwiselm在启动模型中指定术语并继续使用逐步回归来改进模型。

预测对新数据的响应

预测对测试数据集的响应testData通过使用拟合模型newMdl2和对象功能预测

ypred =预测(newMdl2 testData);

绘制测试数据集的残差直方图。

errs = ypred - testData.saleprice;直方图(错)标题(“残留的直方图 - 测试数据”

残差值有一些异常值。

错(isoutlier(犯错误,“拉布”))
ans =6×1107× 0.1788 -0.4688 -1.2981 0.1019 0.1122 0.1331

使用高数组进行分析

fitlm功能支持高存储器数金宝app据,具有一些限制。对于高数据,fitlm返回一个CompactLinearModel.对象,该对象包含与LinearModel对象。主要的区别是紧凑对象对内存需求很敏感。compact对象没有包含数据或包含与数据大小相同的数组的属性。因此,一些LinearModel需要数据的对象函数不能在紧凑模型中工作。看到对象的功能获取受支持的对象函数列表。金宝app同时,看到高大的数组的用法说明和限制fitlm适合个子高的数组。

当您在高数组上执行计算时,MATLAB®使用一个并行池(如果您有parallel Computing Toolbox™,则默认)或本地MATLAB会话。如果您希望在拥有Parallel Computing Toolbox时使用本地MATLAB会话运行该示例,则可以通过使用Mapreducer.函数。

假设数据存储中的所有数据ds不适合记忆。您可以使用而不是readall阅读ds

NYCHousing2015 =高(ds);

对于此示例,请转换内存表NYCHousing2015把它放在一张高桌子上函数。

NYCHousing2015_t =高(NYCHousing2015);
使用“local”配置文件启动并行池(parpool)…连接到并行池(工作人员数量:6)。

将数据集划分为训练集和测试集。当你使用cvpartition使用高阵列,该函数将基于提供为第一个输入参数的变量进行数据集。对于分类问题,您通常使用响应变量(分组变量)并创建一个随机分层分区,以获得所有组的训练和测试集之间的分发。对于回归问题,这种分层并不充分,您可以使用'分层'名称 - 值对参数关闭选项。

在本例中,指定预测器变量NYCHousing2015_t.borough作为第一个输入参数,以使自治区在训练和测试集中的分布大致相同。为重现性,使用随机数生成器设置种子tallrng.结果可能会根据高数组的工作人员数量和执行环境而有所不同。有关详细信息,请参见控制代码运行的位置

tallrng (“默认”%的再现性c = cvpartition (NYCHousing2015_t.borough“坚持”, 0.3);trainData_t = NYCHousing2015_t(培训(c):);testData_t = NYCHousing2015_t(测试(c):);

因为fitlm为高数组返回一个紧凑模型对象,因此不能使用函数。相反,您可以使用对象函数来研究模型参数,然后根据需要调整模型。您还可以将数据的子集收集到工作区中,使用stepwiselm在内存中迭代开发模型,然后放大以使用高数组。有关详细信息,请参见的模型开发使用高数组的大数据统计和机器学习

在本例中,使用的模型公式拟合一个线性回归模型newMdl2

mdl_t = fitlm (trainData_t newMdl2.Formula)
使用并行池“local”评估tall表达式:-通过1/1:在7.4秒内完成评估在9.2秒内完成
mdl_t=紧凑型线性回归模型:saleprice~1+borough*buildingclasscategory+borough*商业单位+borough*landsquarefeet+borough*Grossquarefeet+borough*YearBuilding+buildingclasscategory*住宅区+buildingclasscategory*landsquarefeet+buildingclasscategory*Grossquarefeet+buildingclasscategory+住宅区单位*土地平方英尺+住宅平方英尺*总平方英尺+住宅平方英尺*年建成+商业单位*总平方英尺+土地平方英尺*总平方英尺+土地平方英尺*年建成+土地平方英尺*毫米+年建成*毫米估算系数:估算净现值(截距)-1.3301e+06 5.1815e+05-2.5670.010268布鲁克林区4.2583e+06 4.1808e+05 10.185 2.7392e-24曼哈顿区2.2758e+07 1.3448e+07 1.6923 0.090614皇后区1.1395e+06 4.1868e+05 2.7216 0.0065035斯塔滕岛区-1.1196e+05 4.6677e+05-0.23986.81044建筑类别-8.085E+19.0588e+05 1.2669e+05 4.7822 1.7497e-06商业单位8019753311.5043 0.13252平方英尺-279.9453.913-5.1925 2.1009e-07总面积170.02 13.996 12.147 8.3837e-34年建683.49 268.34 2.5471 0.010872毫米864832725 2.6428 0.0082293布鲁克林区:建筑类别-9852.4 12048-0.773曼哈顿区asscategory 1.3318e+05 1.3592e+05 0.97988 0.32716皇后区:建筑类别15621 11671.3385 0.18076斯塔顿岛:建筑类别15132 14893 1.016 0.30964布鲁克林市:商业单元-22060 43012-0.51289 0.60804曼哈顿市:商业单元4.8349e+05 2.1757e+05 2.2222 0.026282皇后区:商业单元-4202344736-0.93936 0.34756自治区-斯塔顿岛:商业单位-1.3382e+0556976-2.3487 0.018853自治区-布鲁克林:兰德平方英尺9.82635.251311.871200.061335自治区-曼哈顿:兰德平方英尺-78.96278.445-1.00660.31415自治区-皇后区:兰德平方英尺-3.08553.9087-0.7893909 0.4299自治区-斯塔顿岛:兰德平方英尺-17.834.585-1 1.3433e-06布鲁克林区:格罗斯夸雷菲特37.689 10.573 3.5646 0.00036548曼哈顿区:格罗斯夸雷菲特16.107 82.074 0.19625 0.84442布鲁克林皇后区:格罗斯夸雷菲特70.381 10.69 6.5837 4.7343e-11斯塔顿岛区:格罗斯夸雷菲特36.396 12.08 3.0129 0.0025914布鲁克林区:建于2110.1 216.32-889.0322曼哈顿区n:YearBuild-118847023.9-1.6920.090667皇后区:YearBuild-566.44216.89-2.6116 0.0090204斯塔顿岛:YearBuild-53.714239.89 0.223910.82283建筑类别:住宅区2408855744.321515595E-05建筑类别:陆地平方英尺5.79645.8438 0.9919 0.32126建筑类别:GrossRefeet-47.079-8.9023 6.0556e-19建筑类别:年建筑430.97 83.593 5.1555 2.56e-07居住面积:土地平方英尺-21.756 5.6485-3.8517 0.00011778居住面积:总面积4.584 1.4586 3.1427 0.0016769居住面积:年建筑面积-310.09 65.429-4.7393 2.1632e-06商业单位:总面积-27.839 11.463-2.4286 0.015166土地平方英尺:grosssquarefeet-0.0068613 0.00094607-7.2524 4.2832e-13陆地平方英尺:年建造0.17489 0.028195 6.2028 5.6861e-10陆地平方英尺:毫米0.70295 0.2848 2.4682 0.013589年建造:毫米-43.405 16.871-2.5728 0.010098观测次数:15849,误差自由度:15805均方根误差:2.26e+05 R平方:0.277,调整后的R平方:0。275 F-统计与常数模型:141,p值=0

mdl_t.是A.CompactLinearModel.对象。mdl_t.是不是完全一样newMdl2因为从高表获得的分区训练数据集与来自内存中数据集的划分的数据集不相同。

你不能使用plotResiduals函数创建模型残差的直方图,因为mdl_t.是一个紧凑的对象。相反,直接从压缩对象计算残差,并使用柱状图

mdl\u t\u残差=列车数据销售价格-预测(mdl\u t,列车数据);直方图(mdl\u t\u残差)
使用Parallel Pool 'local'计算tall表达式:-通过第2步:在2.5秒内完成-通过第2步:在0.63秒内完成
头衔(“残留 - 火车数据的直方图”

预测对测试数据集的响应testData_t通过使用预测

ypred_t =预测(mdl_t testData_t);

绘制测试数据集的残差直方图。

errs\u t=ypred\u t-测试数据\u t.售价;直方图(误差)
使用Parallel Pool 'local'计算tall表达式
-通过2:6%完成评估3%完成

通过2道中的第一道:在0.79秒内完成
头衔(“残留的直方图 - 测试数据”

可以使用。进一步评估拟合模型CompactLinearModel.对象的功能。有关的示例,请参见评估和调整模型使用高数组的大数据统计和机器学习

另请参阅

|||

相关的话题