主要内容

列车线性回归模型

统计和机器学习工具箱™为训练线性回归模型提供了几个功能。

  • 若要在低维到中维数据集上获得更高的精度,请使用fitlm.在拟合模型之后,您可以使用对象函数来改进、评估和可视化拟合的模型。要正则化回归,使用套索

  • 为了减少高维数据集上的计算时间,请使用fitrlinear.这个函数为交叉验证、正则化和超参数优化提供了有用的选项。

这个例子展示了线性回归分析的典型工作流程fitlm.工作流程包括准备数据集,拟合线性回归模型,评估和改进拟合模型,以及预测新预测器数据的响应值。该示例还描述了如何拟合和评估高数组的线性回归模型。

准备数据

加载示例数据集NYCHousing2015

负载NYCHousing2015

该数据集包括10个变量,其中包含2015年纽约市房产销售信息。本例使用其中一些变量来分析销售价格。

而不是加载示例数据集NYCHousing2015,你可以从纽约市开放数据并按如下方式导入数据。

文件夹=“Annualized_Rolling_Sales_Update”;ds =电子表格数据存储“TextType”“字符串”“NumHeaderLines”4);ds。文件= ds.Files(包含(ds.Files,“2015”));ds。SelectedVariableNames = [“区”“社区”“BUILDINGCLASSCATEGORY”“RESIDENTIALUNITS”...“COMMERCIALUNITS”“LANDSQUAREFEET”“GROSSSQUAREFEET”“YEARBUILT”“SALEPRICE”“SALEDATE”];NYCHousing2015 = readall(ds);

预处理数据集以选择感兴趣的预测变量。首先,为了可读性,将变量名改为小写。

NYCHousing2015.Properties。VariableNames = lower(NYCHousing2015.Properties.VariableNames);

接下来,转换saledate变量,指定为adatetime数组,分成两个数字列毫米(月)和DD(天),并删除saledate变量。忽略年份值,因为所有样本都是2015年的。

[~, NYCHousing2015.MM NYCHousing2015。DD] = ymd(NYCHousing2015.saledate);NYCHousing2015。Saledate = [];

中的数值变量表示自治区名称。使用名称将变量更改为类别变量。

NYCHousing2015。区= categorical(NYCHousing2015.borough,1:5,...“曼哈顿”“布鲁克斯”“布鲁克林”“皇后”“史泰登岛”]);

社区变量有254个类别。为简单起见,请删除此变量。

NYCHousing2015。社区= [];

转换buildingclasscategory变量转换为类别变量,并使用wordcloud函数。

NYCHousing2015。buildingclasscategory = category (NYCHousing2015.buildingclasscategory);wordcloud (NYCHousing2015.buildingclasscategory);

假设你只对一户、两户和三户住宅感兴趣。找到这些住所的样本指数,并删除其他样本。的数据类型buildingclasscategory变量来

idx = ismember(string(NYCHousing2015.buildingclasscategory),...《01户人家住宅》“02两家住宅”《03三家民居》]);NYCHousing2015 = NYCHousing2015(idx,:);NYCHousing2015。(NYCHousing2015.buildingclasscategory = renamecats)...《01户人家住宅》“02两家住宅”《03三家民居》),...“1”“2”“3”]);NYCHousing2015。buildclasscategory = double(nychousing2015 . buildclasscategory);

buildingclasscategory变量现在表示一个住宅中的家庭数量。

探索响应变量saleprice使用总结函数。

s = summary(NYCHousing2015);s.saleprice
ans =带字段的结构:大小:[37881 1]类型:“双”描述:“单位:”连续性:[]最小值:0中位数:352000最大:37000000 NumMissing: 0

假设asaleprice小于或等于1000美元表示所有权转让没有现金对价。除去有这种情况的样本saleprice

idx0 = NYCHousing2015。售价<= 1000;NYCHousing2015(idx0,:) = [];

的直方图saleprice变量。

直方图(NYCHousing2015.saleprice)

的最大值saleprice 3. 7 × 1 0 7 ,但大多数值都小于 0 5 × 1 0 7 .的异常值saleprice通过使用isoutlier函数。

idx = isoutlier(nychousing2015 .sale);

删除已识别的异常值,并再次创建直方图。

NYCHousing2015(idx,:) = [];直方图(NYCHousing2015.saleprice)

将数据集划分为训练集和测试集cvpartition

rng (“默认”%用于再现性c = cvpartition(height(NYCHousing2015),“坚持”, 0.3);trainData = NYCHousing2015(training(c),:);testData = NYCHousing2015(test(c),:);

火车模型

拟合线性回归模型fitlm函数。

mdl = fitlm(训练数据,“PredictorVars”, (“区”“grosssquarefeet”...“landsquarefeet”“buildingclasscategory”“yearbuilt”“毫米”“弟弟”),...“ResponseVar”“saleprice”
mdl =线性回归模型:销售价格~ 1 +行政区+建筑类别+土地平方英尺+建筑平方英尺+年建+ MM + DD估计SE tStat pValue ___________ __________ ________ ___________(拦截)2.0345e+05 1.0308e+05 1.9736 0.048441 borough_Bronx -3.0165e+05 56676 -5.3224 1.0378e-07 borough_Brooklyn -41160 56490 -0.72862 0.46624 borough_Queens - 911136 56537 -1.612 0.10699 borough_Staten Island -2.2199e+05 56726 -3.9134 9.1385e-05 buildingclasscategory 3165.7 3510.3 0.90185 0.36715 landsquarefeet 13.149 0.84534 15.555 3.714e-54 grosssquarefeet 112.34 2.9494 38.09 8.0393e-304 yearbuilt 100.07 45.464 2.201观测数:15848,误差自由度:15837均方根误差:2.32e+05 r平方:0.235,调整r平方:0.235 f统计量vs常数模型:487,p值= 0

mdl是一个LinearModel对象。模型显示包括模型公式、估计系数和汇总统计信息。

是一个类别变量,具有五个类别:曼哈顿布朗克斯布鲁克林皇后区,史泰登岛.拟合模型mdl有四个指示变量。的fitlm函数使用第一类曼哈顿作为参考级别,因此模型不包括参考级别的指示符变量。fitlm将参考级别的指示器变量的系数固定为零。四个指标变量的系数值相对于曼哈顿.有关该函数如何处理分类预测器的详细信息,请参见算法fitlm

若要了解如何解释模型显示中的值,请参见解释线性回归结果

你可以使用a的属性LinearModel目的研究拟合线性回归模型。对象属性包括有关系数估计、汇总统计信息、拟合方法和输入数据的信息。例如,您可以找到r平方和调整后的r平方值Rsquared财产。您可以通过Workspace浏览器或使用点表示法访问属性值。

mdl。Rsquared
ans =带字段的结构:普通:0.2352调整:0.2348

模型显示也显示这些值。r平方值表明该模型解释了响应变量中大约24%的可变性。看到属性LinearModel对象获取其他属性的详细信息。

评估模型

模型显示p-每个系数的值。的p-values表示哪些变量对模型重要。对于分类预测器时,模型使用4个指标变量,并显示4个p值。要将分类变量作为一组指示变量进行检查,请使用对象函数方差分析.该函数返回模型的方差分析(ANOVA)统计数据。

方差分析(mdl)
ans =8×5表SumSq DF MeanSq F pValue __________ _____ __________ _______ ___________ borough 1.123e+14 4 2.8076e+13 520.96 0 buildingclasscategory 4.3833e+10 1 4.3833e+10 0.81334 0.36715 landsquarefeet 1.3039e+13 1 1.3039e+13 1 7.8189e+13 141.95 3.714148 8.0393e-304 yearbuilt 2.6108e+11 1 2.6108e+11 4.8444 0.02775 MM 2.7021e+12 1 2.7021e+12 50.138 1.4936e-12 DD 1.6867e+11 1 1.6867e+11 3.1297 0.076896 Error 8.535e+14 15837 5.3893e+10

p-values指示符变量borough_Brooklyn而且borough_Queens都很大,但是p的-value变量作为一组四个指标变量几乎为零,这表明变量有统计学意义。

p值的buildingclasscategory而且DD均大于0.05,说明这些变量在5%显著性水平下不显著。因此,您可以考虑删除这些变量。

你也可以使用coeffCIcoeefTest,dwt进一步评价拟合模型。

  • coefCI返回系数估计的置信区间。

  • coefTest对模型系数进行线性假设检验。

  • dwt进行Durbin-Watson测试。(此检验用于时间序列数据,因此dwt不适用于本例中的房屋数据。)

可视化模型和摘要统计

一个LinearModel对象提供多个绘图函数。

此外,情节为除截距项外的整个模型创建一个添加的变量图,如果mdl包括多个预测变量。

情节(mdl)

这个图等价于plotAdded (mdl).拟合的直线表示模型作为一组变量如何解释响应变量。拟合直线的斜率不接近于零,且置信界不包括水平线,表明该模型比仅由常数项组成的退化模型拟合得更好。模型显示的测试统计值(f统计量与常数模型)也表明该模型比退化模型拟合得更好。

为不重要的变量创建一个附加变量图buildingclasscategory而且DD.的p这些变量的-value值大于0.05。首先,求出这些系数的下标mdl。CoefficientNames

mdl。CoefficientNames
ans =1×11单元{'(截距)'}{'borough_Bronx'} {'borough_Brooklyn'} {'borough_Queens'} {'borough_Staten Island'} {'buildingclasscategory'} {'landsquarefeet'} {'grosssquarefeet'} {'yearbuilt'} {'MM'} {'DD'}

buildingclasscategory而且DD分别是第6和第11个系数。为这两个变量创建一个附加图。

plotAdded (mdl[6、11])

拟合直线的斜率接近于零,表明来自两个变量的信息不能解释其他预测因子不能解释的部分响应值。有关添加变量图的详细信息,请参见新增变量图

创建模型残差的直方图。plotResiduals使用概率密度函数缩放绘制原始残差的直方图。

plotResiduals (mdl)

直方图显示少数残差小于 - 1 × 1 0 6 .确定这些异常值。

找到(mdl.Residuals。Raw < -1*10^6)
ans =4×11327 4136 4997 13894

或者,您可以使用isoutlier.指定“拉布”选项应用Grubb测试。此选项适用于正态分布数据集。

找到(isoutlier (mdl.Residuals.Raw,“拉布”))
ans =3×11327 4136 4997

isoutlier函数不识别残差13894作为一个异常值。这个残差接近于-1 × 10 6 .显示剩余值。

mdl.Residuals.Raw (13894)
Ans = -1.0720e+06

函数拟合线性回归模型时,可以排除异常值排除名称-值对参数。在这种情况下,示例调整拟合模型,并检查改进的模型是否也可以解释异常值。

调整模型

删除DD而且buildingclasscategory变量使用removeTerms

newMdl1 = removeTerms(mdl,“DD +建筑分类”
newMdl1 =线性回归模型:售价~ 1 +行政区+土地平方英尺+建筑平方英尺+年建+ MM估计SE tStat pValue ___________ __________ ________ __________(拦截)2.0529e+05 1.0274e+05 1.9981 0.045726 borough_Bronx -3.0038e+05 56675 -5.3 1.1739e-07 borough_Brooklyn -39704 56488 -0.70286 0.48215 borough_Queens -90231 56537 -1.596 0.11052 borough_Staten Island -2.2149e+05 56720 -3.9049 9.4652e-05 landsquarefeet 13.04 0.83912 15.54 4.6278e-54 grosssquarefeet 113.85 2.5078 45.396 0 yearbuilt 96.649 45.395 2.1291 0.033265 MM 3875.6 543.49 7.131 1.0396e-12观测数量:15848,误差自由度:15839均方根误差:2.32e+05 r平方:0.235,调整r平方:0.235 f统计量vs常数模型:608,p值= 0

的r平方值和调整后的r平方值,由于这两个变量在解释响应变量时并不显著newMdl1的值是否接近mdl

通过添加或删除变量来改进模型一步.模型的默认上界是一个包含截距项的模型,每个预测器的线性项,以及不同预测器对的所有乘积(没有平方项),默认下界是一个包含截距项的模型。下载188bet金宝搏指定要走的最大步数为30。当没有单个步骤改进模型时,函数停止。

newMdl1 = step(newMdl1,“NSteps”, 30)
1.新增自治区:grosssquarefeet, FStat = 58.7413, pValue = 2.63078e-49添加行政区:年建,FStat = 31.5067, pValue = 3.50645e-26新增行政区:landsquarefeet, FStat = 29.5473, pValue = 1.60885e-24添加大平方英尺:年建造,FStat = 69.312, pValue = 9.08599e-17添加landsquarefeet:grosssquarefeet, FStat = 33.2929, pValue = 8.07535e-09添加土地平方英尺:年建造,FStat = 45.2756, pValue = 1.7704e-118.添加yearbuilt:MM, FStat = 18.0785, pValue = 2.13196e-059.增加住宅单元,FStat = 16.0491, pValue = 6.20026e-05增加住宅单元:土地平方英尺,FStat = 160.2601, pValue = 1.49309e-36 Adding residentialunits:grosssquarefeet, FStat = 27.351, pValue = 1.71835e-07 11. Adding commercialunits, FStat = 14.1503, pValue = 0.000169381 12. Adding commercialunits:grosssquarefeet, FStat = 25.6942, pValue = 4.04549e-07 13. Adding borough:commercialunits, FStat = 6.1327, pValue = 6.3015e-05 14. Adding buildingclasscategory, FStat = 11.1412, pValue = 0.00084624 15. Adding buildingclasscategory:landsquarefeet, FStat = 66.9205, pValue = 3.04003e-16 16. Adding buildingclasscategory:yearbuilt, FStat = 15.0776, pValue = 0.0001036 17. Adding buildingclasscategory:grosssquarefeet, FStat = 18.3304, pValue = 1.86812e-05 18. Adding residentialunits:yearbuilt, FStat = 15.0732, pValue = 0.00010384 19. Adding buildingclasscategory:residentialunits, FStat = 13.5644, pValue = 0.00023129 20. Adding borough:buildingclasscategory, FStat = 2.8214, pValue = 0.023567 21. Adding landsquarefeet:MM, FStat = 4.9185, pValue = 0.026585 22. Removing grosssquarefeet:yearbuilt, FStat = 1.6052, pValue = 0.20519
newMdl2 =线性回归模型:saleprice ~ 1 +区* buildingclasscategory +区* commercialunits +区* landsquarefeet +区* grosssquarefeet +区* yearbuilt + buildingclasscategory * residentialunits + buildingclasscategory * landsquarefeet + buildingclasscategory * grosssquarefeet + buildingclasscategory * yearbuilt + residentialunits * landsquarefeet + residentialunits * grosssquarefeet + residentialunits * yearbuilt + commercialunits * grosssquarefeet + landsquarefeet * grosssquarefeet + landsquarefeet * yearbuilt +土地平方英尺*MM +年建*MM估计SE tStat pValue ___________ __________ ________ __________(拦截)2.2152e+07 1.318e+07 1.6808 0.092825 borough_Bronx -2.3263e+07 1.3176e+07 - 1.4356 0.077486 borough_Brooklyn -1.8935e+07 1.3174e+07 -1.4373 0.15064 borough_Queens -2.1757e+07 1.3173e+07 -1.6516 0.098636 borough_Staten Island -2.3471e+07 1.3177e+07 -1.7813 0.074891 buildingclasscategory -7.2403e+05 1.9374e+05 -3.737 0.00018685住宅单元6.1912e+05 1.2399e+05 4.9932 6.003e-07商业单元4.2016e+05 1.2815e+053..2786 0.0010456 landsquarefeet -390.54 96.349 -4.0535 5.0709e-05 grosssquarefeet 189.33 83.723 2.2614 0.023748 yearbuilt -11556 6958.7 -1.6606 0.096805 MM 95189 31787 2.9946 0.0027521 borough_Bronx:buildingclasscategory -1.1972e+05 1.0481e+05 -1.1422 0.25338 borough_Brooklyn:buildingclasscategory -1.4154e+05 1.0448e+05 -1.3548 0.17551 borough_Queens:buildingclasscategory -1.1597e+05 1.0454e+05 -1.1093 0.2673 borough_Staten Island:buildingclasscategory -1.1851e+05 1.0513e+05 -1.1273 0.25964 borough_Bronx:commercialunits -2.7488e+05 1.3267e+05 -2.0719 0.038293 borough_Brooklyn:commercialunits -3.8228e+05 1.2835e+05 -2.9784 0.0029015 borough_Queens:commercialunits -3.9818e+05 1.2884e+05 -3.0906 0.0020008 borough_Staten Island:commercialunits -4.9381e+05 1.353e+05 -3.6496 0.00026348 borough_Bronx:landsquarefeet 121.81 77.442 1.573 0.11574 borough_Brooklyn:landsquarefeet 113.09 77.413 1.4609 0.14405 borough_Queens:landsquarefeet 99.894 77.374 1.2911 0.1967 borough_Staten Island:landsquarefeet 84.508 77.376 1.0922 0.27477 borough_Bronx:grosssquarefeet -55.417 83.412 -0.66437 0.50646 borough_Brooklyn:grosssquarefeet 6.4033 83.031 0.077119 0.93853 borough_Queens:grosssquarefeet 38.28 83.144 0.46041 0.64523 borough_Staten Island:grosssquarefeet 12.539 83.459 0.15024 0.88058 borough_Bronx:yearbuilt 12121 6956.8 1.7422 0.081485 borough_Brooklyn:yearbuilt 9986.5 6955.8 1.4357 0.1511 borough_Queens:yearbuilt 11382 6955.3 1.6364 0.10177 borough_Staten Island:yearbuilt 12237 6957.1 1.7589 0.078613 buildingclasscategory:residentialunits 21392 5465 3.9143 9.1041e-05 buildingclasscategory:landsquarefeet -13.099 2.0014 -6.545 6.1342e-11 buildingclasscategory:grosssquarefeet -30.087 5.2786 -5.6998 1.2209e-08 buildingclasscategory:yearbuilt 462.31 85.912 5.3813 7.5021e-08 residentialunits:landsquarefeet -1.0826 0.13896 -7.7911 7.0554e-15 residentialunits:grosssquarefeet -5.1192 1.7923 -2.8563 0.0042917 residentialunits:yearbuilt -326.69 63.556 -5.1403 2.7762e-07 commercialunits:grosssquarefeet -29.839 5.0231 -5.9403 2.9045e-09 landsquarefeet:grosssquarefeet -0.0055199 0.0010364 -5.3262 1.0165e-07 landsquarefeet:yearbuilt 0.1766 0.030902 5.7151 1.1164e-08 landsquarefeet:MM 0.6595 0.30229 2.1817 0.029145 yearbuilt:MM -47.944 16.392 -2.9248 0.0034512 Number of observations: 15848, Error degrees of freedom: 15804 Root Mean Squared Error: 2.25e+05 R-squared: 0.285, Adjusted R-Squared: 0.283 F-statistic vs. constant model: 146, p-value = 0

的r平方和调整后的r平方值newMdl2的值大于newMdl1

使用创建模型残差的直方图plotResiduals

plotResiduals (newMdl2)

的残差直方图newMdl2是对称的,没有异常值。

你也可以使用addTerms添加特定的条款。或者,您可以使用stepwiselm在初始模型中指定术语,并使用逐步回归继续改进模型。

预测对新数据的反应

预测对测试数据集的响应testData采用拟合模型newMdl2和目标函数预测

ypred = predict(newMdl2,testData);

绘制测试数据集的残差直方图。

errs = ypred - testdata .sale;直方图(错)标题(残差直方图-试验数据

残值有一些异常值。

错(isoutlier(犯错误,“拉布”))
ans =6×1107× 0.1788 -0.4688 -1.2981 0.1019 0.1122 0.1331

使用Tall数组进行分析

fitlm函数支持内存不足数金宝app据的高数组,但有一些限制。对于高数据,fitlm返回一个CompactLinearModel对象的大部分相同属性LinearModel对象。主要的区别是紧凑对象对内存需求很敏感。紧凑对象没有包含数据的属性,也没有包含与数据大小相同的数组的属性。因此,一些LinearModel需要数据的对象函数不适用于紧凑模型。看到对象的功能获取所支持的对象函数列表。金宝app同时,看到高大的数组的使用注意事项和限制fitlm对于高数组。

在高数组上执行计算时,MATLAB®使用并行池(如果有并行计算工具箱™,则默认为并行池)或本地MATLAB会话。如果要在具有并行计算工具箱时使用本地MATLAB会话运行示例,可以使用mapreduce函数。

假设所有数据都在数据存储中ds不适合内存。你可以使用而不是readall阅读ds

NYCHousing2015 =高(ds);

对于本例,转换内存中的表NYCHousing2015到一个高的桌子使用函数。

NYCHousing2015_t = tall(NYCHousing2015);
使用“本地”配置文件启动并行池(parpool)…连接到并行池(工人数:6)。

将数据集划分为训练集和测试集。当你使用cvpartition对于高数组,函数根据作为第一个输入参数提供的变量对数据集进行分区。对于分类问题,通常使用响应变量(分组变量)并创建随机分层分区,以便在所有组的训练集和测试集之间均匀分布。对于回归问题,这种分层是不够的,您可以使用“分层”参数来关闭该选项。

在本例中,指定预测变量NYCHousing2015_t.borough作为第一个输入参数,使各区在训练集和测试集的分布大致相同。为了重现性,设置随机数发生器的种子使用tallrng.根据工作人员的数量和tall数组的执行环境,结果可能有所不同。详细信息请参见控制代码运行的位置

tallrng (“默认”%用于再现性c = cvpartition(NYCHousing2015_t.borough,“坚持”, 0.3);trainData_t = NYCHousing2015_t(training(c),:);testData_t = NYCHousing2015_t(test(c),:);

因为fitlm为高数组返回紧凑模型对象,则不能使用一步函数。相反,您可以使用对象函数来研究模型参数,然后根据需要调整模型。您还可以将数据的子集收集到工作区中,使用stepwiselm在内存中迭代地开发模型,然后扩展到使用高数组。详细信息请参见模型开发使用高数组的大数据统计和机器学习

在本例中,使用的模型公式拟合线性回归模型newMdl2

mdl_t = fitlm(trainData_t,newMdl2.Formula)
使用并行池“本地”评估tall表达式:-通过1 / 1:在7.4秒内完成评估,在9.2秒内完成
mdl_t =紧凑线性回归模型:saleprice ~ 1 +区* buildingclasscategory +区* commercialunits +区* landsquarefeet +区* grosssquarefeet +区* yearbuilt + buildingclasscategory * residentialunits + buildingclasscategory * landsquarefeet + buildingclasscategory * grosssquarefeet + buildingclasscategory * yearbuilt + residentialunits * landsquarefeet + residentialunits * grosssquarefeet + residentialunits * yearbuilt + commercialunits * grosssquarefeet + landsquarefeet * grosssquarefeet + landsquarefeet * yearbuilt +土地平方英尺*MM +年建*MM估计SE tStat pValue ___________ __________ ________ __________(拦截)-1.3301e+06 5.1815e+05 -2.567 0.010268 borough_布鲁克林4.2583e+06 4.1808e+05 10.185 2.7392e-24 borough_曼哈顿2.2758e+07 1.3448e+07 1.6923 0.090614 borough_皇后区1.1395e+06 4.1868e+05 2.7216 0.0065035 borough_Staten岛-1.1196e+05 4.6677e+05 -4.9817 6.3705e-07住宅单元6.0588e+05 1.2669e+05 4.7822 1.7497e-06商业单元80197 533111.5043 0.13252土地平方英尺-279.94 53.913 -5.1925 2.1009e-07大平方英尺170.02 13.996 12.147 8.3837e-34年建成的683.49 268.34 2.5471 0.010872 MM 86488 32725 2.6428 0.0082293 borough_布鲁克林:建筑类类别-9852.4 12048 -0.81773 0.41352 borough_曼哈顿:建筑类类别1.3318e+05 1.3592e+05 0.97988 0.32716 borough_皇后区:建筑类类别15621 11671 1.3385 0.18076 borough_Staten岛:建筑类类别15132 14893 1.016 0.30964 borough_布鲁克林:商业单元-22060 43012 -0.51289 0.60804 borough_Manhattan:commercialunits 4.8349e+05 2.1757e+05 2.2222 0.026282 borough_Queens:commercialunits -42023 44736 -0.93936 0.34756 borough_Staten Island:commercialunits -1.3382e+05 56976 -2.3487 0.018853 borough_Brooklyn:landsquarefeet 9.8263 5.2513 1.8712 0.061335 borough_Manhattan:landsquarefeet -78.962 78.445 -1.0066 0.31415 borough_Queens:landsquarefeet -3.0855 3.9087 -0.78939 0.4299 borough_Staten Island:landsquarefeet -17.325 3.5831 -4.8351 1.3433e-06borough_Brooklyn:grosssquarefeet 37.689 10.573 3.5646 0.00036548 borough_Manhattan:grosssquarefeet 16.107 82.074 0.19625 0.84442 borough_Queens:grosssquarefeet 70.381 10.69 6.5837 4.7343e-11 borough_Staten Island:grosssquarefeet 36.396 12.08 3.0129 0.0025914 borough_Brooklyn:yearbuilt -2110.1 216.32 -9.7546 2.0388e-22 borough_Manhattan:yearbuilt -11884 7023.9 -1.692 0.090667 borough_Queens:yearbuilt -566.44 216.89 -2.6116 0.0090204 borough_Staten Island:yearbuilt - 53.714 239.89 0.22391 0.82283建筑类别类别:住宅单元24088 5574 4.3215 1.5595e-05建筑类别类别:土地平方英尺5.7964 5.8438 0.9919 0.32126建筑类别类别:粗平方英尺-47.079 5.2884 -8.9023 6.0556e-19建筑类别类别:建造年430.97 83.593 5.1555 2.56e-07住宅单元:土地平方英尺-21.756 5.6485 -3.8517 0.00011778住宅单元:粗平方英尺4.584 1.4586 3.1427 0.0016769住宅单元:建造年-310.09 65.429 -4.7393 2.1632e-06商业单元:粗平方英尺-27.83911.463 -2.4286 0.015166土地平方英尺:粗平方英尺-0.0068613 0.00094607 -7.2524 4.2832e-13土地平方英尺:年建成0.17489 0.028195 6.2028 5.6861e-10土地平方英尺:MM 0.70295 0.2848 2.4682 0.013589年建成:MM -43.405 16.871 -2.5728 0.010098观测数:15849,误差自由度:15805均方根误差:2.26e+05 r平方:0.277,调整r平方:0.275 f统计量vs常量模型:141,p值= 0

mdl_t是一个CompactLinearModel对象。mdl_t不完全一样吗newMdl2因为从高表获得的分区训练数据集与从内存数据集获得的训练数据集不一样。

您不能使用plotResiduals函数创建模型残差的直方图,因为mdl_t是紧凑对象。相反,直接从紧凑对象计算残差,并使用柱状图

mdl_t_Residual = trainData_t。saleprice-预测(mdl_t,trainData_t); histogram(mdl_t_Residual)
使用并行池“本地”评估tall表达式:-通过2中的1:在2.5秒内完成-通过2中的2:在0.63秒内完成评估在3.8秒内完成
标题(残差直方图-列数据

预测对测试数据集的响应testData_t通过使用预测

ypred_t = predict(mdl_t,testData_t);

绘制测试数据集的残差直方图。

errs_t = ypred_t - testdata_t .sale;直方图(errs_t)
使用并行池“本地”评估高表达式:-通过2中的1:0%完成评估0%完成
-通过1 / 2:6%完成评估完成3%

-通过2 / 1:在0.79秒内完成-通过2 / 2:在0.55秒内完成评估在2秒内完成
标题(残差直方图-试验数据

,可进一步评估拟合模型CompactLinearModel对象的功能。具体示例请参见评估和调整模型使用高数组的大数据统计和机器学习

另请参阅

|||

相关的话题