이번역페이지는최신내용을담고있지않습니다。최신내용을영문으로보려면여기를클릭하십시오。
선형회귀모델
LinearModel
은피팅된선형회귀모델객체입니다。회귀모델은응답변수와예측변수사이의관계를설명합니다。선형회귀모델의선형성은예측변수계수의선형성을가리킵니다。
LinearModel
객체의속성을사용하여피팅된선형회귀모델을조사하십시오。객체속성에는계수추정값,요약통계량,피팅방법및입력데이터에대한정보가포함됩니다。객체함수를사용하여응답변수를예측하고선형회귀모델을수정,평가및시각화하십시오。
LinearModel
객체는fitlm
또는stepwiselm
을사용하여생성할수있습니다。
fitlm
은고정된모델사양을사용하여선형회귀모델을데이터에피팅합니다。모델에서항을추가하거나제거하려면addTerms
,removeTerms
또는一步
을사용하십시오。또는단계적선형회귀를사용하여모델을피팅하려면stepwiselm
을사용하십시오。
CoefficientCovariance
- - - - - -계수추정값으로구성된공분산행렬이속성은읽기전용입니다。
계수추정값으로구성된공분산행렬로,숫자형값으로구성된p×행렬로지정됩니다。p는피팅된모델에포함된계수의개수입니다。
자세한내용은标准误差和置信区间항목을참조하십시오。
데이터형:单
|双
CoefficientNames
- - - - - -계수이름이속성은읽기전용입니다。
계수이름으로,각각대응되는항의이름을포함하는문자형벡터로구성된셀형배열로지정됩니다。
데이터형:细胞
系数
- - - - - -계수값이속성은읽기전용입니다。
계수값으로,테이블로지정됩니다。系数
는각계수에대해하나의행과다음과같은열을포함합니다。
估计
——추정된계수값
SE
——추정값의표준오차
tStat
0 -계수가인지를확인하는검정에대한t -통계량
pValue
——t -통계량에대한p -값
계수에대해다른검정을수행하려면方差分析
(선형회귀모델만해당)또는coefTest
를사용하십시오。계수추정값의신뢰구간을구하려면coefCI
를사용하십시오。
이러한열중하나를벡터로얻으려면점표기법을사용하여속성의요소를참조하십시오。예를들어,다음과같이모델mdl
에서추정된계수벡터를얻습니다。
β= mdl.Coefficients.Estimate
데이터형:表格
NumCoefficients
- - - - - -모델계수의개수이속성은읽기전용입니다。
모델계수의개수로,양의정수로지정됩니다。NumCoefficients
는모델항이랭크부족인경우0으로설정되는계수를포함합니다。
데이터형:双
NumEstimatedCoefficients
- - - - - -추정된계수의개수이속성은읽기전용입니다。
모델에서추정된계수의개수로,양의정수로지정됩니다。NumEstimatedCoefficients
는모델항이랭크부족인경우0으로설정되는계수를포함하지않습니다。NumEstimatedCoefficients
는회귀에대한자유도입니다。
데이터형:双
教育部
- - - - - -오차에대한자유도이속성은읽기전용입니다。
오차(잔차)에대한자유도로,관측값개수에서추정된계수개수를뺀값과같으며,양의정수로지정됩니다。
데이터형:双
诊断
- - - - - -관측값진단이속성은읽기전용입니다。
관측값진단으로,각관측값에대해하나의행과다음표에설명된열을포함하는테이블로지정됩니다。
열 | 의미 | 설명 |
---|---|---|
利用 |
HatMatrix 의대각선요소 |
각관측값에대한利用 는관측된예측변수값에의해피팅이결정되는정도를나타냅니다。값이1 에가까우면피팅이다른관측값의영향을거의받지않고주로해당관측값에의해결정됨을나타냅니다。값이0 에가까우면피팅이주로다른관측값에의해결정됨을나타냅니다。P 개의계수와N 개의관측값이있는모델의경우,利用 의평균값은P / N 입니다。2 * P / N 보다큰利用 값은높은지렛대값을나타냅니다。 |
CooksDistance |
쿡의거리 | CooksDistance 는피팅된값의스케일링된변화량에대한측정값입니다。CooksDistance 가평균쿡의거리(库克的距离)의세배보다큰관측값은이상값일수있습니다。 |
Dffits |
피팅된값의Delete-1스케일링된차분 | Dffits 는각관측값에대해피팅된값의스케일링된변화량으로,피팅에서해당관측값을제외시키면얻게됩니다。절댓값이2 *倍根号(P / N) 보다큰값은영향점으로간주될수있습니다。 |
S2_i |
Delete-1분산 | S2_i 는각관측값을차례로삭제하여구한잔차분산추정값집합입니다。이러한추정값을均方误差 속성에저장된평균제곱오차(MSE)값과비교할수있습니다。 |
CovRatio |
공분산행렬식의Delete-1비율 | CovRatio 는전체모델에대한공분산행렬의행렬식에대해각관측값을차례로삭제한계수공분산행렬의행렬식비율입니다。1 + 3 * P / N 보다크거나1 - 3 * P / N 보다작은값은영향점을나타냅니다。 |
Dfbetas |
계수추정값의Delete-1스케일링된차분 | Dfbetas 는계수추정값의스케일링된변화량으로구성된N ×P 행렬로,각관측값을차례로제외시켜얻을수있습니다。절댓값이3 /√(N) 보다큰값은관측값이해당계수에미치는영향이크다는것을나타냅니다。 |
HatMatrix |
관측된응답변수에서安装 를계산하기위한투영행렬 |
HatMatrix 는安装= HatMatrix * Y 를충족하는N ×N 행렬이며,여기서Y 는응답변수벡터이고安装 는피팅된응답변수값으로구성된벡터입니다。 |
诊断
는이상값및영향관측값을구하는데도움이되는정보를포함합니다。Delete-1진단은피팅에서각관측값을차례로제외시켜얻은변화량을캡처합니다。자세한내용은帽子矩阵和杠杆,库克的距离및Delete-1统计항목을참조하십시오。
관측값진단을플로팅하려면plotDiagnostics
를사용하십시오。
누락값(ObservationInfo。失踪
에있음)또는제외된값(ObservationInfo。被排除在外
)에있음으로인해피팅에사용되지않은행에는CooksDistance
,Dffits
,S2_i
,CovRatio
열에南
값이포함되고利用
,Dfbetas
,HatMatrix
열0에이포함됩니다。
이러한열중하나를배열로얻으려면점표기법을사용하여속성의요소를참조하십시오。예를들어,다음과같이모델mdl
에서Delete-1분산벡터를구합니다。
S2i = mdl.Diagnostics.S2_i;
데이터형:表格
安装
- - - - - -입력데이터를기준으로피팅된응답변수값이속성은읽기전용입니다。
입력데이터를기준으로피팅된(예측된)응답변수값으로,n×1숫자형벡터로지정됩니다。n은입력데이터에포함된관측값개수입니다。预测
를사용하여다른예측변수값에대한예측값을계산하거나安装
에대한신뢰한계를계산할수있습니다。
데이터형:单
|双
LogLikelihood
- - - - - -로그가능도이속성은읽기전용입니다。
응답변수값의로그가능도로,각응답변수값이정규분포를따른다는가정에기반하여숫자형값으로지정됩니다。정규분포의평균은피팅된(예측된)응답변수값이고,분산은均方误差
입니다。
데이터형:单
|双
ModelCriterion
- - - - - -모델비교기준이속성은읽기전용입니다。
모델비교기준으로,다음필드를가진구조체로지정됩니다。
另类投资会议
-아카이케정보기준(AIC: Akaike信息准则)으로AIC = -2 *logL + 2*m
입니다。여기서logL
은로그가능도이며米
은추정된모수의개수입니다。
AICc
——표본크기에대해수정된아카이케정보기준으로AIC = AIC + (2*m*(m + 1))/(n - m - 1)
입니다。여기서n
은관측값개수입니다。
BIC
——베이즈정보기준(BIC:贝叶斯信息准则)으로BIC = -2 *logL + m*log(n)
입니다。
中安集团经贸
——일관된아카이케정보기준으로CAIC = -2 *logL + m*(log(n) + 1)
입니다。
정보기준은동일한데이터에대한여러모델피팅을비교하는데사용할수있는모델선택도구입니다。이기준은복잡도(특히모수개수)에대한벌점을포함하는모델피팅에대한가능도기반측정값입니다。각기다른정보기준은벌점형식으로구분됩니다。
여러모델을비교할때는정보기준값이가장낮은모델이가장적합한피팅모델입니다。최적의피팅모델은모델비교에사용된기준에따라다를수있습니다。
기준값중하나를스칼라로구하려면점표기법을사용하여속성을참조하십시오。예를들어,다음과같이모델mdl
에서AIC값另类投资会议
를구합니다。
aic = mdl.ModelCriterion.AIC
데이터형:结构体
均方误差
- - - - - -평균제곱오차이속성은읽기전용입니다。
평균제곱오차(잔차)로,숫자형값으로지정됩니다。
Mse = sse / dfe,
여기서MSE는평균제곱오차이고,上交所는제곱오차의합이며,教育部는자유도입니다。
데이터형:单
|双
残差
- - - - - -피팅된모델의잔차이속성은읽기전용입니다。
피팅된모델의잔차로,각관측값에대해하나의행과다음표에설명된열을포함하는테이블로지정됩니다。
열 | 설명 |
---|---|
生 |
관측값에서피팅값을뺀값입니다。 |
皮尔森 |
원시잔차를평균제곱오차의제곱근(RMSE)으로나눈값입니다。 |
标准化 |
원시잔차를잔차의추정된표준편차로나눈값입니다。 |
Studentized |
원시잔차를잔차표준편차에대한독립적인추정값으로나눈값입니다。관측값我에대한잔차를관측값我를제외한모든관측값을기반으로하는오차표준편차의추정값으로나누어얻습니다。 |
잔차에대한플롯을생성하려면plotResiduals
를사용하십시오。자세한내용은残差항목을참조하십시오。
누락값(ObservationInfo。失踪
에있음)또는제외된값(ObservationInfo。被排除在外
)에있음으로인해피팅에사용되지않은행에는南
값이포함됩니다。
이러한열중하나를벡터로얻으려면점표기법을사용하여속성의요소를참조하십시오。예를들어,다음과같이모델mdl
에서원시잔차벡터r
을구합니다。
r = mdl.Residuals.Raw
데이터형:表格
RMSE
- - - - - -평균제곱오차의제곱근이속성은읽기전용입니다。
평균제곱오차(잔차)의제곱근으로,숫자형값으로지정됩니다。
RMSE = sqrt (MSE),
여기서RMSE는평균제곱오차의제곱근이고MSE는평균제곱오차입니다。
데이터형:单
|双
Rsquared
- - - - - -모델에대한결정계수값이속성은읽기전용입니다。
모델에대한결정계수값으로,다음두필드를가지는구조체로지정됩니다。
普通的
——일반(수정되지않은)결정계수
调整
——계수개수에대해수정된결정계수
결정계수값은모델로설명되는총제곱합의비율입니다。일반결정계수값은苏维埃社会主义共和国
속성및风场
속성과관련이있습니다。
Rsquared = SSR /风场
,
여기서风场
는총제곱합이고,苏维埃社会主义共和国
은제곱의회귀합입니다。
자세한내용은결정계수(R제곱)항목을참조하십시오。
이러한값중하나를스칼라로얻으려면점표기법을사용하여속성을참조하십시오。예를들어,다음과같이모델mdl
에서수정된결정계수값을구합니다。
r2 = mdl.Rsquared.Adjusted
데이터형:结构体
上交所
- - - - - -제곱오차의합이속성은읽기전용입니다。
제곱오차(잔차)의합으로,숫자형값으로지정됩니다。
피타고라스정리는다음을의미합니다。
SST = sse + SSR
,
여기서风场
는총제곱합이고,上交所
는제곱오차의합이고,苏维埃社会主义共和国
은제곱의회귀합입니다。
데이터형:单
|双
苏维埃社会主义共和国
- - - - - -회귀제곱합이속성은읽기전용입니다。
회귀제곱합으로,숫자형값으로지정됩니다。제곱의회귀합은평균과피팅된값간의편차에대한제곱합과같습니다。
피타고라스정리는다음을의미합니다。
SST = sse + SSR
,
여기서风场
는총제곱합이고,上交所
는제곱오차의합이고,苏维埃社会主义共和国
은제곱의회귀합입니다。
데이터형:单
|双
风场
- - - - - -총제곱합이속성은읽기전용입니다。
총제곱합으로,숫자형값으로지정됩니다。총제곱합은意思是(y)
와응답변수벡터y
간의편차에대한제곱합과같습니다。
피타고라스정리는다음을의미합니다。
SST = sse + SSR
,
여기서风场
는총제곱합이고,上交所
는제곱오차의합이고,苏维埃社会主义共和国
은제곱의회귀합입니다。
데이터형:单
|双
健壮的
- - - - - -로버스트피팅정보이속성은읽기전용입니다。
로버스트피팅정보로,다음표에설명된필드를가지는구조체로지정됩니다。
필드 | 설명 |
---|---|
WgtFun |
로버스트가중치함수。“bisquare” 를예로들수있습니다(“RobustOpts” 참조)。 |
调优 |
조율상수。WgtFun 이“ols” 이거나WgtFun 1이디폴트조율상수가인사용자지정가중치함수에대한함수핸들인경우이필드는비어있습니다([] ). |
权重 |
로버스트피팅의최종반복에사용되는가중치로구성된벡터。CompactLinearModel 객체의경우이필드는비어있습니다。 |
로버스트회귀를사용하여모델을생성하지않으면이구조체는비어있습니다。
데이터형:结构体
步骤
- - - - - -단계적피팅정보이속성은읽기전용입니다。
단계적피팅정보로,다음표에설명된필드를갖는구조체로지정됩니다。
필드 | 설명 |
---|---|
开始 |
시작모델을나타내는식 |
较低的 |
하한모델을나타내는식。较低的 의항들은모델에서유지되어야합니다。 |
上 |
상한모델을나타내는식。모델은上 보다더많은항을포함할수없습니다。 |
标准 |
단계별알고리즘에사용되는기준(예:上交所的 ) |
被关闭的 |
标准 이항을추가할분계점 |
PRemove |
标准 이항을제거할분계점 |
历史 |
피팅에서수행하는단계를나타내는테이블 |
历史
테이블은초기피팅을포함하여각단계에대해하나의행과다음표에설명된열을포함합니다。
열 | 설명 |
---|---|
行动 |
해당단계에서수행되는동작:
|
TermName |
|
条款 |
항행렬의모델사양 |
DF |
해당단계이후의회귀자유도 |
delDF |
이전단계에비해달라진회귀자유도의변화량(항을제거하는단계의경우음수임) |
异常 |
해당단계에서의이탈도,즉잔차제곱합(일반화선형회귀모델만해당) |
函数 |
해당단계로이어지는F——통계량 |
PValue |
F——통계량의p——값 |
단계적회귀를사용하여모델을피팅하지않는한,구조체는비어있습니다。
데이터형:结构体
公式
- - - - - -모델정보LinearFormula
객체이속성은읽기전용입니다。
모델정보로,LinearFormula
객체로지정됩니다。
다음과같이점표기법을사용하여피팅된모델mdl
의수식을표시합니다。
mdl。Formula
NumObservations
- - - - - -관측값개수이속성은읽기전용입니다。
피팅함수가피팅에사용하는관측값개수로,양의정수로지정됩니다。NumObservations
는원래테이블,데이터셋또는행렬에제공된관측값개수에서제외된행(“排除”
이름——값쌍의인수로설정됨)또는누락값이있는행을뺀값입니다。
데이터형:双
NumPredictors
- - - - - -예측변수의개수이속성은읽기전용입니다。
모델을피팅하는데사용되는예측변수의개수로,양의정수로지정됩니다。
데이터형:双
NumVariables
- - - - - -변수의개수이속성은읽기전용입니다。
입력데이터에포함되는변수의개수로,양의정수로지정됩니다。NumVariables
는원래테이블또는데이터셋에포함된변수의개수이거나예측변수행렬및응답변수벡터에포함된열의총개수입니다。
NumVariables
는예측변수또는응답변수로모델을피팅하는데사용되지않은변수도포함합니다。
데이터형:双
ObservationInfo
- - - - - -관측값정보이속성은읽기전용입니다。
관측값정보로,n×4테이블로지정됩니다。여기서n은입력데이터의행개수와같습니다。ObservationInfo
는다음표에설명된열을포함합니다。
열 | 설명 |
---|---|
权重 |
관측값가중치로,숫자형값으로지정됩니다。디폴트값은1 입니다。 |
被排除在外 |
제외된관측값에대한표시자로,논리값으로지정됩니다。“排除” 이름——값쌍의인수를사용하여피팅에서관측값을제외한경우값은真正的 입니다。 |
失踪 |
누락관측값에대한표시자로,논리값으로지정됩니다。관측값이누락된경우값은真正的 입니다。 |
子集 |
피팅함수가관측값을사용하는지여부를나타내는표시자로,논리값으로지정됩니다。관측값이제외되지않거나누락값이아닌경우,즉피팅함수가해당관측값을사용하는경우값은真正的 입니다。 |
이러한열중하나를벡터로얻으려면점표기법을사용하여속성의요소를참조하십시오。예를들어,다음과같이모델mdl
의가중벡터w
를구합니다。
w = mdl.ObservationInfo.Weights
데이터형:表格
ObservationNames
- - - - - -관측값이름이속성은읽기전용입니다。
관측값이름으로,피팅에사용되는관측값의이름을포함하는문자형벡터로구성된셀형배열로지정됩니다。
피팅이관측값이름을포함하는테이블또는데이터셋을기반으로하는경우ObservationNames
는이이름을사용합니다。
그렇지않은경우ObservationNames
는빈셀형배열입니다。
데이터형:细胞
PredictorNames
- - - - - -모델을피팅하는데사용되는예측변수의이름이속성은읽기전용입니다。
모델을피팅하는데사용되는예측변수의이름으로,문자형벡터로구성된셀형배열로지정됩니다。
데이터형:细胞
ResponseName
- - - - - -응답변수이름이속성은읽기전용입니다。
응답변수이름으로,문자형벡터로지정됩니다。
데이터형:字符
VariableInfo
- - - - - -변수에대한정보이속성은읽기전용입니다。
变量
에포함된변수에대한정보로,각변수에대해하나의행과다음표에설명된열을갖는테이블로지정됩니다。
열 | 설명 |
---|---|
类 |
변수클래스로,문자형벡터로구성된셀형배열로지정됩니다(예:“双” 및“分类” ). |
范围 |
변수범위로,벡터로구성된셀형배열로지정됩니다。
|
InModel |
피팅된모델에어느변수가포함되었는지에대한표시자로,논리형벡터로지정됩니다。모델이변수를포함하는경우값은真正的 입니다。 |
IsCategorical |
범주형변수에대한표시자로,논리형벡터로지정됩니다。변수가범주형인경우값은真正的 입니다。 |
VariableInfo
는예측변수또는응답변수로모델을피팅하는데사용되지않은변수도포함합니다。
데이터형:表格
VariableNames
- - - - - -변수의이름이속성은읽기전용입니다。
변수의이름으로,문자형벡터로구성된셀형배열로지정됩니다。
피팅이테이블또는데이터셋을기반으로하는경우이속성은해당테이블또는데이터셋의변수의이름을제공합니다。
피팅이예측변수행렬과응답변수벡터를기반으로하는경우VariableNames
는피팅방법의“VarNames”
이름——값쌍의인수로지정된값을포함합니다。“VarNames”
의디폴트값은{x1, x2,…,‘xn’,‘y’}
입니다。
VariableNames
는예측변수또는응답변수로모델을피팅하는데사용되지않은변수도포함합니다。
데이터형:细胞
变量
- - - - - -입력데이터이속성은읽기전용입니다。
입력데이터로,테이블로지정됩니다。变量
는예측변수값과응답변수값을모두포함합니다。피팅이테이블또는数据集형배열을기반으로하는경우变量
는해당테이블또는数据集형배열의모든데이터를포함합니다。그렇지않은경우变量
는입력데이터행렬X
와응답변수벡터y
에서생성되는테이블입니다。
变量
는예측변수또는응답변수로모델을피팅하는데사용되지않은변수도포함합니다。
데이터형:表格
CompactLinearModel
만들기紧凑的 |
紧线性回归模型 |
addTerms |
向线性回归模型中添加项 |
removeTerms |
从线性回归模型中移除术语 |
一步 |
通过添加或删除项来改进线性回归模型 |
方差分析 |
线性回归模型的方差分析 |
coefCI |
线性回归模型系数估计的置信区间 |
coefTest |
线性回归模型系数的线性假设检验 |
dwt |
线性回归模型对象的德宾-沃森检验 |
partialDependence |
计算部分依赖 |
情节 |
线性回归模型的散点图或添加变量图 |
plotAdded |
增加了线性回归模型的变量图 |
plotAdjustedResponse |
线性回归模型调整后的响应图 |
plotDiagnostics |
绘制线性回归模型的观察诊断图 |
plotEffects |
在线性回归模型中绘制预测因子的主要作用 |
plotInteraction |
在线性回归模型中绘制两个预测因子的交互作用 |
plotPartialDependence |
创建部分依赖图(PDP)和个人条件期望图(ICE) |
plotResiduals |
绘制线性回归模型的残差 |
plotSlice |
通过拟合的线性回归曲面绘制切片图 |
收集 |
收集的属性统计和机器学习工具箱对象从GPU |
행렬입력데이터세트를사용하여선형회귀모델을피팅합니다。
행렬입력데이터세트인carsmall
데이터세트를불러옵니다。
负载carsmallX =(重量、马力、加速度);
fitlm
을사용하여선형회귀모델을피팅합니다。
mdl = fitlm (X,英里/加仑)
mdl = Linear regression model: y ~ 1 + x1 + x2 + x3 Estimated Coefficients: Estimate SE tStat pValue __________ _________ _________ __________ (Intercept) 47.977 3.8785 12.37 4.8957e-21 x1 -0.0065416 0.0011274 -5.8023 9.8742e-08 x2 -0.042943 0.024313 -1.7663 0.08078 x3 -0.011583 0.19333 -0.059913 0.95236观测数:93、误差自由度:89均方根误差:4.09 r平方:0.752,校正r平方:0.744 f统计量与常数模型:90,p-value = 7.38e-27
모델표시화면에모델식,추정된계수및모델요약통계량이포함됩니다。
표시된모델식Y ~ 1 + x1 + x2 + x3
은
에해당합니다。
모델표시화면에系数
속성에저장된,추정된계수정보도표시됩니다。系数
속성을표시합니다。
mdl。系数
ans =4×4表e- x x x x x x x x x x x x x x x x x
系数
속성은다음과같은열을포함합니다。
估计
——모델에서각각의대응되는항에대한계수추정값입니다。예를들어,상수항(拦截
47.977)에대한추정값은입니다。
SE
——계수의표준오차입니다。
tStat
——모델에주어진다른예측변수를상정한경우,'대응하는계수0이가아니다’는대립가설에대해”계수가0이다’는귀무가설을검정하는데사용된각계수에대한t——통계량입니다。참고로,tStat =估计/ SE
입니다。예를들어,절편에대한t——통계량은47.977/3.8785 = 12.37입니다。
pValue
0 -대응하는계수가인지아니면0이아닌지를검정하는가설에대한t——통계량의p——값입니다。예를들어,x2
에대한t——통계량의p0.05 -값은보다크므로모델의다른항을고려할때이항은5%유의수준에서유의미하지않습니다。
모델의요약통계량은다음과같습니다。
数量的观察
- - - - - -南
값을포함하지않는행개수입니다。예를들어,X
와英里/加仑
100개의행개수는인데英里/加仑
데이터벡터에南
6개값이있고马力
데이터벡터에다른관측값에대한南
1개값이있기때문에数量的观察
93年는입니다。
误差自由度
- - - - - -n- - - - - -p이며,여기서n은관측값의개수이고p는절편을포함하여모델에포함된계수의개수입니다。예를들어,이모델은4개의예측변수를가지므로误差自由度
은93 - 4 = 89입니다。
均方根误差
——평균제곱오차의제곱근으로,오차분포의표준편차를추정합니다。
平方
및调整后的平方
- - - - - -각각결정계수와수정된결정계수를나타냅니다。예를들어,平方
값은모델이응답변수英里/加仑
의변동성의약75%를설명한다는것을나타냅니다。
f统计量与常数模型
——회귀모델에대한F——검정의검정통계량으로,이모델이상수항만으로구성된퇴화모델보다훨씬더잘피팅되는지여부를검정합니다。
假定值
——모델에대한F——검정의p——값입니다。예를들어,이모델은p7.3816 -값이e-27인경우유의미합니다。
모델속성(NumObservations
,教育部
,RMSE
및Rsquared
)에서,그리고方差分析
함수를사용하여이러한통계량을확인할수있습니다。
方差分析(mdl“摘要”)
ans =3×5表SumSq DF MeanSq F pValue ________ ______ ______ __________ Total 6004.8 92 65.269 Model 4516 3 1505.3 89.987 7.3816e-27 Residual 1488.8 89 16.728
범주형예측변수를포함하는선형회귀모델을피팅합니다。모델에서기준레벨을제어하기위해범주형예측변수의범주를다시정렬합니다。그런다음方差分析
를사용하여범주형변수의유의성을검정합니다。
범주형예측변수를갖는모델
carsmall
데이터세트를불러오고,英里/加仑
의선형회귀모델을Model_Year
의함수로생성합니다。숫자형벡터Model_Year
를범주형변수로처리하기위해“CategoricalVars”
이름——값쌍의인수를사용하여예측변수를식별합니다。
负载carsmallmdl = fitlm (Model_Year MPG,“CategoricalVars”,1,“VarNames”,{“Model_Year”,“英里”})
mdl =线性回归模型:MPG ~ 1 + Model_Year Estimated Coefficients: Estimate SE tStat pValue ________ ______ ______ __________ (Intercept) 17.69 1.0328 17.127 3.2371e-30 Model_Year_76 3.8839 1.4059 2.7625 0.0069402 Model_Year_82 14.02 1.4369 9.7571 8.2164e-16观测数:94,误差自由度:91均方根误差:5.56 R-squared: 0.531, Adjusted R-squared: 0.521 F-statistic vs. constant model: 51.6, p-value = 1.07e-15
표시된모델식MPG ~ 1 + Model_Year
는다음에해당합니다。
,
여기서
및
는Model_Year
의값이각각76및82일때값1인이표시변수입니다。Model_Year
변수는3개의고유한값을포함하고있으며,이는独特的
함수를사용해서확인할수있습니다。
独特的(Model_Year)
ans =3×170 76 82
fitlm
은Model_Year
에서가장작은값을기준레벨(“70”
)로선택하고두개의표시변수
과
를생성합니다。모델이3개의표시변수(각레벨당1개)와1개의절편항을포함하는경우설계행렬이랭크부족이되므로모델은2개의표시변수만포함합니다。
전체표시변수를갖는모델
mdl
의모델식을절편항이없고3개의표시변수를갖는모델로해석할수있습니다。
.
또는표시변수를수동으로생성하고모델식을지정하여절편항이없고3개의표시변수를갖는모델을생성할수도있습니다。
temp_Year = dummyvar(分类(Model_Year));Model_Year_70 = temp_Year (: 1);Model_Year_76 = temp_Year (:, 2);Model_Year_82 = temp_Year (: 3);台=表(Model_Year_70 Model_Year_76、Model_Year_82 MPG);mdl = fitlm(资源描述,'MPG ~ Model_Year_70 + Model_Year_76 + Model_Year_82 - 1')
mdl =线性回归模型:MPG ~ Model_Year_70 + Model_Year_76 + Model_Year_82 Estimated Coefficients: Estimate SE tStat pValue ________ _______ ______ __________ Model_Year_70 17.69 1.0328 17.127 3.2371e-30 Model_Year_76 21.574 0.95387 22.617 4.0156e-39 Model_Year_82 31.71 0.99896 31.743 5.2234e-51观测值:94、误差自由度:91均方根误差:5.56
모델에서기준레벨선택하기
범주형변수에서범주순서를수정하여기준레벨을선택할수있습니다。먼저범주형변수一年
를만듭니다。
年=分类(Model_Year);
类别
함수를사용하여범주의순서를확인합니다。
类别(年)
ans =3 x1细胞””{70}{76}{82 '}
一年
를예측변수로사용할경우fitlm
은첫번째범주“70”
을기준레벨로선택합니다。reordercats
함수를사용하여一年
를다시정렬합니다。
Year_reordered = reordercats(一年,{“76”,“70”,“82”});类别(Year_reordered)
ans =3 x1细胞””{76}{70}{82 '}
Year_reordered
의첫번째범주는“76”
입니다。英里/加仑
의선형회귀모델을Year_reordered
의함수로생성합니다。
mdl2 = fitlm (Year_reordered MPG,“VarNames”,{“Model_Year”,“英里”})
mdl2 =线性回归模型:MPG ~ 1 + Model_Year Estimated Coefficients: Estimate SE tStat pValue ________ _______ _______ __________ (Intercept) 21.574 0.95387 22.617 4.0156e-39 Model_Year_70 -3.8839 1.4059 -2.7625 0.0069402 Model_Year_82 10.136 1.3812 7.3385 8.7634e-11观测数:94,误差自由度:F-statistic vs. constant model: 51.6, p-value = 1.07e-15
mdl2
는“76”
을기준레벨로사용하고두개의표시변수
과
를포함합니다。
범주형예측변수평가하기
mdl2
의모델표시화면은대응되는계수가0인지여부를검정하기위해각항의p——값을포함합니다。각p——값은각표시변수를조사합니다。범주형변수Model_Year
를표시변수의그룹으로조사하려면方差分析
를사용하십시오。모델의상수항을제외한각변수에대해분산분석통계량을포함하는성분분산분석표를반환하도록“组件”
(디폴트값)옵션을사용합니다。
方差分析(mdl2“组件”)
ans =2×5表SumSq DF MeanSq F pValue ________ ______ _____ __________ Model_Year 3190.1 2 1595.1 51.56 1.0694e-15错误2815.2 91 30.936
성분분산분석표는표시변수의p——값보다작은Model_Year
변수의p——값을포함합니다。
시멘트조성물이해당시멘트의경화열에미치는영향을측정하는哈尔德
데이터세트를불러옵니다。
负载哈尔德
이데이터세트는변수成分
와热
를포함합니다。행렬成分
는시멘트에존재하는네가지화학성분의조성비율을포함합니다。벡터热
는각시멘트표본에대해180일이지난후의경화열값을포함합니다。
데이터에로버스트선형회귀모델을피팅합니다。
mdl = fitlm(成分、热、“RobustOpts”,“上”)
mdl =线性回归模型(稳健拟合):y ~ 1 + x1 + x2 + x3 + x4Estimate SE tStat pValue ________ _______ ________ ________ (Intercept) 60.09 75.818 0.79256 0.4509 x1 1.5753 0.80585 1.9548 0.086346 x2 0.5322 0.78315 0.67957 0.51596 x3 0.13346 0.8166 0.16343 0.87424 x4 -0.12052 0.7672 -0.15709 0.87906观测数:13,误差自由度:8均方根误差:2.65 r平方:0.979,调整后的R-Squared: 0.969 F-statistic vs. constant model: 94.6, p-value = 9.03 -07
자세한내용은로버스트피팅의결과와표준최소제곱피팅의결과를비교하는使用稳健回归降低离群值影响항목을참조하십시오。
시멘트조성물이해당시멘트의경화열에미치는영향을측정하는哈尔德
데이터세트를불러옵니다。
负载哈尔德
이데이터세트는변수成分
와热
를포함합니다。행렬成分
는시멘트에존재하는네가지화학성분의조성비율을포함합니다。벡터热
는각시멘트표본에대해180일이지난후의경화열값을포함합니다。
데이터에단계적선형회귀모델을피팅합니다。모델에항을추가하는기준에해당하는분계점으로0.06을지정합니다。
mdl = stepwiselm(成分、热、“囚禁”, 0.06)
1.添加x4, FStat = 22.7985, pValue = 0.000576232添加x1, FStat = 108.2239, pValue = 1.105281e-063 .添加x2, FStat = 5.0259, pValue = 0.051687移除x4, FStat = 1.8633, pValue = 0.2054
mdl =线性回归模型:y ~ 1 + x1 + x2估计系数:估计SE tStat pValue ________ ________ ______ __________ ( 拦截)52.577 2.2862 22.998 5.4566平台以及x1 e-07 x2 0.66225 0.045855 14.442 2.6922 1.4683 0.1213 12.105 5.029 e-08数量的观察:13日误差自由度:10根均方误差:2.41平方:0.979,调整后的R-Squared: 0.974 F-statistic vs. constant model: 230, p-value = 4.41e-09
기본적으로,시작모델은상수모델입니다。stepwiselm
은순방향선택을사용하며,대응되는p——값이被关闭的
0.06값보다작기때문에x4
,x1
,x2
항을이순서대로추가합니다。stepwiselm
은그런다음역방향제거를사용하며,x2
가모델에포함되면x4
의p——값이PRemove
의디폴트값인0.1보다커지기때문에모델에서x4
를제거합니다。
항행렬T
는모델의항을지정하는t×(p + 1)행렬입니다。여기t서는항개수이고,p는예측변수개수이며,+ 1은응답변수에해당합니다。T (i, j)
의값은항我
에포함된변수j
의지수입니다。
예를들어3개의예측변수x1
,x2
,x3
과응답변수y
를x1
,x2
,x3
,y
의순서로포함하는입력값이있다고가정하겠습니다。T
의각행은하나의항을나타냅니다。
[0 0 0]
- - - - - -상수항또는절편
[0 1 0 0]
- - - - - -x2
또는X1 ^0 * x2^1 * x3^0
[1 0 1 0]
- - - - - -x1 * x3
[2 0 0]
- - - - - -x1 ^ 2
[0 1 2 0]
- - - - - -x2 * (x3 ^ 2)
각항의끝에있는0
은응답변수를나타냅니다。일반적으로항행렬에서0으로구성된열벡터는응답변수의위치를나타냅니다。행렬과열벡터로예측변수와응답변수를지정하는경우각행의마지막열에응답변수를나타내는0
을포함시켜야합니다。
고차원데이터세트에대한계산시간을단축시키려면fitrlinear
함수를사용하여선형회귀모델을피팅하십시오。
회귀를정규화하려면fitrlinear
,套索
,脊
또는plsregress
를사용하십시오。
fitrlinear
는고차원데이터세트에대한회귀를套索또는능형회귀를사용하여정규화합니다。
套索
는套索또는신축망을사용하여선형회귀에서중복된예측변수를제거합니다。
脊
는상관관계를갖는항이있는회귀를능형회귀를사용하여정규화합니다。
plsregress
는상관관계를갖는항이있는회귀를부분최소제곱을사용하여정규화합니다。
사용법관련참고및제한사항:
다음객체함수는GPU배열을완전히지원합니다。
다음객체함수는GPU배열입력인수로피팅된모델객체를지원합니다。
자세한내용은MATLAB GPU에서함수실행하기(并行计算工具箱)항목을참조하십시오。
다음MATLAB명령에해당하는링크를클릭했습니다。
명령을실행하려면MATLAB명령창에입력하십시오。웹브라우저는MATLAB명령을지원하지않습니다。
你也可以从以下列表中选择一个网站:
选择中国网站(中文或英文)以获得最佳网站性能。其他MathWorks国家站点没有针对您所在位置的访问进行优化。