일원분산분석（单因素方差分析）-MATLAB和Simulink-M金宝appathWorks한국

일원분산분석（单因素方差分析）

일원분산분석 소개

함수anova1을 사용하여 일원분산분석을 수행할 수 있습니다. 일원분산분석의 목적은 인자의 여러 그룹(수준)에 있는 데이터가 공통 평균을 갖는지 확인하는 것입니다. 즉, 일원분산분석을 수행하면 독립 변수의 각 그룹에 따라 응답 변수 Y에 서로 다른 영향을 미치는지 알 수 있습니다. 한 병원에서 새로 제안된 두 가지 예약 방식이 예전의 예약 방식보다 환자 대기 시간을 더 줄여주는지 확인하고자 한다고 가정하겠습니다. 이 경우 독립 변수는 예약 방식이고, 응답 변수는 환자의 대기 시간입니다.

일원분산분석은선형 모델을 보여주는 단순하고 특별한 사례입니다. 모델의 일원분산분석 형식은 다음과 같습니다.

$Y_{我 J} = α_{J} + ε_{我 J}$

여기서는 다음과 같이 가정합니다.

Y_ij는 관측값입니다. 여기서 我는 관측값 개수를 나타내고, J는 변수 Y의 서로 다른 그룹(수준)을 나타냅니다. 모든 Y_ij는 서로 독립적입니다.
α_J는 J번째 그룹(수준 또는 처리)의 모집단 평균을 나타냅니다.
ε_ij는 독립적이고 정규분포된 랜덤 오차로, 평균이 0이고 일정한 분산을 갖습니다. 즉, ε_ij~N（0，σ）^2.)입니다.

이 모델을평균 모델이라고도 합니다. 이 모델에서는Y의 열이 상수 α_J에 오차 성분 ε_ij를 더한 것이라고 가정합니다. 분산분석을 수행하면 상수가 모두 동일한지 쉽게 확인할 수 있습니다.

분산분석에서는 '모든 그룹의 평균이 같다'( $H_{1.} : α_{我} \neq α_{J}$ )는 가설과 '적어도 하나의 그룹 평균이 다른 그룹 평균과 다르다'(최소 하나의 我과 J에 대해 $H_{0} : α_{1.} = α_{2.} = ... = α_{K}$ )는 대립가설을 비교하여 검정합니다.anova1（y）는 행렬Y에 있는 데이터의 열 평균이 동일한지 검정합니다. 여기서 각 열은 서로 다른 그룹이고 동일한 개수의 관측값을 갖습니다(즉, 균형 설계임).anova1（y组）은 벡터 또는 행렬Y에 있는 데이터의 그룹 평균값(组으로 지정됨)이 동일한지 검정합니다. 이 경우, 각 그룹 또는 열은 서로 다른 개수의 관측값을 가질 수 있습니다(즉, 불균형 설계임).

분산분석은 모든 표본 모집단이 정규분포된다는 가정에 기반합니다. 분산분석은 이 가정에 조금 위반되는 경우에는 영향을 덜 받는（稳健）것으로 알려져 있습니다. 정규성 플롯(正态概率图)을 사용하여 시각적으로 정규성 가정을 확인할 수 있습니다. 또는 统计和机器学习工具箱™ 함수 중 정규성을 확인하는 함수를 사용할 수 있습니다. 이러한 함수에는 앤더슨-달링 검정(adtest), 카이제곱 적합도 검정(齐戈夫)，Jarque Bera검정(jbtest) 또는 莉莉福斯검정(莉莉测试)이 있습니다.

일원분산분석을 위한 데이터 준비하기

표본 데이터를 벡터 또는 행렬로 제공할 수 있습니다.

표본 데이터가 벡터Y의 형태인 경우,组입력 변수를 사용하여 그룹화 정보(anova1（y组））를 제공해야 합니다.
组은Y의 각 요소에 대한 이름을 포함하는 숫자형 벡터, 논리형 벡터, 明确的형 벡터, 문자형 배열, 一串형 배열, 또는 문자형 벡터로 구성된 셀형 배열이어야 합니다.anova1함수는组의 동일한 값에 대응되는Y값들을 같은 그룹의 일부로 취급합니다. 예를 들면 다음과 같습니다.

그룹이 각각 다른 개수의 요소를 갖는 경우 이 설계를 사용합니다(불균형 분산분석).
표본 데이터가 행렬Y의 형태인 경우 그룹 정보를 제공하는 것은 선택 사항입니다.
- 입력 변수组을 지정하지 않는 경우,anova1은Y의 각 열을 별도의 그룹으로 처리하고 각 열별로 모집단 평균이 동일한지 여부를 평가합니다. 예를 들면 다음과 같습니다.
  
  각 그룹이 동일한 개수의 요소를 갖는 경우 이 설계의 형식을 사용합니다(균형 분산분석).
- 입력 변수组을 지정하는 경우,组의 각 요소는 이에 대응하는Y의 열에 대한 그룹 이름을 나타냅니다.anova1함수는 동일한 그룹 이름을 갖는 열을 동일한 그룹의 일부로 처리합니다. 예를 들면 다음과 같습니다.

anova1은Y에 포함된楠값을 무시합니다. 또한组이 비어 있거나楠값을 포함하는 경우anova1은Y에서 이에 대응되는 관측값을 무시합니다.anova1함수는 빈 값이나楠값을 무시한 후에 각 그룹의 관측값 개수가 동일하면 균형 분산분석을 수행합니다. 그렇지 않은 경우anova1은 불균형 분산분석을 수행합니다.

일원분산분석 수행하기

라이브 스크립트 열기

이 예제에서는 일원분산분석을 사용하여 여러 그룹에 있는 데이터가 공통 평균을 갖는지 확인하는 방법을 보여줍니다.

표본 데이터를 불러와서 표시합니다.

负载霍格霍格

霍格=6×524 14 11 7 19 15 7 9 7 24 21 12 7 4 19 27 17 13 7 15 33 14 12 12 10 23 16 18 18 20

이 데이터는 출하된 우유에 포함된 박테리아 수를 조사한 霍格와 莱道尔特의 연구(1987)에서 가져온 것입니다. 행렬霍格의 열은 서로 다른 출하를 나타냅니다. 행은 각 출하에서 무작위로 선택된 우유 팩에서 검출된 박테리아 수입니다.

일부 출하가 다른 출하에 비해 박테리아 수가 더 많은지 검정합니다. 기본적으로anova1은 두 개의 图形를 반환합니다. 하나는 표준 분산분석표이고, 다른 하나는 그룹별 데이터에 대한 상자 플롯입니다.

[p，tbl，stats]=anova1（hogg）；

图单向方差分析包含uicontrol类型的对象。

图中包含轴。轴包含35个line类型的对象。

p=1.1971e-04

P-값이 약 0.0001로 작은 것은 각 출하마다 박테리아 수가 같지 않음을 나타냅니다.

상자 플롯을 살펴보면 평균이 서로 다르다는 것을 시각적으로 확실히 알 수 있습니다. 그러나 노치는 평균이 아닌 중앙값을 비교합니다. 이 표시에 대한 자세한 내용은箱线图항목을 참조하십시오.

표준 분산분석표를 확인합니다.anova1은 표준 분산분석표를 출력 인수tbl에 셀형 배열로 저장합니다.

tbl

tbl=4×6单元阵列若{{{{{{{{{{{{{{{{{{{{{{{{{}{{{{{{{{{{[803.0 0万}{{{{{{{{[803.0 0 0 0.7500}{{{{{{{{{{{{{{{{{{{{{{{{{{{{{{{{{{{{{{{{[0 0 0.803.803.0.0.0 0.0 0 0 0 0 0.0 0 0 0 0 0.0 0 0 0 0 0 0.0 0 0 0 0 0 0 0 0.0 0 0 0 0 0 0 0{{{{{{{{{{{{{[200.0[200.0[200.0.0 0 0 0 0 0 0 0.0 0 0 0 0 0 0 0 0 0 0 0 0 0 0.0 0 0 0 0 0 0 0 0 0 0 0.7.0 0 0 0 0 0 0 0.75}

변수Fstat에F-통계량 값을 저장합니다.

Fstat=tbl{2,5}

Fstat=9.0076

그룹 평균에 대한 다중 쌍별 비교를 하는 데 필요한 통계량을 확인합니다.anova1은 이러한 통계량을 구조체统计数据에 저장합니다.

统计数据

统计数据=带字段的结构：gnames:[5x1 char]n:[6]来源：“anova1”的意思是：[23.8333 13.3333 11.6667 9.1667 17.8333]df:25 s:4.7209

분산분석은 모든 그룹 평균이 동일하다는 귀무가설을 기각합니다. 따라서 다중 비교를 통해 어떤 그룹의 평균이 다른 그룹의 평균과 다른지 확인할 수 있습니다. 다중 비교 검정을 수행하려면统计数据를 입력 인수로 받는 함수多重比较를 사용해야 합니다. 이 예제에서anova1은 4.건의 모든 출하에서 검출된 평균 박테리아 수가 서로 동일하다는 귀무가설, 즉 $H_{0} : μ_{1.} = μ_{2.} = μ_{3.} = μ_{4.}$ 를 기각합니다.

다중 비교 검정을 수행하여 평균 박테리아 수를 기준으로 했을 때 어느 출하가 나머지 출하와 다른지 확인합니다.

多重比较（统计）

图：多重比较方法包含一个轴。在要测试的组上单击带有标题的轴包含11个line类型的对象。

ans=10×61.0000 2.0000 2.4953 10.5000 18.5047 0.0059 1.0000 3.0000 4.1619 12.1667 20.1714 0.0013 1.0000 4.0000 6.6619 14.6667 22.6714 0.0001 1.0000 5.0000 -2.0047 6.0000 14.0047 0.2119 2.0000 3.0000 -6.3381 1.6667 9.6714 0.9719 2.0000 4.0000 -3.8381 4.1667 12.1714 0.5544 2.0000 5.0000 -12.5047 -4.5000 3.5047 0.4806 3.0000 4.0000 -5.5047 2.5000 10.5047 0.8876 3.0000 5.0000 -14.1714 -6.1667 1.8381 0.1905 4.0000 5.0000 -16.6714 -8.6667 -0.6619 0.0292

처음 두 열은 어느 두 그룹끼리 평균을 비교했는지 보여줍니다. 예를 들어, 첫 번째 행은 그룹 1.과 2.의 평균을 비교한 것입니다. 마지막 열은 검정에 대한P-값을 보여줍니다.P-값 0.0059, 0.0013, 0.0001은 첫 번째 출하된 우유의 평균 박테리아 수가 두 번째, 세 번째, 네 번째 출하된 우유의 평균 박테리아 수와 다르다는 것을 나타냅니다.P- 값 0.0292는 네 번째 출하된 우유의 평균 박테리아 수가 다섯 번째 출하된 우유의 평균 박테리아 수와 다르다는 것을 나타냅니다. 이 절차에서는 다른 그룹 평균이 서로 다르다는 가설을 기각하지 않습니다.

图形에서도 동일한 결과를 보여줍니다. 파란색 막대는 첫 번째 그룹 평균의 비교 구간을 보여주며, 이 비교 구간은 빨간색으로 표시된 두 번째, 세 번째, 네 번째 그룹 평균의 비교 구간과 겹치지 않습니다. 회색으로 표시된 다섯 번째 그룹 평균의 비교 구간은 첫 번째 그룹 평균의 비교 구간과 겹칩니다. 따라서 첫 번째와 다섯 번째 그룹의 그룹 평균이 크게 서로 다르지 않습니다.

수학적 세부 정보

분산분석은 데이터의 전체 변동을 다음의 두 성분으로 분할하여 그룹 평균의 차이를 검정합니다.

전체 평균으로부터 그룹 평균의 변동, 즉 ${\bar{Y}}_{. J} - {\bar{Y}}_{..}$ (그룹 간 변동). 여기서, ${\bar{Y}}_{. J}$ 는 그룹 J의 표본평균이고, ${\bar{Y}}_{..}$ 는 전체 표본평균입니다.
그룹 평균 추정값으로부터 각 그룹 관측값의 변동, 즉 $Y_{我 J} - {\bar{Y}}_{. J}$ (그룹 내 변동).

다시 말해서, 분산분석은 총 제곱합（SST）을 그룹 간 효과로 인한 제곱합（SSR）과 제곱 오차의 합（苏格兰和南方能源公司）으로 분할합니다.

$\underset{s s T}{\underset{︸}{\sum_{我} \sum_{J} {(Y_{我 J} - {\bar{Y}}_{..})}^{2.}}} = \underset{s s R}{\underset{︸}{\sum_{J} N_{J} {({\bar{Y}}_{. J} - {\bar{Y}}_{..})}^{2.}}} + \underset{s s E}{\underset{︸}{\sum_{我} \sum_{J} {(Y_{我 J} - {\bar{Y}}_{. J})}^{2.}}},$

여기서 N_J는 J번째 그룹의 표본 크기이고, j=1，2，…，k입니다.

그런 다음 분산분석은 그룹 간 변동을 그룹 내 변동과 비교합니다. 그룹 내 변동에 대한 그룹 간 변동의 비율이 높으면 그룹 평균이 서로 현저히 다르다는 결론을 내릴 수 있습니다. 이 비율은 자유도가 （k-1，N-k）인 F-분포를 갖는 검정 통계량을 사용하여 측정할 수 있습니다.

$F = \frac{\frac{s s R}{K - 1.}}{\frac{s s E}{N - K}} = \frac{M s R}{M s E} ~ F_{K - 1., N - K},$

여기서 MSR은 평균 제곱 처리이고, 微卫星는 평균 제곱 오차이며, K는 그룹 수, N은 총 관측값 개수입니다. F-통계량의 p-값이 유의수준보다 작기 때문에, 검정은 '모든 그룹 평균이 동일하다'는 귀무가설을 기각하고, '적어도 하나의 그룹 평균이 다른 그룹 평균과 다르다'는 결론을 내립니다. 가장 일반적인 유의수준은 0.05와 0.01입니다.

분산분석표

분산분석표는 요인별로 나눈 모델의 변동성과 이 변동성의 유의성을 검정하기 위한 F-통계량, 이 변동성의 유의성을 결정하기 위한 p-값을 포착합니다.anova1에 의해 반환된 p-값은 모델 방정식의 확률 교란 ε_ij에 대한 가정에 따라 결정됩니다. p-값이 정확하려면 확률 교란이 서로 독립적이고 정규분포되며 일정한 분산을 가져야 합니다. 표준 분산분석표의 형식은 다음과 같습니다.

anova1은 표준 분산분석표를 6.개의 열을 갖는 셀형 배열로 반환합니다.

열	정의
`来源`	변동성의 요인입니다.
`党卫军`	각 요인에 의한 제곱합입니다.
`df`	각 요인와 연관된 자유도입니다. N은 총 관측값 개수이고 K는 그룹 개수라고 가정합니다. 이 경우, N–k는 그룹 내 자유도(`错误`)이고, k-1은 그룹 간 자유도(`柱`)이며, N–1은 총 자유도입니다. 여기서 N-1=（N-k）+（k-1）입니다.
`太太`	각 요인의 평균 제곱으로,`SS/df`비율입니다.
`F`	F-통계량으로, 두 평균 제곱 간의 비율입니다.
`概率>F`	p-값으로, 계산된 검정-통계량 값보다 F-통계량이 더 큰 값을 취할 수 있는 확률입니다.`anova1`은 F-분포의 cdf에서 이 확률을 도출합니다.

분산분석표의 각 행은 데이터의 변동성을 요인별로 나누어 보여줍니다.

행(요인)	정의
`组`또는`柱`	그룹 평균 간 차이로 인한 변동성(그룹간변동성)
`错误`	각 그룹의 데이터와 그룹 평균 간의 차이로 인한 변동성(그룹내변동성)
`全部的`	총 변동성