본문 바로가기

품질/통계

분산분석

오랜만에 통계에 관련된 질문이 있네요...

분산분석에 대해....정리해놓은 자료가 있어 올려 봅니다.

 

 

▣ 분산분석(ANOVA)

 

앞의 가설검정에서는 2개의 평균 사이에 차이가 있는가를 분석하는 방법을 다루었다. 이번에는 3개 이상의 평균 사이에 차이가 있는가를 검정하는 문제를 살펴보자.

 

어느 공장의 4대의 기계(A, B, C, D)에서 시간당 생산수를 표와 같이 얻었다고 하자. 이 자료로부터 4대의 기계성능이 차이가 있는지 없는지를 알아보자.

 

반복 A B C D 평균
1 26 30 24 24  
2 34 38 30 26  
3 33 31 24 28  
평균 31 33 26 26 29

 

우선 자료를 보면 각 기계별 평균 생산량이 다르므로 성능에 차이가 있다고 할 수 있다. 하지만 이 DATA들은 샘플링된 숫자들이기 때문에 분명히 차이가 있다고 결정하기에는 어려운 것 같기도 하다. 만일 모집단 평균( )이 평균과 같이 나왔다면 차이가 있다고 판정해야 한다. 하지만 같은 모평균이라고 하더라도 샘플링을 한다면 위의 표와 같이 평균이 다르게 나올 수 밖에 없을 것이기 때문에 판정하기가 매우 어렵다. 이렇게 판정을 어렵게 만든 이유는 DATA가 산포하기 때문이다.

만일 예를들어 A, B 설비에서 조사한 DATA 산포가 거의 없이

A : 30, 31, 32   평균 31

B : 33, 33, 33   평균 33

이런 data가 나왔다면 누구든지 기계의 성능에 차이가 있다고 판정을 할 수 있을 것이다. 다시 말해서 data 산포의 형태에 따라 결정되어 진다고 하는 것이다.

 

여기서 DATA 산포의 형태를 보면 평균이 29이므로 편차의 형태를 보면

 

    (26-29), (34-29)............... (28-29) : 12개의 개별 편차와

  (31-29), (33-29), (26-29), (26-29) : 4개의 평균 편차로 구성되어 있음을 볼 수 있다.

 

여기서 ①은 전체산포를 의미하고 ②는 평균의 산포를 의미한다. 산포의 크기를 계산하여 ①에 비해 ②의 산포가 클수록 설비의 생산량에는 차이가 있다는 결정을 할 수 있을 것이다. 다시말해 설비별 평균량의 차이가 확연히 크다면 당연히 설비별로 생산량이 다르다고 할 수 있을 것이다. 하지만 평균량의 산포에 비해 하나하나 설비에서 생산되는 수량의 산포가 크다면 누구도 쉽게 설비별로 생산량이 다르다고 할 수 없는 것이다. 이는 개별설비의 산포에 대한 설비별 평균 산포의 비율이 클수록 다르다고 하는 판정이 가능하다고 하는 것이다. 이를 비교하는 방법을 분산분석이라고 한다.

 

산포를 계산하는 방법은  의 형태로 제곱합의 형태로 평가가 가능하다.

이것을 제곱합 SS라고 표현하는데 전체 편차 제곱합 SST 는 평균들의 편차 제곱합(주효과) SSA 와 각각 편차 제곱합(오차항) SSE 로 구성된다.

 

SST = SSA + SSE

SST = (26-29)2 + (34-39)2 ...........(28-29)2 = 222

SSA = 3(31-29)2 + 3(33-29)2 ..................  = 114

SSE = 108

판정을 위해 비교해야 할 항목은 SSA /SSE 의 비율이다.

하지만 바로 SSA  SSE 의 비교는 DATA수가 다르기 때문에 직접비교는 어렵다. 따라서 자유도(k)로 나눈 값으로 비교해야 하는데 이 값이 분산이 된다.

 

      MSA = SSA / A    주효과 분산

      MSE = SSE / E     오차항 분산

 

앞의 사례에서 A = 4-1=3 이고 T = 12-1=11 이다.

T = A + E 이므로 E = 8 이 된다.

 

  SS
MS F
주효과 114 3 38 2.8
오차항 108 8 13.5  
TOTAL 222 11 - -

 

여기서 F값은 분산비(MSA / MSE)이며 검정통계량이 된다. 가설검정과 마찬가지로 유의수준을 분포표에서 선정하여 F값이 유의수준보다 크면(오른쪽) 귀무가설을 기각한다.

F값은 F분포표에서  로 찾는다.

사례의 유의수준은  = 4.07 이다.

따라서 검정통계량<유의수준 이므로 귀무가설을 채택한다. 결론은 기계별 차이가 없다 이다.

'품질 > 통계' 카테고리의 다른 글

[스크랩] 신뢰도 95%란  (0) 2022.11.17
분산분석  (0) 2022.11.17
[스크랩] 회귀계수의 목적  (0) 2022.11.16
[스크랩] F분포의 특징  (0) 2022.11.16
[스크랩] 표준정규분포와 t분포의 차이  (0) 2022.11.16