분산분석은 3개 이상의 집단들의 평균들간에 차이가 있는가를 검증할 수 있는 기본적인 통계분석기법이다.
다시 말하면, 어떤 이유(인자)에 의하여 집단들 간에 서로 다른 특성이 있는가를 밝혀볼 수 있는 분석기법이라 할 것이다.
예를 들면, 어느 회사에서 제품의 판매 촉진을 위하여 신문, 라디오, TV의 세 가지 광고매체를 이용하였을 때 이 세 가지 광고매체들의 광고효과간에 차이가 있는가를 알아보는 경우 또는 수도권, 충청권, 영남권, 호남권 등의 네 지역들 간에 가구당 월 저축액 평균들이 같은가를 알아보는 경우 등에 대해서 분산분석의 방법을 사용한다.
분산분석은 이렇게 여러 집단간의 평균들의 차이를 알아보는 수단 이외에도 회귀분석에서 그 분석과정의 중요한 부분을 차지하기 때문에 분산분석을 이해하는 것이야말로 실제로 자료를 처리, 분석하는데 필수적이라 할 수 있다.
1. 분산분석의 원리 : F-분포
비교하고자 하는 집단들의 평균이 같다고 할 수 있는가를 알아보기 위해서는 각 집단들로부터 표본을 얻고 그 표본들의 표본평균 값들이 얼마나 큰 차이가 나는지를 구해보면 될 것이다. 얻어진 표본평균의 값들이 비슷하면 모집단들의 평균들은 같다고 할 것이고, 크게 차이가 나면 모집단들의 평균들이 모두 같다고 할 수는 없을 것이다.
이러한 분산분석의 문제를 해결하기 위한 전제조건은, 집단들이 서로 독립이고 각 집단에서 자료들은 정규분포하며, 일정한 분산을 갖는다는 것이다.
이 조건(가정)들에 대해서는 뒤에서 더 설명하기로 하고 여기서는 가상의 예를 가지고 분산분석의 원리를 생각해 보자.
세 개의 서로 다른(독립인) 모집단들의 점수 평균이 같은가를 알아보기 위해 표본크기 4의 표본들을 얻었다고 하자([표 8-1]).
여기서 얻어진 표본평균들은 모집단들의 평균들이 다르기 때문에 차이가 있는 것인지 또는 모집단들의 평균들이 같은데도 불구하고 표본을 추출하는 과정에서 차이가 난 것인지를 의사결정 하는 문제가 곧 분산분석의 문제인 것이다.
먼저 가설은
이다.
다시 말해 귀무가설은 세 개 집단의 평균이 같다고 하는 것이고
대립가설은 다르다고 하는 것이다.
가설검증의 절차에 필요한 검증통계량은 얻어진 표본평균(평균y)들이 얼마나 떨어져(차이가) 있는가로써 얻어져야 할 것이다.
그리고 이는 표본평균들의 분산으로써 측정할 수 있는 것이다. 다시 말하면, 표본평균들의 분산이 크다면 표본평균들의 차이가 큰 것이므로 귀무가설을 기각하게 될 것이다.
그러나, 표본평균들의 분산은 표본평균들의 단위에 따라 크기가 다르기 때문에 표본평균들의 분산이 갖는 단위를 제거할 수 있도록 검증통계량은 얻어져야 할 것이다.
그러므로, 다음과 같이 모집단의 분산을 두 가지 방법으로 추정하여 그 비율(ratio)로써 검증통계량을 만든다. 우선, 분산분석을 수행할 수 있는 전제조건 중 하나가 모든 집단들에 있어 분산()이 같다는 것이므로 이 가정 하에서 분산( )의 두 가지 추정방법을 생각해 보자.
'품질 > 통계' 카테고리의 다른 글
분산분석 (0) | 2022.12.01 |
---|---|
[스크랩] 신뢰도 95%란 (0) | 2022.11.17 |
[스크랩] 회귀계수의 목적 (0) | 2022.11.16 |
[스크랩] F분포의 특징 (0) | 2022.11.16 |
[스크랩] 표준정규분포와 t분포의 차이 (0) | 2022.11.16 |