본문 바로가기

품질/통계

통계기초15:가설검증

6. 가설검증

 

모집단에 대한 어떤 주장, 기술, 가정을 가설(hypothesis)이라고 부르는데 이 가설의 정당성 여부를 판단하는 일련의 과정을 가설검증(hypothesis test)이라고 한다.

예를 들면 고등학교 학생들의 학력이 매년 낮아지고 있다든가, 취학연령 아동의 키는 여자가 남자보다 크다 등등을 가설이라고 할 수 있다.

 

6-1 귀무가설과 대립가설

 

모집단에 대해 알아보고자 하는 바를 가설로 표현하고자 할 때 귀무가설(null hypothesis)과
대립가설
(alternative hypothesis)의 두 가지로 나누어 가설을 설정한다.
귀무가설(또는 영가설)과 대립가설은 특정한 문제에 따라 일정한 형태로 표현되지만 대체로 [새로운 주장], [흥미 대상이 되는 가설], 또는 [전과 같지 않은 사실]등의 가설을 대립가설( Ha으로 표기)로 설정하고, 대립가설과 상반되는 가설을 귀무가설(Ho로 표기)로 삼는다.

예를 들면, 찌그러진 동전이 있을 경우 이 동전은 앞면과 뒷면이 나올 확률이 같은가의 의심이 일어나며 이를 검증하기 위한 가설을 세운다면 대립가설은 앞면과 뒷면이 나올 확률은 다르다가 될 것이고 귀무가설은 앞면과 뒷면이 나올 확률이 같다가 될 것이다.

또, 어느 창구에서의 대기시간은 평균 10분 이상이다 라는 주장을 제기하고자 할 경우, 대립가설은 μ10 , 귀무가설은 μ≤10으로 설정하게 된다는 것이다.


그 밖에도, 어느 특정후보에 대한 유권자 전체의 지지율이 20%도 안될 것이다라는 주장을

가설 검증하기 위해서는 대립가설이 μ<.20, 귀무가설은 μ≥.20으로 만들어야 한다.
앞의 예들에 대한 가설을 정리하면 다음과 같다.

 

[예6-1] 찌그러진 동전의 예

 

  Ho:확률이 같다

  Ha:확률이 다르다 

 

 

[예6-2] 창구에서의 대기시간 평균의 예

 

   Ho: μ≤10

   Ha: μ10

 

 

[예6-3] 특정후보 지지율의 예

 

   Ho: μ≥.20

   Ha: μ<.20

 

위의 예에서 [예6-1]과 같은 경우를 양측검증(two-sided test), [예6-2]와 [예6-3]과 같이 크다, 작다의 방향이 결정된 가설의 검증을 단측검증(one-sided test)이라고 부른다.

여기서, 주목해야 할 점은 등호(=)는 귀무가설에만 들어간다는 점이다.

그 이유는 귀무가설이 옳다는 가정 하에서 가설검증의 과정이 수행되기 때문인 데 그러므로써 대립가설의 내용이 쉽게 뒷받침되지 못하게 하는(다시 말해서, 귀무가설을 기각하기 어렵게 하는) 작용을 한다.

 

 

6-2 검증통계량과 귀무가설의 기각역

 

우선, 검증통계량이란 통계량으로서 검증의 목적으로 사용하는 것을 말한다.

따라서, 주어진 문제에 대한 가설검증에 대해서 그 문제에 맞는 검증통계량이 존재하기 마련이다.

그리고, 이 검증통계량의 구체적인 값이 어느 범위에 있을 경우 귀무가설(Ho)을 기각할 것인가, 다시 말하면, 대립가설이 뒷받침(주장)되기 위해서는 검증통계량의 값이 어느 범위에 있을 경우인가를 결정해야 하는데 이를 귀무가설의 기각역(rejection region of Ho)이라고 부른다.

 

[예6-2 에서]
어느 창구에서 고객들이 평균적으로 10분 이상 기다리는가를 검증하기 위해서는 일정한 수의
고객들을 대상으로 대기시간을 조사하여 그 고객들의 대기시간 평균(X바 )으로써 판단함이 타당하다.
즉, 모집단 평균(μ)에 대한 가설이므로, 표본으로부터 얻는 표본평균(X바)을 검증통계량으로
삼아야 한다.
그러나, 표본평균이 정확히 10분이어서는 대립가설을 주장하기는 어렵다.

적어도 표본평균값이「10분보다는 어느 정도 큰 값」이상이 되어야 「μ>10」이라고 주장 할 수 있을 것이다. 이 문제의 검증통계량과 의 기각역은 다음과 같다.

 

이 검증 통계량을 계산하는 것이 중요하다.

그리고 검증 통계량은 샘플에 따라 다를 것이고 따라서 그 값을 추정 할 수 밖에 없다.

시료의 평균대기 시간은 구간추정의 범위에서 정규분포 할 것이고, 이 평균시간들이

10분 보다도 적어도 어느정도 이상의 확률로 나온다면 10분을 초과 한다고 말할 수 있을 것이다. 

'품질 > 통계' 카테고리의 다른 글

통계기초17:제1종의 오류  (0) 2022.11.11
통계기초16:유의수준  (0) 2022.11.11
통계기초14:추정(구간추정)  (0) 2022.11.10
통계기초13:추정(점추정)  (0) 2022.11.10
통계기초12:표본추출방법  (0) 2022.11.10