본문 바로가기

품질/통계

기초통계9:표본이론

3.표본이론

앞에서 살펴본 확률분포는 얻고자 하는 자료(x)의 모집단 전체에 대한 분포로서 이론적인 
  분포이다.

  현실적으로 모집단 전체를 조사할 수는 없는 것으로 간주하기 때문에 모집단 전체는
 -미지의 집단이고 따라서 이론적으로 설명할 수밖에 없다.

  그러므로 실제로 자료를 얻는 과정이나 방법에 대해 보다 체계적으로 이해할 필요가 있다.

 

3-1 표본

표본이란 이론적으로 밖에 설명할 수 없는 모집단의 일부로서 모집단으로 부터 실제로 얻어낸 구체적인 자료들을 말한다.

즉, 20세 성인의 월 소비액(X)이란 모집단으로부터 1,000개의 
구체적인 자료를 얻었다면 이를 표본이라고 한다. 즉, 변수 X의 1000개 관찰값들을 말한다.

그러나, 통계학의 이론 전개과정을 이해하기 위해서는 표본을 구체적인 관찰값들로서 뿐만 
 아니라 변수로서의 표본을 이해할 필요가 있다.

 이제, 크기의 표본을

이라고 표현해 보자.

 이는 구체적인 값들을 얻기 이전의 이론적 형태의 표본에 대한 정의이다. 
 즉, X1은 첫 번째 얻어질 어떤 값, X2는 두 번째 얻어질 어떤 값, … ,

 Xn은 n번째 얻어질 어떤 값을 나타내고 있다.

 이를테면 실제로 얻어진 표본 (x1,x2,x3,x4......................xn)은 이론적인 표본(X1,X2,......Xn)
 의 구현된 값들일 뿐이다.

 우리는 물론 두 가지 표현 모두를 표본이라고 부른다.

 

앞에서 언급한 대로 확률변수는 확률분포를 한다.

 그러므로 표본 (X1,X2,X3,,,,,,,,,,,,Xn)에서- 각각의 Xi들은 확률분포를 하는데 바로 모집단(확률변수 X)의 분포와 같은 분포를 하게 된다. 

 

예를 들면 수능시험을 치른 50만명 학생들의 성적(X:모집단)분포는 평균 m , 분산 σ2
-- 정규분포를 한다고 하자.

    그러면, 모집단을 구성하고 있는 X의 값들이 50만개 존재한다는
-- 것이고 몇 점씩인지는 모르는 상태이다.

    이때 [그림 3-1]과 같이 n개의 표본을 얻을 경우,(X1,X2,X3,,,,,,,Xn)으로 표현할 수 있는데,

    50만개의 X중에서 n개의 X를 얻는다는 의미이다.

    따라서 ,(X1,X2,X3,,,,,,,Xn) 모평균이 m 이고 분산이 σ2인 정규분포를 한다고
-- 볼 수 있다. 물론 X들끼리는 서로 독립이다.

    여기서(이론적으로 복잡하게 표현되지만)
-- 독립이라는 것은 표본들끼리 서로 영향을 미치지 않는다는 뜻으로 이해하면 된다.

-- 확률변수들로서의 표본을 이해하는 것은 매우 중요한 일이다.

    왜냐하면, 앞으로의 통계이론 전개가 모두 표본으로부터 시작되기 때문이다.

    그리고 모집단과 확률변수, 표본의 관계가 확실해야만 통계분석기법들의 내용과 그 결과물을 

    확실하게 이해할 수 있기 때문이다.

    다시 한번 강조하면 [그림 3-2]와 같은 과정으로 구체적으로 컴퓨터에 입력하게 되는 n개의

    표본값,(x1,x2,x3,x4......................xn)이 얻어진다는 것이다.

 

 

'품질 > 통계' 카테고리의 다른 글

통계기초11:표본평균의 분포  (0) 2022.11.08
통계기초10:통계량  (0) 2022.11.04
기초통계8:표준정규분포  (0) 2022.11.04
기초통계7:베르누이 정리  (0) 2022.11.03
기초통계6:기대값  (0) 2022.11.03