본문 바로가기

품질/통계

기초통계4:확률분포

 앞에서 우리는 통계량에서 표본의 대표값들을 생각해 봤다.

 

    하지만 궁극적으로 우리가 알아야 하는 값은 모집단이다.

 

    수학성적이 표본에서 대표값이 50점이라고 하여 모집단의 평균이 50이라고 할 수 없는 것이다.

 

    물론 표본의 수가 많다면 50점 일 수 도 있다. 하지만 이는 현실적으로 어려운 일이다.

 

    따라서 우리는 어떤 확률의 값으로 모집단을 평가 할 수 밖에 없을 것이다.

 

   

    앞에서의 경우 모집단의 평균이 50점이다......분명한가? 확률은 얼마인가 생각해보자

 

    만약 샘플로 조사 했다면 50점일 확률은 10%도 안될 것 같지 않은가.......

 

    따라서 우리는 확률이 10%뿐인 추정치로는 아무른 의미가 없을 것이다....

 

    하지만 40점에서 50점 사이에 있을 것같다고 한다면 훨씬 확률이 높을 것같다.....

 

    그러면 90%의 확률은 있을 것같다...... 

 

    또한 확률로 평가를 할 때에도 이 확률분포의 모습을 알고 접근해야 할 것이다.

 

    이런 확률분포의 모습을 알아보자.

 

 

   1-1 모집단과 표본

-- 확률(probability)이라는 것은 어떤 사건(또는 결과)이 일어날 가능성을 과 사이의 값으로 나타내는 것을 말한다.

   

    동전의 앞면이 나올 확률은 이라거나, 사람이 세 이상을 살 확률은 0.3 이라는 것등이 확률의 예이다.

 

    여기서는 특수한 경우의 확률을 구하고자 하는 문제를 다루지는 않는다.

 

    다만 우리가 갖고 있는 확률이란 개념을 변수에 대해서 다루어 봄으로써,  

    확률변수란 확률을 갖고 있는 변수라는 것을 이해해 보자는 것이다.

 

 2-1 확률변수의 분류

   어떤 조사대상에 대해 특정한 조사를 하고자 할 때 여러가지 결과가 예상된다.

   

     물론 그 결과는 제한된 범위 내에서 얻어지겠지만 어떤 값이 얻어질 것인지는 모른다.

 

    따라서 이를 변수로 취급하고 X라 하자.

 

    여기서, X는 가능한 여러가지 값들 중에서 어떤 값을 갖게 되고, 그 값을 가질 확률을 함께

    생각해 볼 수 있기 때문에 X를 확률변수(random variable)라 부른다.


-- 확률변수의 예로서는, 유권자들을 대상으로 특정인을 지지하는가 지지하지 않는가를
-- 조사한다고 했을 경우, 유권자 각각에 대한 조사결과는 {지지, 비지지} 두 가지 결과 중 하나의
-- 결과로 나타날 것이다.

 

이를 숫자로 표현하면

    

    확률변수  X=  지지한다:1

                             지지하지 않는다:0 

 

 로 표현될 수 있고 X=1일 확률이 어떤 값으로 존재하기 마련이다.

 즉, 이 경우에는 X가 취하는 값이 {0, 1}이고, X=1일 확률, X=0일 확률이 존재한다는 것이다.

 다른 예로서는 설문항목으로서 「귀하는 2010년까지 남북한 통일이 될 것이라고 생각하십니까」에 대해서
 다음과 같이 조사한다고 한다면, 

    확률변수 X는 {1, 2, 3, 4, 5} 다섯 가지 값중에서 하나의
-- 값을 취하는 것이며,  비록 그 확률값이 얼마인지는 모르더라도. X=1 (매우 부정적)일 확률,

    X=2  (부정적)일 확률 등이 존재한다.

 

   먼저, 어떤 종류의 자료를 얻고자 하느냐에 따라 확률변수 X가 취하는 값들은 다르게 되는데,
-- 크게 연속적인(continuous)형태와 이산적인(discrete)형태로 구분된다.


-- 셀 수 있는(countable) 값들을 취하는 자료일 경우 이산형 확률변수라 하고, 수의 직선 상에서
-- 임의의 값을 취하는 변수를 연속형 확률변수라고 한다.

 

    이를테면, 손가락으로 셀 수 있는 값들을
-- 취할 경우(하나, 둘, 셋, …)는 이산형이고 나머지의 경우는 연속형으로 생각하면 된다.

 


-- 그리고 확률변수 X는 취할 수 있는 값들이 여러 가지이므로 (확률을 갖는)분포를 하는데,
-- 이를 확률분포(probability distribution)라고 하며 f(X)로 표현한다.

 

    확률분포 f(X)는 X가  어떤 자료를 측정하고자 하는가에 따라 서로 다른 형태를 갖게 된다.

 

    앞에서 예를 들었던 특정인의 지지여부에 대한 경우에는 지지할 경우는 X=1이고,

    지지하지 않을 경우는 X=0

   이므로 확률분포는

 

   f(1)=지지율, f(0)=1-지지율

 

로 확률분포를 표현할 수 있다.

-- 확률변수는 자료의 종류에 따라 다음의 네 가지로도 분류된다.

--
 1) 명목변수(nominal variable)
-- 측정대상의 특성을 분류하거나 확인할 목적으로 숫자를 부여하는 경우로서, 예를 들면 성별,
-- 출신지,직업, 운동선수의 등번호 등이다.

-- 2) 순위변수(ordinal variable)
-- 측정간의 순서관계를 나타내주는 척도로서, 예를 들면 생활수준(상, 중, 하), 품질등급,
-- 여러 개 제품들의 선호순위, 미인선발대회에서의 순위 등이다.

-- 3) 등간변수(interval variable)
-- 측정대상의 속성에 순위를 부여하되 순서사이의 간격이 동일한 척도를 말한다. 예를 들면
-- 각종 지수, 광고인지도, 온도계의 수치 등이 있고 자료범위의 계산, 평균값 등을 계산할 수 있다.
-- 설문지로부터 얻어진 자료는 대체로 이 범주에 속한다.

-- 4) 비율변수(ratio variable)
-- 구간척도의 특성에 추가적으로 측정값 사이의 비율계산이 가능한 척도이다. 즉, 이 척도는
-- 절대영점이 존재하며 어떠한 형태의 통계적 분석도 가능하다.

-- 이와 같이 확률변수를 분류해보는 이유는 어떤 통계적 분석을 하느냐에 따라 그 분석에 적당한
-- 형태의 자료가 있어야 하기 때문이다. 다시 말하면, 명목변수로 얻어진 자료는 분류시키는 것만
-- 가능할 뿐이지만 비율변수는 등간변수로 전환될 수 있고 또 순위를 메길 수도 있다는 것이다.

'품질 > 통계' 카테고리의 다른 글

기초통계6:기대값  (0) 2022.11.03
기초통계5:확률분포  (0) 2022.11.03
기초통계3:통계량  (0) 2022.11.02
기초통계2:통계량  (1) 2022.11.02
기초통계1:모집단과 표본  (0) 2022.11.02