본문 바로가기

품질/통계

(28)
통계기초11:표본평균의 분포 표본평균의 분포에 대해 사례로서 이해를 해보자... [중심극한정리(Central Limit Theorem)] 여기서, 표본의 크기가 충분히 클 경우란 경험적으로 n=30이상일 경우를 말한다. 중심극한정리는 표본평균의 분포를 정규분포로 취급해도 좋다는 가이드라인을 설정해 주는 중요한 정리이다. 왜냐하면, 모집단의 자료들이 (확률변수 X가) 어떤 분포를 하는지 모르더라도 표본평균 에 대한 분포가 정규분포한다고 할 수 있는 근거를 제공해주기 때문이다. 그러나, 표본의 크기가 작을 경우, 예를 들어 n = 10일 경우에 표본평균의 분포 정규분포를 따른다고 하기에는 큰 무리가 될 수 있다. 물론 모집단이 정규분포하면 표본의 크기에 관계없이 표본평균은 정확하게 정규분포한다. 병원에서 환자들이 도착하여 진료를 받기까..
통계기초10:통계량 - 3-2 통계량 흔히들 어떤 수치를 통계라고 한다. 이를테면, 전세계의 연도별 기아 사망자수 통계, 통화량, 통계, 자동차 통계 등등 통계라고 표현하는 것의 정확한 용어는 통계량(statistic)이다. -- 통계량이란 표본으로부터 얻어진 어떤 것으로 정의된다. 즉, (X1,X2,X3........Xn)또는 (x1,x2,x3.......xn)으로부터 얻어진 결과를 통계량이라고 한다. -- 예를 들면 등 통계량의 형태는 무수히 많다. 여기서 중요한 것은 확률변수 형태의 표본, (X1,X2,X3........Xn)으로부터 얻어진 통계량은 하나의 또 다른 확률변수로서 어떤 분포를 한다는 것이다. 즉, 앞의 예 중에서 X,은 어떤 분포를 한다는 점이다. -- 이제, 모집단과 표본의 관계로 부터 통계량을 이해해..
기초통계9:표본이론 3.표본이론 앞에서 살펴본 확률분포는 얻고자 하는 자료(x)의 모집단 전체에 대한 분포로서 이론적인 분포이다. 현실적으로 모집단 전체를 조사할 수는 없는 것으로 간주하기 때문에 모집단 전체는 -미지의 집단이고 따라서 이론적으로 설명할 수밖에 없다. 그러므로 실제로 자료를 얻는 과정이나 방법에 대해 보다 체계적으로 이해할 필요가 있다. 3-1 표본 표본이란 이론적으로 밖에 설명할 수 없는 모집단의 일부로서 모집단으로 부터 실제로 얻어낸 구체적인 자료들을 말한다. 즉, 20세 성인의 월 소비액(X)이란 모집단으로부터 1,000개의 구체적인 자료를 얻었다면 이를 표본이라고 한다. 즉, 변수 X의 1000개 관찰값들을 말한다. 그러나, 통계학의 이론 전개과정을 이해하기 위해서는 표본을 구체적인 관찰값들로서 뿐만..
기초통계8:표준정규분포 표준 정규분포 이제, 평균이이고 분산이 σ2인 변수 x 가 정규분포를 한다고 할 때, N(μ , σ2 ) 으로 표현하자. 그러면 표준화는 로써 정의된다. 다시 말하면 모든 분포를 평균은 0이고 표준편차는 1인 정규분표로 표준화 하자는 것이다. N(0,1)로 하자는 것이다. 이렇게 되면 모든 분포의 확률을 Z 값기준으로 쉽게 계산이 가능하게 된다. -- 여기서 Z를 표준 정규분포 확률변수라고 부른다. 또한, 이와 같이 표준화를 시키게 되면, -- Z의 측정단위가 무엇이든지 간에 z는 단위가 없는 변수가 되는데, 이는 분모, 분자의 단위가 -- 서로 상쇄되기 때문이다. 그리고 Z의 평균은 0 , 표준편차는 1이 된다. -- 즉, 이다. 이를 그림으로 나타내면 [그림 2-6]과 같다. 이제, 정규분포에서의 확..
기초통계7:베르누이 정리 -2-4 베르누이 분포 이제, 확률변수 X의 구체적인 분포의 하나인 가장 간단한 형태의 분포를 소개하기로 한다. -- 어떤 조사나 실험에 있어 두 가지의 조사결과만이 가능한 경우가 있다. 즉, 특정인을 지지하는가, 지지하지 않는가?, 정각에 도착을 했는가 연착했는가?, 부도를 냈는가 내지 않았는가? 등등 -- 두 가지 중에 어떤 일이 일어났는가를 조사하는 경우이다. 이와 같은 경우에 어느 하나를 -- 성공이라 부르고 다른 하나를 실패라고 하자. 그러면, 변수 X는 로 표현되는데 이와 같은 확률변수는 베르누이(Bernoulli) 분포한다고 한다. -- 좀더 구체적으로 설명하면 라 할 경우, X는 의 분포에 따른다고 한다. -- 베르누이분포는 백분비(비율)로 얻어지는 자료를 다루는데 필요한 분포이다. 예를 ..
기초통계6:기대값 2-3 기대값 모집단과 확률변수에 대해 분명한 이해가 있으면 모집단의 평균을 이해하기도 어렵지 않다. 모집단이란 관심의 대상이 되는 집단 전체의 자료들을 의미하며 확률변수는 모집 구성요소들이 갖는 값들이므로 모집단이란 확률변수를 뜻한다. 그러므로, 모집단의 평균 = 확률변수 X의 평균 이라는 것이다. 그러면 기대값이란 무엇인가? 모집단에 대해서 조사하고자 하는 변수 X는 확률분포를 갖는다고 설명하였다. 그러면 모집단의 평균은 어떻게 얻어질 수 있는가 하는 문제를 알아보는 것은 이론적으로 매우 가치 있는 것이다. 예를 들어, [그림 2-3]과 같은 뺑뺑이판이 있다고 하자. 이 뺑뺑이판에서 딸 수 있는 기대금액은 얼마나 될 것인가 하는 문제는 곧 이 뺑뺑이판의 평균(지출)액은 얼마인가와 같은 문제이고 X=「..
기초통계5:확률분포 2-2 확률변수와 확률분포 이미 설명한 대로 모집단은 미지의 아주 큰 집단이다. 모집단에 대해 궁금한 것이 있다면 그 알고자 하는 것이 변수가 되는 것인데 변수가 어떤 값을 가질 가능성을 확률로 표현할 수 있으므로 그 변수를 확률변수라 부르는 것이다. -- 다시 말하면, 확률변수 는 X가 취할 수 있는 범위 내에서의 각 X값에 대해 확률을 갖게 되는데 -- 이를 확률분포라 부르고 로 표현한다. 즉, 라고 표현할 수 있다. -- 예를 들면, 하나의 동전을 던진다고 할 때 앞면(H)과 뒷면(T)이 가능한데, X = 앞면의 수 로 정의하면, X가 취할 수 있는 값은 {0, 1}이다. 즉, 와 같다. 그러면 의 두가지 값 0과 1에 대한 확률이 존재하는데 정상적인 동전이라면 -- (앞면과 뒷면이 나올 확률이 똑..
기초통계4:확률분포 앞에서 우리는 통계량에서 표본의 대표값들을 생각해 봤다. 하지만 궁극적으로 우리가 알아야 하는 값은 모집단이다. 수학성적이 표본에서 대표값이 50점이라고 하여 모집단의 평균이 50이라고 할 수 없는 것이다. 물론 표본의 수가 많다면 50점 일 수 도 있다. 하지만 이는 현실적으로 어려운 일이다. 따라서 우리는 어떤 확률의 값으로 모집단을 평가 할 수 밖에 없을 것이다. 앞에서의 경우 모집단의 평균이 50점이다......분명한가? 확률은 얼마인가 생각해보자 만약 샘플로 조사 했다면 50점일 확률은 10%도 안될 것 같지 않은가....... 따라서 우리는 확률이 10%뿐인 추정치로는 아무른 의미가 없을 것이다.... 하지만 40점에서 50점 사이에 있을 것같다고 한다면 훨씬 확률이 높을 것같다..... 그러..