본문 바로가기

품질/통계

기초통계2:통계량

 1-2. 대표값
-- 앞서 설명한대로 우리가 분석하기 위해 얻은 자료들은 모두 표본값들이라고 할 수 있다. 

    즉, [그림 1-1]과 같이 우리는  

 

   

    모집단으로부터 얻어진 n개의 관찰값들 (x1,x2,x3,x4,x5.....)로써 모집단에 대해 알아내고 싶은
-- 것을 끌어내야만 하는데, 무엇을 알고자 하는가의 목적에 따라 어떤 방법으로 그 목적을 달성할
-- 수 있는가를 통계학에서 배워야 할 것이다.
-- 먼저, 여기서는 표본으로 얻어진 (x1,x2,x3,x4,x5.....)들로 부터 모집단을 추정 할 수 있는 정보를

    얻어내야 할 것이다,

    우리가 자료로 부터 얻어 내어야 하는 정보는 무엇인가.....이를 통계량이라고 한다....

    우리반의 학생들이 시험을 쳤다고 하자, 교사가 알고 싶은 가장 중요한 정보는 무엇인가??

    생각해보자.....

    (음! 우리반의 평균은 어느 수준에 있는가, 일등은 몇점인가 그럼 꽁지는?)....이런 것 아니겠는가

    여기에서 평균이란 이 집단을 대표하는 값이다...이를 대표값(중심)이라고 한다

    다음은 일등과 꽁지의 차이다...이를 흩어짐라고 한다 

   

   1. 우선 이들 n개의 값들을 대표하는 값은 어떤 값인가를 알아보기로 하자. 대표값을 얻는 방법으로 

      대체로 다음과 같은 세 가지 방법이 있다.

 

 


   1-2-1 산술평균(mean, average)

   평균이라는 것은 누구나 아는 개념으로 표본값들 n개를 합하여 합한 개수(n)로 나눈 것을
-- 말한다. 일상생활에서 어떤 자료들을 한마디로 간단히 표현할 때 "평균 얼마이다"라고 이야기
-- 한다. 예를 들면, 월평균수입은 얼마라고 하면 그 사람의 월수입 액이 어느 정도인가를
-- 나타내주는 값이다.

   

    그러나 어떤 경우에는 단순한 평균값으로 그 자료들을 대표하는 평균으로
-- 하기에 적절치 않은 경우가 있다. 예를 들면, 신학기 대학등록금 평균 인상률은 얼마인가를
-- 알아볼 경우 각 대학의 인상률들을 단순히 평균한 값으로는 등록금 인상률을 대표한다고 보기
-- 어렵다.

    이 경우에는 학교의 규모(학생수)로써 가중치(weight)를 삼아 평균을 얻어야 할 것이다. -- 

    이러한 방법을 가중평균(weighted mean)이라고 부르며 구하는 식은 다음과 같다.

    가중평균을 사용해야 하는 대표적인 예는 물가지수 산출이다. 우리 나라에서는 개의 품목들을
-- 대상으로 매년 물가지수를 산출하는데 물가지수는 현재의 물가가 기준년도 대비 몇 퍼센트(%)
-- 상승했는가를 나타내주는 지표(대표값)이다. 여기서는 간단히 네 가지 품목에 대한 물가지수를
-- 계산해 보자.

 

[물가지수 산출 예]

-- 쌀은 가격이 오르지 않았으므로 품목지수는 100, 사과는 가격이 두배가 되어 품목지수가 200등
-- 으로 품목별 지수를 얻게 되는데, 품목별 지수들로써 ({100, 200, 300, 200}) 단순히 평균을
-- 구하면 평균은 200이고 물가가 두 배로 뛰었다고 할 것이다.

    그러나 품목별 지수들의 단순평균은- 현재의 물가를 나타내는 대표값으로서 의미가 없는 것이고

    품목별 지수들을 가중평균 해야만 할 것이다.

-- 그러면, 어떻게 가중치를 얻을 것인가? 물가지수를 구하는 상황에서 가중치는 각 품목이
-- 시장에서 차지하는 비중이 얼마나 되는가에 따라 결정해야 하므로 가중치는 품목별 거래액
-- (기준년도 거래량×가격)으로 정해야 할 것이다. 그러므로, 가중평균은

 

 이다. 즉, 물가수준이 기준년도 대비 1.4배 되었다고 말할 수 있다.

 

 

 

 1-2-2 중위수(median)

   중위수란 가장 가운데 위치한 값을 말한다. 즉, 자료들을 작은 것부터 순서대로 배열하여 가장 -- 

    가운데 위치한 값을 중위수라고 한다.
-- 예를 들어,에{6, 3, 5, 11, 9, 7} 대한 중위수를 구하려면, 이 값들을 크기 순서대로 다시
-- 나열하여, 즉,{3, 5, 6, 7, 9, 11}에서 가장 가운데 위치한 값인 6.5가 중위수이다. 따라서, 가장
-- 가운데 위치한 값(중위수)을 기준으로 할 때 중위수보다 작은 자료들의 수는 전체의 50%가
-- 된다.

    중위수의 장점은 극단값의 영향을 받지 않는다는 것이다. 왜냐하면 중위수를 구하는데는
-- 모든 자료들의 크기가 반영되는 것이 아니기 때문이다. 예를 들어, {5, 10, 10, 10, 15, 70}에
-- 대한 대표값으로서 중위수는 10인데 평균은 20이다. 이들 6개의 값들을 대표하는 적절한
-- 값은 10이라고 해야 할 것이다. 

 

 

 1-2-3 최빈수(mode)

    최빈수는 가장 빈번히 얻어지는 값으로 대표값을 정하는 방법이다. 물론, 양적 자료(수량화된
-- 자료)에 대해서도 최빈수를 구할 수 있지만, 주로 질적 자료(크기, 색, 직업등)에 대한 대표값을
-- 얻는데 사용되는 방법이다.

    예를 들어 승용차의 색상 중에서 대표값은 최빈수(가장 흔한 색)로써 얻어진다.
-- 이와 같이 어떤 자료들이 있을 때 이 자료들을 대표하는 하나의 값을 구하는 방법으로 평균,
-- 중위수, 최빈수가 있다. 자료에 따라 적절한 방법으로 대표값을 구하여 사용하면 되지만,
--

    가장 중요한 대표값은 역시 평균이다. 그 이유는 뒤에서 차차 밝혀질 것이다.

'품질 > 통계' 카테고리의 다른 글

기초통계5:확률분포  (0) 2022.11.03
기초통계4:확률분포  (1) 2022.11.03
기초통계3:통계량  (0) 2022.11.02
기초통계1:모집단과 표본  (0) 2022.11.02
품질과 데이터1  (0) 2022.11.02