-- 1-3. 흩어짐의 정도
표본값들을 하나의 값으로 대표하는 대표(중심)값을 얻었다면, 다음으로 관심이 있는 것은 자료가
-- 얼마나 흩어져 분포하고 있는가 하는 것이다. 자료가 흩어져있는 정도를 나타내는 기본적인
-- 척도로는 다음의 세 가지가 있다.
1-3-1 범위(range)
범위란 자료들이 퍼져있는 구간의 크기를 말한다. 학생들의 시험성적이 15점에서 90점 사이에
-- 분포되어 있다면 90-15=75점의 범위에 자료들이 퍼져있다고 표현할 것이다. 그러므로, 범위
-- (R)은 다음과 같이 정의된다.
R=최대값-최소값
사실 이값으로는 데이타의 흩어짐의 정도를 정확하게 대표하기에는 어려움이 많다.
단지 현장에서 아주 간단하게 평가하기 위한 방법으로 사용될 수 있다
1-3-2 분산(variance) 또는 표준편차(standard deviation)
분산 또는 표준편차는 퍼짐의 정도를 나타내는데, 가장 중요한 척도이다.
분산은 각 표본값에서 표본평균을 뺀 것을 제곱하여 평균한 것을 n-1로 나눈다. 즉,
의 계산식으로 분산이 얻어지며, 표준편차란 분산의 제곱근을 말한다. 즉,
이다.
여기서, 각 표본값에서 표본평균을 뺀 것 을 편차(deviation)라고 부르는데,
-- 편차들의 합은 항상 0이 된다.
따라서 편차들을 양수로 만들어야 하고, 분산이란 편차들을 제곱하여 평균을 한 결과로써
-- 퍼짐의 정도를 나타내고자 하는 것이다.
그러나 분산의 단위가 측정단위의 제곱으로 나타나므로 실질적인 흩어짐이 아니다.
따라서 측정단위와 같도록 하여야 만 크기나 길이로 표시될 수 있을 것이다.
-- 분산의 제곱근을 표준편차라고 정의하여 의 측정단위와 같은 단위의 퍼짐의 정도를
-- 얻게 되는 것이다.
다시 말하면, 분산이나 표준편차 모두 퍼짐의 정도를 나타내는 척도인데
-- 그 단위만 다르다고 할 수 있다.
이를테면 표준편차가 30원이면 분산은 900 이다.
-- 또한, 분모의 을 자유도(degree of freedom)라 부르는데,
자유도란
D.F=독립적인 것들의 수
로 정의된다. 사실 모든 표본값들은 서로 독립이다.
그러나 모든 변수-평균(x-평균)들
는 n-1개만 독립적으로 정해질 뿐이다.
-- 즉, n-1개의 가 독립적으로 정해지면, 마지막 편차의 값은 자동적으로 정해진다는 것이다.
왜냐하면 의 평균값이 이미 정해졌기 때문이다.
1-4 치우침와 첨도
치우침(왜도)이란 자료의 분포가 대칭인지 아닌지를 측정해주는 값이다.
자료들이 중심으로부터 좌우 대칭일 경우에는 치우침의 값이 0이고,
오른쪽으로 치우침이 있는 경우에는 양(+)의 값, 그리고 왼쪽으로 치우침이 있는
-- 경우는 음(-)의 값을 갖는다([그림 1-2] 참조).
첨도란 자료들의 분포가 어느 정도 뾰족한지를 나타내는 측도다.
[그림 1-3]과 같이 자료들의 분포가 정규분포보다 뾰족할 경우에는
첨도의 값이 양(+)의 값으로 나타나고, 그렇지 않을 경우에는 음(-)의 값으로 나타난다.
여기서 정규분포란 뒤에서 설명하게 되지만, 통계학에서 매우 중요한 (이론적)분포이고
실제로 많은 자료들이 정규분포의 형태를 갖는 분포를 하기 때문에 첨도도 정규분포를 기준으로
뾰족한지 아닌지를 판단하게 되는 것이다.
'품질 > 통계' 카테고리의 다른 글
기초통계5:확률분포 (0) | 2022.11.03 |
---|---|
기초통계4:확률분포 (1) | 2022.11.03 |
기초통계2:통계량 (1) | 2022.11.02 |
기초통계1:모집단과 표본 (0) | 2022.11.02 |
품질과 데이터1 (0) | 2022.11.02 |