티스토리 뷰
다음은 책 <기초 통계학의 숨은 원리 이해하기>의 <왜 평균절대편차 대신 표준편차를 쓸까? 왜 중앙값이 아니라 평균인가?>의 도입부로, 자료의 퍼진 정도를 나타내는 분산을 계산할 때, 왜 제곱을 하는지에 대한 내용이다.
주어진 값들의 퍼짐 정도를 나타내는 분산variance은 다음과 같이 구한다.
분산은 평균과 각 값의 차이를 제곱한 값들의 평균이다. 처음 분산을 배웠을
때, 왜 제곱을 해야 하는지 의아했을 것이다. 물론 편차( ; 각 값에서 평균을
뺀 값)를 모두 더하면 항상 0이 되므로, 편차의 평균은 항상 0이다. 그렇기에 편
차의 제곱의 평균을 구한다고 설명할 수도 있지만 어딘지 꺼림직하다. 편차의 절
대값(절대편차absolute deviation)을 평균할 수도 있지 않은가? 각 값과 평균의 편차의
절대값을 평균한 값을 평균절대편차average absolute deviation라 하고 식은 다음과 같다.
(AAD : Average Absolute Deviation)
왜 분산을 사용하는지에 대해 알아보기 전에 분산과 절대편차를 구하는 식
을 좀더 자세히 살펴보자. 위의 분산을 구하는 식에서 평균 는
이지만, 다른 값을 넣어볼 수도 있지 않을까?
즉, 를 변수 로 대치한 다음의 식
를 를 중심으로 한 분산이라고 정의하자. 값이 주어졌을 때, 값에 따른 의 변화를 살펴보면 재미있는 현상을 볼 수 있다.
구체적으로 인 경우를 생각해보자.
이고, 이것을 -좌표 위의 그래프로 그려
보면 다음과 같다.
자료의 수가 많아지더라도 은 항상 의 2차 함수 꼴로 나타난다. 그리고 의 최소값은 가 의 평균일 때 나타난다. 평균을 특정한 관찰값들의 대푯값이라
생각하고, 분산을 대푯값으로부터 각 관측값들이 얼마나 넓게 퍼져 있는지를 정량
화한 값이라고 생각한다면, 대푯값은 분산(자료들이 퍼져 있는 정도)을 최소로 해
야 할 것이다. 따라서 분산을 최소화하는 평균을 대푯값으로 정하는 것이 자연스러
워 보인다.
하지만 주어진 값들이 어떤 값을 중심으로 얼마나 퍼져 있는지를 정량화하는
방법은 분산만 있는 것이 아니다. 평균절대편차를 쓰면 어떨까? 변수 를 중심으
로 평균절대편차를 구하는 식은 다음과 같다.
앞에서와 마찬가지로 값의 변화에 따른 값을 그래프로 그려보면 다음과
같다.
평균절대편차의 경우에도 주어진 자료의 수(n)가 그래프의 모양에 큰 영향을
미치지 못한다. 함수의 모양은 항상 주어진 값 에서 꺽어진 직선의 모양으로 나
타난다. 그리고 최소값은 항상 자료의 중앙값에서 나타난다. 따라서 평균절대편
차를 가지고 주어진 값들이 얼마나 퍼져 있는지를 측정할 때, 대푯값을 중앙값으
로 쓰는 것이 자연스럽다.
그렇다면 왜 거의 대부분의 경우 평균절대편차 대신 분산을 쓰는 것일까?
그것을 설명하기 위해 먼저 최대 가능도 방법maximum likelihood method(혹은 최대
우도 방법이라고도 한다)을 알 필요가 있다.
(하략)
'책 소개 : 기초 통계학의 숨은 원리 이해하기' 카테고리의 다른 글
F-검정, 다중비교, 대비 t-검정, 다중대비검정, 그리고 쉐페의 방법 (0) | 2013.12.25 |
---|---|
몬티 홀 문제에서 확률 (0) | 2013.12.02 |
다중비교/사후비교(Multiple Comparison/Post Hoc Comparison) (0) | 2013.10.05 |
피셔의 보호된 최소유의차이방법 (0) | 2013.10.04 |
차례 (2) | 2013.10.04 |