티스토리 뷰

다음은 책 <기초 통계학의 숨은 원리 이해하기>의 <왜 평균절대편차 대신 표준편차를 쓸까? 왜 중앙값이 아니라 평균인가?>의 도입부로, 자료의 퍼진 정도를 나타내는 분산을 계산할 때, 왜 제곱을 하는지에 대한 내용이다.


주어진 값들의 퍼짐 정도를 나타내는 분산variance은 다음과 같이 구한다.



분산은 평균과 각 값의 차이를 제곱한 값들의 평균이다. 처음 분산을 배웠을

때, 왜 제곱을 해야 하는지 의아했을 것이다. 물론 편차( ; 각 값에서 평균을

뺀 값)를 모두 더하면 항상 0이 되므로, 편차의 평균은 항상 0이다. 그렇기에 편

차의 제곱의 평균을 구한다고 설명할 수도 있지만 어딘지 꺼림직하다. 편차의 절

대값(절대편차absolute deviation)을 평균할 수도 있지 않은가? 각 값과 평균의 편차의

절대값을 평균한 값을 평균절대편차average absolute deviation라 하고 식은 다음과 같다.

(AAD : Average Absolute Deviation)


왜 분산을 사용하는지에 대해 알아보기 전에 분산과 절대편차를 구하는 식

을 좀더 자세히 살펴보자. 위의 분산을 구하는 식에서 평균  는 



이지만, 다른 값을 넣어볼 수도 있지 않을까?

즉, 를 변수 로 대치한 다음의 식 


를 를 중심으로 한 분산이라고 정의하자. 값이 주어졌을 때, 값에 따른 의 변화를 살펴보면 재미있는 현상을 볼 수 있다.

구체적으로 인 경우를 생각해보자.

이고, 이것을 -좌표 위의 그래프로 그려

보면 다음과 같다.



자료의 수가 많아지더라도 은 항상 의 2차 함수 꼴로 나타난다. 그리고 의 최소값은 가 의 평균일 때 나타난다. 평균을 특정한 관찰값들의 대푯값이라

생각하고, 분산을 대푯값으로부터 각 관측값들이 얼마나 넓게 퍼져 있는지를 정량

화한 값이라고 생각한다면, 대푯값은 분산(자료들이 퍼져 있는 정도)을 최소로 해

야 할 것이다. 따라서 분산을 최소화하는 평균을 대푯값으로 정하는 것이 자연스러

워 보인다.

하지만 주어진 값들이 어떤 값을 중심으로 얼마나 퍼져 있는지를 정량화하는

방법은 분산만 있는 것이 아니다. 평균절대편차를 쓰면 어떨까? 변수 를 중심으

로 평균절대편차를 구하는 식은 다음과 같다.

앞에서와 마찬가지로 값의 변화에 따른 값을 그래프로 그려보면 다음과

같다.



평균절대편차의 경우에도 주어진 자료의 수(n)가 그래프의 모양에 큰 영향을

미치지 못한다. 함수의 모양은 항상 주어진 값 에서 꺽어진 직선의 모양으로 나

타난다. 그리고 최소값은 항상 자료의 중앙값에서 나타난다. 따라서 평균절대편

차를 가지고 주어진 값들이 얼마나 퍼져 있는지를 측정할 때, 대푯값을 중앙값으

로 쓰는 것이 자연스럽다.


그렇다면 왜 거의 대부분의 경우 평균절대편차 대신 분산을 쓰는 것일까?

그것을 설명하기 위해 먼저 최대 가능도 방법maximum likelihood method(혹은 최대

우도 방법이라고도 한다)을 알 필요가 있다. 


(하략)



차례


공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2024/04   »
1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30
글 보관함