티스토리 뷰

빅데이터의 효용 02


모집단에서 확률변수 가 주어졌을 때, 확률변수 의 기댓값이 다음과 같다.

(아래의 그림에서 왼쪽/위쪽 그림)


쉽게 얘기해서 모집단의 회귀선이 를 따른다고 생각하면 된다.


만약 우리가 이 데이터를 일반적인 1차 회귀직선 으로 적합시키면 데이터의 많은 부분이 우리가 얻은 모형 과 어긋나게 된다. 가장 효율적인 방법은 모집단의 회귀선과 같은 형태의 회귀선 에 적합시키는 것이다. 반면 적합하고자 하는 회귀선의 차수가 모집단의 회귀선의 차수보다 커지게 되면 과적합(overfitting)의 위험이 있다.


하지만 데이터의 크기가 커짐에 따라 과적합의 위험성이 줄어든다. 예를 들어 위의 모집단에서 표본을 구해 에 적합시킬 때, 표본의 크기가 커짐에 따라 와 는 0에 가까워지게 되고, 우리가 구한 회귀선은 모집단의 회귀선과 일치하게 된다.


다음의 그래프에서 빨간색 회귀선은 모집단의 회귀선이고,

회색은 2차식에 적합시킨 결과,

파란색은 4차식에 적합시킨 결과,

녹색은 6차식에 적합시킨 결과이다.



표본의 크기가 증가할수록 4차식과 6차식은 모집단의 회귀식과 일치한다.


빅데이터는 우리가 적합시키고자 하는 모형의 자유도가 원래의 모형의 자유도보다 클 때에도 원래의 모형을 찾을 수 있게 해준다.



공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2025/01   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
글 보관함