티스토리 뷰

차기작 : R을 배우자

Panel Data 분석

quantlab 2013. 11. 28. 02:44
우선 다중회귀의 문제점의 하나는

Panel Data 분석


우선 다중회귀의 문제점의 하나는,

통제변수에 포함되지 않은 변수가

예측변수와 상관을 가지고 있을 경우,

예측변수의 회귀계수에 영향을 미친다는 것입니다.


예를 들어, 원래 모집단의 회귀식이

()

일 때, 과 의 상관계수가 0.7이라면,


를 측정하기 않고

으로 회귀분석을 하면

로 추정이 됩니다.

(좀 더 알기 쉽게, 과 의 상관계수가 1이라고 가정한다면,

로 추정됩니다. )


이것은  의 높은 상관에도 를 측정하지 않았기 때문에 생기는 문제입니다.


만약 우리가 을 반복측정하고,

만약 가 시간에 따라 변하지 않는 변수일 경우,

이런 문제를 해결할 수 있습니다.


예를 들어, 원래 모집단의 회귀식이

()

라고 해봅시다. (


여기서 주목해야 할 점은 위의 계수와 변수에서 subscript t가 없는 부분은

시간에 따라 변하지 않는다는 가정이 있는 것입니다(예. )


어쨋든 위의 모형을 따른다면,

  

  ()에서,

위에서 아래 식을 빼면 다음과 같이 되고,


따라서 주어진 데이터에서 종속 변수 , 예측변수 로 회귀분석을 하면,

과 상관관계가 높은 변수 를 측정하지 않고도 의 계수를 정확하게 추정할 수 있습니다.


여기서 다시 한 번, 이런 방법을 쓸 수 있는 이유는 가 시간에 따라 변하는 변수가 아니기 때문입니다.


Panel Data의 경우 기본적으로 여러 집단을 반복측정한 자료이므로, 같은 논리를 적용할 수 있습니다.


마찬가지로 이원 고정 효과 모형을 쓰는 이유는 간단하게 정리하자면,

Panel Data의 경우 어떤 변수가 시간축에 따라서, 그리고 패널 축에 따라서 변할 수가 있는데,

그렇지 않은 변수가 있다면 고정 효과로 잡아냄으로써, 다른 측정되지 않는 변수들의 효과를 통제 할 수 있다는 것입니다.


여기서 기본적인 가정은 오차항에 자기 상관이 없다는 것과

설명변수와 오차항이 상관이 없다는 것입니다.


이제 Panel Data를 어떻게 R로 분석할 수 있을지 알아볼까요?



















공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2025/01   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
글 보관함