구글 양식과 R을 연동하기 전에 구글 양식을 설정하는 방법을 알아봅시다. 먼저 구글에서 로그인한 후, 드라이브를 선택합니다. 드라이브의 에서 을 선택합니다. 에 사용할 질문을 작성한 후, 를 클릭합니다. 거기에서 응답을 하기 위한 주소를 확인할 수 있습니다. 여러 사람의 응답 결과를 R에서 불러들이기 위해서는 응답 결과를 웹에 게시하여야 합니다. 를 선택합니다. 거기에서 의 를 선택합니다. 을 클릭하면 결과를 인터넷 주소를 통해 확인할 수 있습니다. 이 때 옵션을 선택해야 새로운 응답 결과가 반영이 됩니다. 이제 를 설정할 수 있습니다. 를 클릭해서 으로 변경합니다. 그런 후, 아래의 주소를 복사해서 에서 변수 u에 저장합니다. 만약 영어에 부담에 없다면 다음의 Youtube video가 참조할 만합니다..
R이 다른 통계 프로그램과 비교해서 가지는 큰 장점 중의 하나는 응용 가능성입니다. 다음의 예시는 구글의 양식을 통해 수집한 설문 조사를 R에서 바로 데이터 프레임으로 읽어들이는 방법입니다. 구글에서 “R read google doc”으로 검색한 결과를 참조하였으며, read.csv에서 인코딩 문제로 한글이 깨지는 문제는 readLines로 해결하였습니다. while (!require(RCurl)) { cat("You need to install the library, RCurl\nInstalling...") install.packages("RCurl") } # You can fill out the form here! # https://docs.google.com/forms/d/1l0IWt684mTe-d..
빅데이터의 효용 02 모집단에서 확률변수 가 주어졌을 때, 확률변수 의 기댓값이 다음과 같다.(아래의 그림에서 왼쪽/위쪽 그림) 쉽게 얘기해서 모집단의 회귀선이 를 따른다고 생각하면 된다. 만약 우리가 이 데이터를 일반적인 1차 회귀직선 으로 적합시키면 데이터의 많은 부분이 우리가 얻은 모형 과 어긋나게 된다. 가장 효율적인 방법은 모집단의 회귀선과 같은 형태의 회귀선 에 적합시키는 것이다. 반면 적합하고자 하는 회귀선의 차수가 모집단의 회귀선의 차수보다 커지게 되면 과적합(overfitting)의 위험이 있다. 하지만 데이터의 크기가 커짐에 따라 과적합의 위험성이 줄어든다. 예를 들어 위의 모집단에서 표본을 구해 에 적합시킬 때, 표본의 크기가 커짐에 따라 와 는 0에 가까워지게 되고, 우리가 구한 회..
독립 변수의 범위를 제한함에 따라 회귀 계수의 표본오차가 증가함을 보았습니다. 하지만 만약 데이터가 굉장히 많다면 독립 변수의 범위가 제한되어 있음에도 굉장히 정확하게 회귀 계수를 추정할 수 있습니다. 위의 그래프에서 왼쪽은 표본의 독립변수의 범위가 굉장히 제한되어 있지만 표본의 크기를 50, 500, 5000으로 증가함에 따라 추정된 회귀선의 정확성이 높아지고 있음을 볼 수 있습니다. R source par(mfcol=c(3,2)) x index #======= Small Data : samplesize 50 index=which(x_pop>55-2*5 & x_pop index #======= Sampling, range restriction index=which(x_pop>55-2*1 & x_pop ..
다중 회귀 분석에 필요한 표본의 크기에 대해서는 의견이 분분합니다. 독립변수의 개수를 k라고 할 때, 어떤 사람은 15k를 요구하기도 하고, 40+k를 최소로 생각하는 학자도 있습니다(Howell, 2002).Tabachnick and Fidell(1996)에 따르면,다른 학자는 각각의 독립변수의 회귀계수의 유의미성을 검증하기 위해서104+k를 요구합니다. 어떤 기준을 선택해야 할지 잘 모를 경우에는 여러 기준의 최대값을 사용하기 바랍니다. /Understanding and Using Advanced Statistics(Jeremy Foster et al., 2006)
모집단 : 3차원 그래프(회귀평면 ) 표본 크기 50의 표본에 의한 회귀평면 추정(독립변수 간의 상관관계가 없을 때)표본의 와 추정된 회귀평면 표본의 과 에 큰 상관이 없다면 추정된 회귀평면은 상당히 정확합니다. 표본 크기 50의 표본에 의한 회귀평면 추정(독립변수 간에 높은 상관이 있을 때)표본의 와 추정된 회귀평면 과 의 상관이 커짐에 따라 추정된 회귀평면의 정확성이 매우 떨어짐을 알 수 있습니다. 그리고 이렇게 표본 회귀계수의 오차가 커지는 것은 1차 회귀식의 추정에서 독립변수의 범위가 제한되는 것과 비슷한 이유임을 그래프에서 알 수가 있습니다. 과 가 큰 상관을 보일 경우에 특정한 방향에서 자료를 보면 모든 자료가 한정된 범위 안에 분포되어 있습니다. 아래의 R 코드는모집단에서 그리고 크기 50의..
독립 변수의 범위를 제한함에 따라 생기는 회귀계수의 표집오차 증가 독립 변수의 범위를 제한함에 따라 생기는 회귀계수의 표본오차 증가 그래프 순서1 32 4 그래프 1) 모집단 , 그래프 2)이제 이 모집단에 표본크기 50의 표본을 추출하여 회귀계수를 추정해 봅시다. 표본은 추출할 때마다 달라지겠지만, 회귀선의 95% 신뢰구간은 다음의 그래프와 비슷합니다. 그래프 3)하지만 표본 추출시 독립변수의 범위를 로 제한한다면(표본크기: 50), 회귀선의 95% 신뢰구간은 다음과 같이 넓어집니다. 그래프 4)그리고 독립변수의 범위를 더욱 제한하여, 의 범위가 되게 한다면(표본크기: 50), 회귀선의 95% 신뢰구간은 다음과 같이 변화합니다. 이제 회귀선의 기울기에 대해서 양수인지 음수인지도 정확하지 않네요. 다음 ..
몬티 홀 문제에서의 확률과 신뢰구간에서의 확률을 비교해봅시다. 95%-신뢰구간에서 95%를 확률로 볼 수 없다고 말했습니다. 왜냐하면 모평균은 신뢰구간 안에 존재하던지, 존재하지 않던지 둘 중 하나이기 때문입니다. 그렇다면 몬티 홀 문제에서도 마찬가지 아닐까요? 카드를 바꾸면, 자동차를 선택 하던지, 그렇지 않던지 둘 중의 하나이지, 확률이 개입될 여지가 없습니다. 그렇다면 몬티 홀 문제에서 확률이 1/3에서 2/3에서 높아지는 것은 무슨 의미일까요? 그것은 우리가 두 가지 전략을 비교했을 때를 생각할 수 있습니다. 과 을 비교했을 때, 첫 번째 전략에서 자동차를 고를 확률은 2/3이고, 두 번째 전략에서 자동차를 고를 확률은 1/3입니다. 하지만 당면한 선택에서는 확률이 올라간다고 하긴 어렵겠죠. 왜냐..
우선 다중회귀의 문제점의 하나는 Panel Data 분석 우선 다중회귀의 문제점의 하나는,통제변수에 포함되지 않은 변수가 예측변수와 상관을 가지고 있을 경우,예측변수의 회귀계수에 영향을 미친다는 것입니다. 예를 들어, 원래 모집단의 회귀식이()일 때, 과 의 상관계수가 0.7이라면, 를 측정하기 않고 으로 회귀분석을 하면로 추정이 됩니다.(좀 더 알기 쉽게, 과 의 상관계수가 1이라고 가정한다면,로 추정됩니다. ) 이것은 과 의 높은 상관에도 를 측정하지 않았기 때문에 생기는 문제입니다. 만약 우리가 을 반복측정하고,만약 가 시간에 따라 변하지 않는 변수일 경우,이런 문제를 해결할 수 있습니다. 예를 들어, 원래 모집단의 회귀식이()라고 해봅시다. ( 여기서 주목해야 할 점은 위의 계수와 변수에서 sub..