구글 양식과 R을 연동하기 전에 구글 양식을 설정하는 방법을 알아봅시다. 먼저 구글에서 로그인한 후, 드라이브를 선택합니다. 드라이브의 에서 을 선택합니다. 에 사용할 질문을 작성한 후, 를 클릭합니다. 거기에서 응답을 하기 위한 주소를 확인할 수 있습니다. 여러 사람의 응답 결과를 R에서 불러들이기 위해서는 응답 결과를 웹에 게시하여야 합니다. 를 선택합니다. 거기에서 의 를 선택합니다. 을 클릭하면 결과를 인터넷 주소를 통해 확인할 수 있습니다. 이 때 옵션을 선택해야 새로운 응답 결과가 반영이 됩니다. 이제 를 설정할 수 있습니다. 를 클릭해서 으로 변경합니다. 그런 후, 아래의 주소를 복사해서 에서 변수 u에 저장합니다. 만약 영어에 부담에 없다면 다음의 Youtube video가 참조할 만합니다..
R이 다른 통계 프로그램과 비교해서 가지는 큰 장점 중의 하나는 응용 가능성입니다. 다음의 예시는 구글의 양식을 통해 수집한 설문 조사를 R에서 바로 데이터 프레임으로 읽어들이는 방법입니다. 구글에서 “R read google doc”으로 검색한 결과를 참조하였으며, read.csv에서 인코딩 문제로 한글이 깨지는 문제는 readLines로 해결하였습니다. while (!require(RCurl)) { cat("You need to install the library, RCurl\nInstalling...") install.packages("RCurl") } # You can fill out the form here! # https://docs.google.com/forms/d/1l0IWt684mTe-d..
빅데이터의 효용 02 모집단에서 확률변수 가 주어졌을 때, 확률변수 의 기댓값이 다음과 같다.(아래의 그림에서 왼쪽/위쪽 그림) 쉽게 얘기해서 모집단의 회귀선이 를 따른다고 생각하면 된다. 만약 우리가 이 데이터를 일반적인 1차 회귀직선 으로 적합시키면 데이터의 많은 부분이 우리가 얻은 모형 과 어긋나게 된다. 가장 효율적인 방법은 모집단의 회귀선과 같은 형태의 회귀선 에 적합시키는 것이다. 반면 적합하고자 하는 회귀선의 차수가 모집단의 회귀선의 차수보다 커지게 되면 과적합(overfitting)의 위험이 있다. 하지만 데이터의 크기가 커짐에 따라 과적합의 위험성이 줄어든다. 예를 들어 위의 모집단에서 표본을 구해 에 적합시킬 때, 표본의 크기가 커짐에 따라 와 는 0에 가까워지게 되고, 우리가 구한 회..