이 책은 입문용 교양서와 전공자용 전문서 사이의 간극을 좁히기 위한 실무서로 집필하였다. 통계 및 컴퓨터 프로그래밍에 대한 약간의 배경지식을 가지고 있는 독자를 대상으로 전통적인 자료분석 기법은 물론이고 새로운 기법인 기계학습 기법들을 소개하고 R 프로그램을 활용하여 자료를 분석하는 예시를 제공한다. 이 책의 구성을 자세하게 설명하면 다음과 같다. 제1장에서는 빅데이터와 기계학습을 개관하며 주요 용어를 설명하고, 제2장부터 제5장에 걸쳐 주요 프로그램인 R을 기초와 응용으로 나누어 다루었다. 제2장과 제3장에서는 R 기초로 R 객체, 데이터 프레임부터 시작하여 척도에 따른 기술통계 산출을 설명한다. R 응용인 제4장과 제5장에서는 자료병합 및 간단한 결측치 대체를 포함한 전처리 전반을 예시와 함께 자세하게 설명하였다. 다음으로 제6장과 제7장에서는 각각 연속형·범주형 반응변수에 대한 전통적인 통계분석 기법을 제시하며 이후 설명될 기계학습 기법과 관련된 데이터 분석에 대한 기본 지식 함양을 꾀하였다. 제8장에서는 결측자료 처리 기법을 비모수 기법과 모수 기법의 대표적 기법으로 설명하였다. 제9장에서는 기계학습에서의 모형평가가 어떻게 이루어지는지를 제6장과 제7장의 예시로 설명하였다. 제10장과 제11장에서는 가장 인기 있는 기계학습 기법 중 하나인 랜덤포레스트를 의사결정나무모형과 함께 설명하였다. 제12장과 제13장에서는 벌점회귀모형으로 분류되는 LASSO, ridge, Enet을 다루었다. 랜덤포레스트, 딥러닝과 같은 블랙박스 기법과 달리 벌점회귀모형은 설명이 가능한 기계학습 기법이므로 사회과학 자료분석 시 큰 장점을 지닌다. 제14장과 제15장에서는 사회과학 빅데이터 분석 시 비지도학습 기법으로 널리 쓰이는 텍스트마이닝을 다루었다. 특정 연구자의 특정한 설계 없이 얻는 빅데이터는 연구자가 관심을 가지는 변수의 값을 모르는 경우가 많기 때문에 빅데이터 시대에 비지도학습 기법의 중요성 또한 부각되고 있다. 구체적으로 웹크롤링, 키워드분석 그리고 토픽모형을 실제 예시와 함께 설명하였다. |