2 minute read

비지니스 데이터 과학

한빛미디어 ‘나는 리뷰어다’ 활동을 위해서 책을 제공받아 작성된 서평입니다.





0. 소개


Big Data & Machine Learning / Deep Learning이 세상의 빛을 본지가 꽤 되었지만, 여전히 뜨거운 관심을 받고 있습니다.


앞으로도 이런 관심은 대체할 만한 새로운 개념이 나오기 전까지는 계속될 것입니다.


Big Data & Machine Learning / Deep Learning이 관심을 받게 된 이유 중에 하나가 누구나 쉽게 접근할 수 있는 다양한 도구들이 많이 있기때문이기도 할 것입니다.


손쉬운 접근성에 힘입어 과학, 공학 분야 뿐만 아니라 의학, 미술, 정치, 경제 등에 이르기까지 매우 다양한 분야에서 훌륭한 역할을 수행하고 있습니다.


이 책은 특별히 비즈니스 분야에 사용되는 사례를 예를 들어서 설명하고 있습니다.


저자는 이 분야에서 매우 다양한 서술활동과 교수 활동을 한 사람으로써 데이터 과학 분야의 커리큘럼을 개발한 노하우가 고스란히 이 책에 녹아들어 있다.



이 책의 아쉬운 부분으로는 먼저, 통계학적 개념이 많이 나옵니다. 뿐만 아니라 복잡하고 다양한 수식 또한 많이 등장합니다.


이런 부분에 배경지식이 없는 분들은 쉽게 읽여지지 않을 것입니다.


모든 예제들은 R을 사용하고 있어서 R을 모르는 독자들은 간단하게 R을 학습하여야 예제들을 이해할 수 있습니다.


그리고, Machine Learning / Deep Learning에서 익히 들어 알고 있는 대략적인 개념만 알고 있는 기법들의 수학적인 배경을 자세히 설명하고 있는데


이것을 원한 독자들에게는 반가울 수 있지만, 다른 분야에서 이 분야로 입문하려는 독자들에게는 다소 난해할 수 있습니다.


추상적인 개념이 많고, 책이 전체적으로 어려운 느낌이 없지 않아 있어서, 탄탄한 수학적/통계적 배경 지식이 없으면 쉽게 읽을 수 없을 것 같다는 느낌을 줍니다.



1. 구성


Chap 1 들어가며

  • 첫번째 Chap에서는 Machine Learning에 학습에 필요한 기본적인 내용들과 개념들(Graph , Big Data , Machine Learning, R , Package , 도구 등)에 대한 소개를 합니다.


Chap 1 불확실성

  • 통계학적인 불확실성을 다루는 통계적 기법들에 대해서 이야기 합니다.
  • 귀무가설 , 대립가설 , Bayesian 추론 등에 대해서 다룹니다.


Chap 2 회귀

  • Machine Learning 분야의 한 분야인 회귀(Regression)에 대해서 논의합니다.
  • 확률분포, Logistic Regression, 편차 / 가능도 , 회귀 불확실성에 대해서 다룹니다.


Chap 3 정규화

  • Overfitting을 막기위한 방법 중 하나인 정규화 정규화(Regularization)에 대해서 논의합니다.
  • 교차검증(CV, Cross Validation) / Lasso 등에 대해서 다룹니다.


Chap 4 분류

  • Machine Learning 분야에서 회귀와 함께 많이 사용하는 분류(Classification)에 대한 이야기를 합니다.
  • 다양한 분류 알고리즘 소개와 실제 많이 사용하는 기법들에 대한 소개를 합니다.
  • KNN , 확률 , ROC AUC , Logistic Regression등에 대해서 다루며, 분산 & Big Data 분야에서 많이 사용하는 Framework들에 대한 소개도 곁들여 하고 있습니다.


Chap 5 실험

  • 특정 조건 / 변수가 결과에 미치는 영향을 분석하기 위한 다양한 실험 방법론에 대해서 논의합니다.
  • 대조실험 , AB 테스트(무작위 대조 실험) , 유사 실험 설계 등에 대해서 다룹니다.


Chap 6 제어

  • 실험에서 중요한 조건 / 변수들을 정확하게 제어하는 방법들에 대한 내용입니다.


Chap 7 인수분해

  • 좋은 결정을 내리는 필요한 고차원의 데이터를 저차원으로 압축하는 방법인 차원 축소에 대해서 다룹니다.
  • 인수분홰( x에 대한 기대값을 적은 수의 인수의 합으로 나누는 방법 ) , Clustering , PCA , 부분 최소 제곱법 등에 대해서 논의합니다.


Chap 8 데이터로서의 텍스트

  • Text Data를 Machine Learning에 사용하는 방법론들에 대해서 논의합니다.
  • Tokenization , 텍스트 회귀 , Topic Model, 다항 역회귀 , Word Embedding 등에 대해서 논의합니다.


Chap 9 비모수

  • Tree Based 방법들에 대해서 이야기 합니다.


Chap 10 인공지능

  • DNN(Deep Neural Network)을 응용한 다양한 Deep Learning 기법들에 대한 이야기입니다.



2. 대상 독자


Data 기반 회사에서 Data Scientist로 일하려는 사람뿐 아니라, Data Science 기술을 습득하려는 과학자, 비지니스 전문가, 엔지니어 등에게 초점을 맞추고 있습니다.


데이터 과학자들은 비즈니스에 중요한 결정을 내리기 위한 요소들에 대한 Data를 수집하고 그 Data속에서 Insight를 도출하는 일을 하게될 것인데, 이들을 위한 수학적 , 통계학적 배경 지식을 전달해 줄 것입니다.


‘무슨 일’이 ‘왜’ 일어났는지를 Data를 기반으로 설명할 수 있어야 합니다. 다시 말해, Data와 결과 사이의 인과관계를 해석할 수 있어야 합니다.


이 책은 이를 위한 비지니스 Data Science의 핵심요소를 선별하여 소개해 주고 있습니다.


또한, 다른 분야의 전문가들이 데이터 과학 기술 분야에 입문하기 위한 좋은 입문서의 역할도 할 수 있을 것이다.