본문 바로가기
Daily Life/도서 리뷰

[도서 리뷰] 데이터 과학자의 일

by bodi 2022. 12. 23.

도서 정보

  • 도서명 : 데이터 과학자의 일
  • 저자 : 박준석, 손승우, 우지환, 이은조, 박영호, 노인우, 김범준, 차현승, 이지혜, 김미애, 김영민
  • 평가 : ⭐️⭐️⭐️⭐️(4점)

(출처)

 


좋았던 부분

  • 사람들에게 덜 알려져있지만 매우 중요한, 데이터 과학의 다양한 활용 사례
  • 데이터 과학이 난해하지만은 않으며, 더 넓은 영역에서 생각보다 간단한 아이디어로 우리의 삶을 더 낫게 만든다는 것을 보여주고자 합니다.

1장 통계학, 가장 오래된 데이터 과학

  • 간단한 기준, 즉 ‘관측된 차이가 일반적으로 기대되는 차이(표준편차)의 두 배 이상이면 통계적으로 유의미한 차이가 있다' 라는 판단 규칙은 통계학과 과학 연구방법론에서 매우 광범위하게 사용된다.
  • 기업은 왜 데이터를 분석하여 앞으로의 의사결정에 참고하려할까?
    • 앞으로도 데이터를 수집하고, 데이터에 내재된 패턴이 어느 정도는 지속되리 판단하기 때문이 아닐까?
    • 이런 이유로 우리가 가진 자료, 즉 표본이 대표성을 갖는지 판단하는 일은 매우 중요하며 이는 빅데이터, 머신러닝, 인공지능 시대에도 여전히 참이다.
  • 데이터 과학은 큰 데이터, 작은 데이터 가릴 것 없이, 그것에서 유용한 통찰을 찾아내고 의사결정에 반영하는 활동 모두를 지칭한다.
    • 그리고 이 정의에 따르면 우리는 일상에서 마주치는 작은 데이터의 분석도 데이터 과학이라 부를 수 있다.

2장 인공지능, 머신러닝, 딥러닝의 차이는 무엇일까?

  • 머신러닝은 특정 문제를 해결하기 위한 수단일 뿐이며, 머신러닝이 목적이 되어 끼워 맞추는 식으로 활용할 경우 오히려 안 좋은 결과를 초래할 수 있다.
  • 해결하려는 문제와 유사한 주제를 다는 최신 머신러닝 논문이 존재하는지, 코드로 재구현이 가능한지, 관련 오픈소스 기술이 있는지, 응용 가능한지 여부도 중요하다.
  • 머신러닝 프로젝트의 첫 단계는 목표를 정확히 파악하고, 모델 성능과 제품의 평가 지표를 설정하는 것에 있다. 평가 지표가 잘못 설정된 경우, 프로젝트는 엉뚱한 지표 최적화될 수 있다.
    • 따라서 프로젝트 초반에 평가 지표에 대해 충분히 토의해야 한다.

3장 핀테크와 테크핀이 경쟁하는 시대의 금융

  • 데이터 과학이 잘할 수 있는 분야는
    • 기존의 데이터로 미래의 데이터를 예측하거나
    • 기존 데이터의 패턴을 분석해 새 데이터가 어떤 곳에 속하는지 분류하는 일,
    • 주어진 데이터를 분석하여 비슷한 내용끼리 그룹을 만들어 데이터를 분할하는 세그멘테이션 등이 있다.

4장 게임, 가장 풍부한 데이터가 뛰노는 세상

  • 이벤트를 하면 해당 이벤트가 얼마나 효과적이었는지, 이벤트로 인해 플레이어들이 어떤 영향을 받았는지 등에 대한 후속 분석이 이루어진다.
    • 어떤 이벤트는 특정기준을 충족하는 사람만 대상으로 진행하기도 한다.
    • 이런 경우 기준 충족 여부를 판단하기 위한 데이터 집계 작업이 필요한데, 이것 역시 데이터 분석가의 역할이다.
  • 관측 데이터를 충분히 얻기 위해 개별 상황을 무시하면 정상 기준을 찾기가 어렵고, 반대로 다양한 상황을 고려서 정상 기준을 찾고자 한다면 기준을 정하기에 충분한 데이터를 확보하기가 어려운 것이다.
  • 네트워크 분석은 개체와 개체 간의 관계 구조가 갖는 특징을 분석하는 기법을 말하는데, 의학 생물학 물리학과 같은 과학 분야부터 페이스북이나 트위터 같은 SNS 서비스 사용자 분석까지 폭넓은 분야에서 사용한다.
    • 이 방법을 이용하면 개체 단위 분석에서는 파악하기 힘든 특징을 개체 간의 상호 관계에서 나타나는 특징을 통해 찾아낼 수 있다.

5장 야구에서 출루율이 중요해진 데이터 과학적 이유

  • 회귀분석을 통해 독립변수가 종속변수에 미치는 평균적인 영향력의 크기를 추정할 수 있다.
  • 많은 데이터가 반드시 좋은 분석 결과를 보장하지 않는다는 것

6장 데이터 과학으로 서비스를 보호하는 방법

  • 현업 개발자 수준의 컴퓨터 공학적 능력, 보안과 관련된 실무적인 감각, 데이터 과학적 기반 지식을 모두 갖춰나가는 것은 필요하다.
  • 가장 중요한 부분은 문제를 정의하는 것이다.
    • “무슨일을 해야하는가" 부터 스스로 정해야하는 경우가 많으며, 주제가 정해졌다고 하더라도 어떤 데이터를 우선적으로 확인해야 할지 정해진 경우도 거의 없다.

7장 병원, 의학 정보를 다루는 데이터 센터가 되다

  • 최초 데이터를 수집한 원시 자료와 분석에 사용된 데이터를 비교하여 차이가 없어야 한다는 점이 중요하다.
    • 또한 초기 데이터 베이스에서 분석 대상이 되는 데이터 셋을 생성하는 과정 그리고 이후의 분석 과정에 이르기까지, 모든 과정은 컴퓨터 코드로 정리되어야 하며 이는 다른 사람이 알아볼 수 있고 검증할 수 있는 형태가 되어야 한다.

9장 예비 데이터 과학자를 위한 취업 분투기

  • 데이터 과학의 업무가 회사마다 부서마다 다를 수 밖에 없는 이유
  • 첫째, 기업이 속한 산업군 혹은 소속 부서마다 데이터 과학자에게 원하는 기대치가 다르기 때문일 것이다.
  • 둘째, 업계에 따라 데이터 과학자에게 필요한 데이터 관련 지식 및 업계의 흐름에 관한 지식(도메인 지식)의 깊이가 다를 수 밖에 없다.
  • 마지막으로, 회사의 규모에 따라 조직과 구성원을 운영하는 방식이 크게 달라지기 때문이다.
  • 데이터 과학은 결국 현실의 비즈니스 문제를 기존에 축적한 데이터를 통해 해결하려는 시도라는 점을 명심하자
  • 데이터 문해력(데이터 리터러시) → 데이터가 담고있는 정보와 숨은 의미를 파악하는 능력
    • 탐색 분석을 진행한 후 ‘이 데이터를 통해 어떤 이야기를 해나갈 수 있는지'
    • 위 능력은 꾸준히 데이터를 접하고, 스스로 탐색 분석 연습을 하면 개선할 수 있다.
  • 끈기 → 문제해결을 위해 얼마나 깊이 몰두할 수 있는지를 측정하기 위한 개념
  • 도메인 지식 → 비즈니스 흐름에 대한 이해
  • 통계적 개념을 어떤 비즈니스 상황에서 적용할 것인지, 그 판단이 옳은지 틀린지 판단할 수 있는 직관과 경험
  • 데이터를 활용한 문제해결(데이터 과학)의 영역인지, 데이터를 새로운 영역에서 수집, 활용(인공지능 및 딥러닝)하기를 기대하는 영역인지 돌아볼 필요가 있다.

10장 머신러닝 서비스에 엔지니어가 필요한 이유

  • 첫 번째) 데이터를 수집하고 검증하는 단계
  • 두 번째) 수집한 데이터를 분석해서 어떠한 데이터가 중요한지, 어떤 특성이 있는지 분석하여 피쳐(feature)를 생성
    • 피쳐는 모델이 학습할 수 있게 가공한 데이터를 뜻한다.
      • 원본 데이터는 소리, 이미지, 동영상, 텍스트, 숫자 등 다양한 형태일 수 있는데, 피쳐는 원본 데이터를 정제 및 변환해서 숫자로 표현한 것
      • 모델의 입력값으로 쓰임
        • 이 단계에서 데이터를 전처리(데이터를 분석할 수 있도록 가공하는 예비적 처리)한다.
  • 세 번째) 피쳐를 기반으로 모델을 만들거나 이미 만들어진 모델에 피처 데이터를 학습시킨다
    • 모델을 트레이닝 할 때는 같은 값으로 여러 번 시도하면서 비용함수의 값을 최소화하는 방향으로 모델을 업데이트해야 한다.
  • 네 번째) 모델 성능 평가
    • 모델이 트레이닝 하지 않는 데이터를 이용해서 예측하고, 그 예측이 얼마나 잘 맞는지를 수치로 나타낸다.

서평

5월에 읽었었는데 업로드는 이제야 하는 책. 알고있는 내용이지만 중요한 내용만 한번 더 상기시킬 수 있는 부분들이 많아서 좋았다. 데이터 관련 직군 멘토링 혹은 강의를 할 때 자주 나오는 질문들이 이 책 속에 녹여져있는 것 같다. 데이터 관련 직군을 어떻게 준비하면 좋을지에 대한 질문을 받았을 때 회사마다 각 직군이 하는일이 같지않아서 꼭 가고싶은 직무의 회사를 찾고 채용공고에 따라서 준비하는 것을 권장했었는데 그 답변에 대한 자세한 이유가 될 것 같다. 

예를 들면 현실에서 머신러닝 모델을 쓰기 어려운 이유나 출시하기까지의 과정들 속에 숨겨져있는 반복작업들, 이 부분을 대부분 실제로 적용해보지않으면 모를 수 있는 부분이니 현업 데이터 과학자나 준비중이신 분들이 읽어보시면 좋을 것 같다.