[출처]
모두의 연구소에서 진행하는 "함께 콘텐츠를 제작하는 콘텐츠 크리에이터 모임" COCRE(코크리) 1기 회원으로 제작한 글입니다.
👉🏻 코크리가 궁금하다면? 👈🏻
목차
- 들어가며
- 데이터 분석가, 데이터 엔지니어, 데이터 사이언티스트는 다른건가요?
- 데이터 분석가는 어떤 일을 하나요?
- 데이터 분석가는 어떤 역량을 갖춰야 하나요?
들어가며
인터넷이 널리 보급되고 한참 뒤 알파고의 등장과 함께 4차 산업혁명이라는 단어가 급부상했습니다. 그중 가장 화제였던 인공지능과 빅데이터의 중요성이 날이 갈수록 커지면서 머신러닝, 딥러닝, 데이터 관련 직군이 인기를 끌기 시작했습니다.
과거에도 데이터 관련된 직군으로 통계전문가, 비즈니스 전문가 등이 있었습니다. 과거에 비해 갈수록 데이터 저장 및 처리할 수 있는 기술이 급속도로 발전함에 따라 방대한 양의 데이터를 다룰 수 있는 환경이 조성되고, 조금 더 세분화된 직군들로 분류된 형태를 띠게 되었습니다.
현재 트렌드를 비추어보았을 때 비즈니스에서 데이터 기반 의사결정이 선택이 아닌 필수인 시대가 되었습니다. (저희 회사에서는 데이터 관련 직군뿐만 아니라 전체 직원 30% 정도가 SQL로 직접 데이터를 추출하여 데이터 기반 의사결정하고 있습니다😀)
데이터 관련 직군이 화제가 된 만큼 데이터 관련 직군으로 취업 혹은 이직을 희망하시는 분들이 많아졌고, 가끔씩 데이터 분석가 취업을 희망하시거나 이직을 준비하시는 분들과 대화를 나누면 항상 비슷한 질문을 받게 되었습니다. 질문 중에서 "데이터 분석가와 데이터 사이언티스트, 데이터 엔지니어는 무슨 일을 하나요?", "다 같은 직군 아닌가요?"라는 질문이 대다수였는데 오늘은 그 궁금증을 풀어드리고자 해당 직군들의 업무에 대해서 설명하려고 합니다.
데이터 분석가, 데이터 엔지니어, 데이터 사이언티스트는 다른 건가요?
[출처]
저 또한 취업 준비를 하던 시절, 데이터 관련 직군들의 차이를 정확히 알지 못했었는데요. '데이터 관련된 직군이면 다 같은 것 아닌가?' 하는 생각이 있었는데 각각 직군별 채용공고 내 자격요건을 살펴보면서 차이점을 파악할 수 있었습니다. 간략하게 말하자면, 데이터 분석가는 '기획자'에 가깝고, 데이터 엔지니어와 사이언티스트는 '개발자'쪽에 가깝습니다.
실제로 원티드 내 탐색 카테고리들을 보면 데이터 엔지니어와 데이터 사이언티스트는 개발 카테고리 안에 있고 데이터 분석가는 경영 · 비즈니스 카테고리에 속해있습니다. 데이터를 다루는 직군이지만 각각의 성향이 다른 걸 알 수 있습니다.
그러나 이런 구분된 직무와 다르게 현실에서는 각 회사마다 직무의 구분 및 업무의 범위가 모두 다릅니다. 데이터 분석가 포지션이지만 데이터 엔지니어 업무를 하는 경우도 종종 있기도 합니다. 그래서 여러 회사의 모집공고를 확인해 보면 데이터 분석가를 모집한다는 공고마다 자격요건이 정확히 일치하지 않습니다.
[출처]
데이터 분석가의 자격요건으로, A 회사처럼 프로덕트 데이터 분석가 및 비즈니스 분석가의 포지션을 원하기도 하고, B 회사처럼 데이터 분석가 및 데이터 엔지니어의 포지션을 원하기도 합니다. (회사by회사지만 데이터 분석가는 데이터와 관련된 모든 일을 담당하기도 합니다.)
[A 회사]
- 데이터에 지나치게 의존하지 않은 균형 잡힌 사고
- 데이터 기반 인사이트를 서비스에 적용할 수 있는 비즈니스 논리 보유
- 데이터를 명확하고 쉽게 전달할 수 있는 커뮤니케이션 능력 보유
[B 회사]
- 비즈니스 시나리오별 시뮬레이션을 통해 액션을 제시하실 수 있는 역량
- 기본적인 통계학, 실험 방법론 등에 대한 이해
- 데이터 수집, 분석, 모델 학습, *ETL을 위한 빅데이터 인프라를 구축해 본 경험
*ETL (Extract, Transform, Load) : 데이터 추출, 변환, 적재를 의미
그래서 데이터 분석가를 희망한다고 하더라도 각각 회사별 채용공고를 먼저 확인하여 내가 어떤 업무를 하고싶은지를 먼저 정하는 게 좋습니다. 저는 전자의 개념으로 프로덕트 및 비즈니스 데이터 분석가가 하는 일, 어떤 기술이 필요한지 정리해 보려고 합니다.
데이터 분석가는 어떤 일을 하나요?
직업명 자체만으로도 데이터 분석가는 데이터를 분석하는 일을 하는 것을 충분히 알 수 있습니다. 위 벤다이어그램은 데이터 사이언스를 검색했을 때 자주 등장합니다. 중간에 데이터 사이언스를 기준으로 오른쪽 겹치는 부분에 데이터 분석(Data Analysis) 항목을 보면 수학(Maths) & 통계학(Statistics) + 비즈니스(Business)/도메인(Domain) 전문지식(Expertise)로 구성되어 있는 것을 확인할 수 있습니다.
[수학(Maths) & 통계학(Statistics)]
각 회사별, 직군별, 프로젝트마다 수학과 통계에 대해 요구하는 지식이 다릅니다. 개인적 의견으로는 회사에서 데이터를 기반으로 하는 업무마다 다르겠지만 일반적으로 기초 통계학에 대한 부분만 이해하고 있어도 업무를 하는데에 큰 문제는 없다고 생각합니다. (머신러닝 기술을 사용한다면 미적분, 벡터 등에 대한 지식은 기본적으로 알고 있어야 합니다.)
[비즈니스(Business)/도메인(Domain) 전문지식(Expertise)]
데이터 분석가는 데이터를 구성한 다음 해당 데이터를 사용하여 문제를 해결하거나 질문에 답하는 일을 한다고 할 수 있습니다. 로우 데이터(Raw Data; 정제되지 않은 날 것의 데이터)를 통해 데이터 내에 숨겨진 의미 있는 패턴과 추세 등을 찾는 업무가 중심이 되며, 한마디로 정의하면 데이터 분석가는 분석, 기술 및 비즈니스 목표들을 통합하여 수집된 데이터가 회사의 목표를 달성하는 데 사용되도록 하는 역할을 수행한다고 정의할 수 있습니다.
전문화된 프로젝트나 광고의 효율성, 시장의 수요 예측 등 이러한 일을 효과적으로 하려면 데이터에 대한 지식과 통계적 지식이 필요합니다. 수치를 보고 좋은지, 나쁜지를 파악하기 위해서는 산업 군에 대한 이해와 데이터가 어떤 의미를 담고 있는지를 이해하는 과정이 선행되어야 합니다. 사내 데이터도 업무별로 도메인이 다를 수도 있는데, 해당 통계에 대해 수치를 보고 숫자만 파악하는 것이 아닌 해당 수치가 어떤 의미를 가지는지 이해할 수 있어야 합니다.
만약 2021년 11월 우리 서비스를 예약한 건이 34,023건이라고 가정했을 때, 해당 도메인에 대해 알지 못한다면 수치만 보고 많은 예약이 발생했는지, 적은 예약이 발생했는지 알 수 없습니다. 그렇기 때문에 비즈니스에 대한 이해가 선행되어야 데이터가 시사하는 바를 이야기로 풀어낼 수 있습니다. 그렇지 못하다면 데이터는 어떤 가치도 가지지 못하게 됩니다.
데이터 분석가는 어떤 역량을 갖춰야 하나요?
도메인에 대한 이해
[출처]
내가 몸담고 있는 회사의 도메인 혹은 관심 있는 도메인에 대해 이해하고 있어야 합니다. 서비스가 어떤 흐름으로 진행이 되는지에 대해 파악하고 있어야 어떤 아이템을 분석할지, 어떤 부분을 개선할지에 대한 생각이 떠오를 수 있습니다. 누구나 비즈니스 관점에서 얘기할 수 있지만 도메인에 대한 이해의 깊이와 경험에 따라 차이가 있기 때문입니다.
숙박업, 카셰어링, 배달업, 이커머스 등 각 회사 안에서도 다양한 BM(Business Model)을 가질 수 있습니다.
예를 들어, 우아한 형제들 - 배달의민족 안에서도 배달, B마트, 배민 라이더, 전국별미, 선물하기, 쇼핑라이브 등 여러개의 분야로 나눌 수 있는데 각각 팀별로 관리하고 사용하는 데이터가 다를 수 있습니다. B마트 파트에서는 상위 KPI가 연간 목표 매출이 1억이라고 가정했을 때, 전국별미 파트에서는 초기 비즈니스이고 규모가 다르다보니, 연간 목표 매출 2000만원, 고객 유치 1000명이 상위 KPI일 수 있습니다. 내부적으로 BM별 목표로 하고 있는 기준이 다를 수 있습니다.
그리고 배달의 민족 안에서도 각각 본인이 소속되어있는 파트에 대한 KPI와 데이터를 가장 잘 이해하고 있을 것입니다. 예를 들어 B마트 파트 팀원이 B마트 관련 데이터와 전국별미 관련 데이터 중 당연히 B마트 관련 데이터를 더 잘 이해할 수 있는 것처럼요.
해당 산업에서의 도메인을 이해하기 위해서는 우선 산업에 대한 관심을 가져야합니다. 관심을 갖게되면 자연스럽게 도메인에 따른 수치들을 이해할 수 있게됩니다. 이 부분은 처음에 들으면 이해가 안갈 수 있지만 뒷 부분에 도메인에 대해 이해하는 부분이 있으니 조금만 기다려주세요!
저의 경우는 교통 산업에 대해 관심이 있었고 관련하여 인턴을 하면서 해당 산업의 데이터를 다뤄본 경험이 있어요! 관심이 있는만큼 이 수치는 왜 이렇게 나오지? 이 산업에서의 이 수치가 의미하는게 뭐지? 산업의 트렌드는 어떤식으로 구성되어있지? 등 관심을 갖고 전체적 관점에서 데이터를 해석하려는 시도를 했던 기억이 나요. 내가 얼마만큼 관심을 갖고 데이터를 해석하느냐가 중요한 부분인 것 같아요. 만약 인턴을 해보지 못했더라도 캐글에서 유사한 산업에 대한 데이터를 찾아보고 그 데이터를 파악해보는 것도 의미가 있다고 생각해요 :)
문제 해결
[출처]
실제로 사용할 수 있는 데이터에 비해 회사에서 알고 싶어 하는 데이터가 다를 수 있습니다. 분석가는 때때로 그런 상황을 어떻게 해결할 수 있을지, 창의력을 발휘해야 합니다.
ex) 회사 내부 BM별로 매출을 파악하고 싶음 -> 실제 저장된 데이터로는 BM 구분이 되지 않음 -> 가지고 있는 데이터로 구분할 수 있는 방법이 없을까 고민 or 개발 요청 -> 기존의 데이터로 방법을 찾아서 분석 or 추가 개발 후 쌓인 데이터로 분석
문제해결 부분도 실제로 현업에서 업무를 진행중인 상황이 아니라면 와닿지 않을 수 있습니다. 이 부분은 데이터 분석가로 업무를 시작했을때 데이터로 어떤 것을 할 수 있을지, 이 부분을 파악하기 위해서는 어떤 데이터가 필요한지, 가장 빠르게 문제를 해결 할 수 있는 방법은 어떤게 있을지 파악할 때 필요한 능력이라고 생각합니다.
의사소통
[출처]
데이터 분석가는 본인이 분석한 결과물을 보고받는 사람, 듣는 사람의 입장에서 이해하기 쉬운 용어를 사용하여 결과를 공유하고, 공유한 내용에 대한 질문에 답하거나 해결할 준비가 되어있어야 합니다. 그래서 헷갈리는 용어 또는 요약 내용을 작게나마 하단에 기재하는 것이 좋습니다.
ex) 이번 달 매출은 *YoY(전년 동기 대비 증감율)으로 보면 OO% 줄었지만, *YTD(연초 대비 증감율)로 보면 OO% 증가 -> OO의 영향으로 추정
*A/B 테스트의 결과 A 안의 *CTR(클릭율)이 26%가량 높음
*YoY(Year on Year) : 전년 동기 대비 증감율
ex. 작년의 동일 기간(2020년 12월)과 올해의 동일 기간(2021년 12월)을 비교
*YTD(Year To Date) : 연초 대비 증감율
ex.11월 기준, 올해 현재까지의 누적값(2021년 1월~11월)과 올해 현재와 같은 전년의 누적값(2020년 1월~11월) 비교
*A/B 테스트 : 두 개의 변형 A와 B를 사용하는 종합 대조 실험
*CTR(Click-Through Rate) : 클릭율 = 클릭수/노출수, 광고가 클릭된 횟수를 광고가 게재된 횟수로 나눈 값
의사소통은 모든 부분에서 중요한 역량입니다. 무엇보다도 수치를 기반으로 다른사람이 이해할 수 있도록 풀어서 설명하는 소통방식은 데이터 분석가에게는 중요한 부분 중 하나라고 생각합니다. 열심히 분석을 한 내용을 다른사람에게 전달을 할 때 상대방이 이해하지 못하게끔 전달이 된다면 분석한 내용 또한 의미없는 내용이 될 수 있기 때문입니다.
의미 있는 결론 도출
[출처]
데이터 분석에 있어 목표 설정은 매우 중요하며 데이터 분석가는 데이터 내에 숨어 있는 더 큰 메시지를 가리키는 작은 단서를 알아차릴 수 있어야 합니다. 그래서 지표(Metric)를 쪼개서 보는 것이 중요합니다. Output Metric은 최종 Goal이라고 할 수 있고, 다수의 Input Metric을 투입해서 나올 수 있는 결과라고 볼 수 있습니다.
여기서 중요한 포인트는 각각 *OMTM(지금 우리에게 가장 중요한 지표)을 설정한 뒤, 설정한 지표를 어떻게 쪼갤 수 있을까를 고민해야 합니다. 추가로 진행하고 있는 분석에 대해 올바른 지표를 설정한 것인지 *허영 지표(Vanity Metric)를 세운 것은 아닌지 고민해 볼 필요가 있습니다.
*OMTM(One Metric That Matters) : 서비스의 성장을 위해 지금 우리가 꼭 집중해야 하는 지표 (모든 지표가, 모든 시기에 같은 중요도를 가지지 않기 때문에 지표 간 우선순위를 정합니다.)
*허영지표(Vanity Metric) : 보기에는 좋지만, 실제 중요한 숫자들과 상관이 없는 지표
ex)위 사진처럼 Input Metric - Input Metric - Output Metric : Output Metric을 어떻게 좋게 만들 것인가가 포인트
위 역량들은 대부분의 직군에서 필요하지만, 데이터 분석가에게는 기본이 되는 역량이라고 생각합니다. 헷갈리시는 분들을 위해 예시로 퍼포먼스 마케터와 데이터 분석가의 차이를 마지막으로 글을 마무리 하겠습니다.
예를들어 퍼포먼스 마케터는 고객을 데려오고, 매출을 높이는 게 주 업무라고 가정한다면, 데이터 분석가는 데이터 전체를 아우르며, 각각의 데이터를 유형별로 쪼개고 그 안에서 인사이트를 발굴하는 업무를 진행하며 사내에 다양한 데이터를 분석하는 업무를 한다고 이해하시면 될 것 같습니다. 인사이트를 발굴한다는 것은 상황별로 다를 수 있지만 고객들이 느끼는 불편함을 찾아서 개선하거나 비용을 절감할 수 있는 포인트를 찾는다의 개념으로 이해하셔도 좋을 것 같습니다. 위 업무를 진행하려면 당연히 비즈니스에 대한 이해가 선행되어한다는 것 이제 조금은 이해가 되실 것 같아요! 😄
해당 포스팅은 데이터 분석가를 꿈꾸는 취업 준비생 혹은 이직 준비를 하시는 분들을 위해 작성하였습니다.
오늘은 데이터 분석가가 어떤 일을 하는지 현업자의 입장에서 대략적으로 정리해 보았습니다. 개인적인 의견이 많이 포함되어있다는 점 참고 부탁드립니다. 다음 시간에는 도메인에 대한 이해나 실제 현업에 저장되어있는 데이터처럼 환경 셋팅을 하고 데이터를 분석하는 흐름에 대해서 알아보고자 합니다.
다음 시간에 만나요! 🙋🏻🙋🏻♀️🙋🏼🙋🏼♀️
'Dev > 데이터 분석' 카테고리의 다른 글
[통계] 독립표본 t검정(t-test) (0) | 2023.02.28 |
---|---|
[데이터분석] 공유 자전거 데이터 분석(2편) (0) | 2022.08.31 |
[데이터분석] 공유 자전거 데이터 분석(1편) (0) | 2022.06.30 |
[가설검정] P-value란?(어떤 사건이 우연히 발생할 확률) (2) | 2021.12.17 |
[시각화] 주어진 데이터로 적합한 시각화하기 (0) | 2021.11.20 |