본문 바로가기

데이터분석8

SHAP 분석 완벽 정리: 머신러닝 모델 해석부터 교육 전략 수립까지 SHAP 분석이 뭐길래?최근 2025 원티드 하이파이브 컨퍼런스에 다녀왔습니다. 컨퍼런스 내용 중 여러 기업들이 SHAP 분석을 활용해 중요 피처를 발굴하고 그걸 핵심 지표로 정의하는 사례들을 다수 소개했습니다.그만큼 SHAP은 단순한 설명 도구를 넘어서 모델 해석 → 전략 수립 → 실제 액션 도출까지 이어지는 실용적인 도구가 되고 있다는 걸 세션을 들으며 느꼈습니다. 이번 글에서는 SHAP 분석이 무엇인지, 어떻게 해석해야 하는지, 제가 있는 교육 서비스에서 실제로 어떻게 활용할 수 있는지를 구체적인 예시와 함께 정리해 보았습니다. SHAP이란?SHAP (SHapley Additive exPlanations)은 머신러닝 모델의 개별 예측값을 설명하기 위한 도구게임 이론에서 유래된 Shapley 값을 .. 2025. 6. 24.
데이터 분석가라면 필수! 상관관계 인과관계 특징과 예시 안녕하세요. 최근 네이버 블로그만 하느라 오랜만에 데이터 분석 관련 포스팅을 써보네요! 데이터 분석가라면 필수로 알고 있어야하는 상관관계와 인과관계에 대한 특징에 대한 설명과 예시들을 설명 드리려고 합니다 :)  상관관계 vs 인과관계상관관계(Correlation)의미 : 두 변수 간의 연관성 또는 패턴이 관찰되는 상태. 한 변수의 변화에 따라 다른 변수도 변화하는 경향이 있을때 이를 상관관계라고 함.특징상관관계는 인과관계를 나타내지 않을 수 있음상관계수(Pearson's r)는 -1에서 1 사이의 값을 가지며, 값이 클수록 두 변수의 연관성이 강함을 의미양의 상관관계(r>0) : 한 변수가 증가하면 다른 변수도 증가)음의 상관관계(r상관관계 없음(r=0)예시(배달 데이터)배달 데이터를 분석하다보면 특정.. 2024. 12. 9.
[분석] 인과추론(3) - 행동 데이터 분석 들어가며 지난 콘텐츠에서는 조금 더 상세한 행동 데이터 분석에 대해서 알아봤습니다. 이번 편에서는 데이터를 기반으로 포함할 관찰 가능한 변수 검증 및 인과관계 다이어그램을 단순화 해보려고 합니다. >> 2편 자세히 보러가기 2024. 3. 7.
[분석] 인과추론(2) - 행동 데이터 분석 들어가며 지난 콘텐츠에서는 분석의 종류, 분석시 주의해야할 점, 행동 데이터 분석이란?, 인과관계 다이어그램에 대해서 알아봤습니다. 이번 편에서는 조금 더 상세한 행동 데이터 분석에 대해 알아보겠습니다. >> 1편 자세히 보러가기 2024. 2. 28.
[분석] 인과추론(1) - 행동 데이터 분석 들어가며 데이터분석가로 실무를 경험하는 입장에서 데이터를 통해 항상 풀리지 않는 부분이 있습니다. "사람들은 왜 이렇게 행동한 것일까.", "사람들은 주로 어떻게 행동하는가." 등. 데이터 분석가의 입장에서 "왜" 라는 것을 데이터를 통해 찾아봐도 알 수 없는 부분이 존재합니다. 그것이 바로 도메인 지식이 필요한 이유이고, 그 도메인 지식 안에 교란변수가 어떤것이 있고 시즈널적인 요소는 어떤 부분에서 존재하는지 등을 알 수 있게 되는 것 같습니다. 그래서 지난 콘텐츠에서 다뤘던 THICK data(씩 데이터) 에서도 나타나는 것 처럼 총제적 시야가 필요합니다. 총체적 시야는 결국 ‘관계를 파악하고 연결하는 능력’이다. 분석의 종류 분석에는 기술분석, 예측, 인과관계라는 세 가지 유형이 있습니다. 기술분석.. 2024. 2. 23.
[도서 리뷰] THICK data(씩 데이터) 도서 정보도서명 : THICK data(씩 데이터)저자 : 백영재 지음평가 : ⭐️⭐️⭐️⭐️(4점)[이미지 출처] THICK data - 알라딘 핵심 내용[ 총체적 접근 : 소비자는 숫자가 아니라 일상에 존재한다 ]인류학에서 말하는 총체적 접근이란 어떤 대상을 연구할 때 그에 미치는 주변 요소와 그것들끼리의 관계를 규명하려는 시각이다.소비자를 제대로 이해하려면 그들이 어떤 세계의 어떤 맥락 안에 존재하는지 알아야 한다.좁게는 가족이나 친구, 동료부터 넓게는 지역사회 및 국가에 이르기까지 그들이 어떤 공동체에서 어떤 영향을 받는지, 그들이 관계하고 있는 모든 주체를 총체적으로 살펴봐야한다는 뜻이다.그러나 의외로 많은 기업이 소비;자를 엑셀 시트의 숫자로만 파악할 뿐 총체적으로 이해하려는 노력을 기울이지 .. 2024. 1. 21.
반응형