본문 바로가기
Dev/데이터 분석

데이터 분석가라면 필수! 상관관계 인과관계 특징과 예시

by bodi 2024. 12. 9.
728x90

안녕하세요. 최근 네이버 블로그만 하느라 오랜만에 데이터 분석 관련 포스팅을 써보네요! 
데이터 분석가라면 필수로 알고 있어야하는 상관관계와 인과관계에 대한 특징에 대한 설명과 예시들을 설명 드리려고 합니다 :)

 

GPT가 그려준 상관관계 vs 인과관계

 

상관관계 vs 인과관계

  • 상관관계(Correlation)
    • 의미 : 두 변수 간의 연관성 또는 패턴이 관찰되는 상태. 한 변수의 변화에 따라 다른 변수도 변화하는 경향이 있을때 이를 상관관계라고 함.
    • 특징
      • 상관관계는 인과관계를 나타내지 않을 수 있음
      • 상관계수(Pearson's r)는 -1에서 1 사이의 값을 가지며, 값이 클수록 두 변수의 연관성이 강함을 의미
        • 양의 상관관계(r>0) : 한 변수가 증가하면 다른 변수도 증가)
        • 음의 상관관계(r<0) : 한 변수가 증가하면 다른 변수는 감소
        • 상관관계 없음(r=0)
    • 예시(배달 데이터)
      • 배달 데이터를 분석하다보면 특정 날씨 조건과 배달 횟수 간의 상관관계가 발견될 수 있음
        • 관찰된 상관관계 : 비가 오는 날 주문 횟수가 증가하는 패턴이 있다.
        • 해석 : 비가 오는 날 사람들이 외출을 꺼려하며 음식을 배달로 주문하는 경향이 있을 수 있음
          • 기온 : 비가 오는 날은 대체로 기온이 낮아지는 경우가 많아 따뜻한 음식의 주문이 증가
          • 프로모션 : 배달 앱에서 날씨에 따라 할인 프로모션을 제공했다면, 이것이 주문 증가의 실제 원인일 수 있음
        • 요약 : 비와 배달 주문 증가 간의 상관관계는 존재하지만, 비가 직접적으로 배달 주문 증가의 인과관계를 나타내지는 않음
    • 인과관계(Causation)
      • 의미
        • 한 변수의 변화가 다른 변수의 변화를 직접적으로 초래하는 경우. 하나의 변수(X)가 원인이 되어 다른 변수(Y)가 결과로 나타나는 관계
      • 특징
        • 인과관계를 증명하려면 단순히 변수간의 연관성 만으로는 부족. 통제된 실험 또는 인과적 추론인과적 추론(causal inference)이 필요.
        • 다양한 조건을 충족해야 인과관계를 확정할 수 있음
          • 시간적 선후 관계 (X가 Y보다 먼저 발생해야한다)
          • 비혼란성 (다른 요인으로 인해 관계가 혼동되지 않아야 한다)
          • 반복적 관찰 및 실험이 필요하다
      • 예시(배달 데이터)
        • 가설 : 배달 속도가 빨라질수록 고객 만족도가 높아진다.
        • 인과관계를 입증하려면 :
          1. 시간적 선후 관계 : 배달 속도가 변화한 후 고객 만족도에 변화가 있어야한다.
            •   예) 배달 시간을 평균 30분에서 20분으로 단축한 이후, 고객 만족도가 10% 증가했다.
          2. 혼란 변수 통제 : 배달 속도 외의 요인이 영향을 주지 않도록 해야한다.
            •  고객 만족도에 영향을 미칠 수 있는 혼란 변수:
              •   음식의 품질
              •   배달원의 태도
              •   프로모션
            •   실험적으로 이러한 요인을 통제하거나 제거한 상태에서 분석해야한다.
          3. 실험설계 : 지역별로 배달 속도를 다르게 설정하고 만족도를 비교하는 방식으로 실험
            •    지역 A : 평균 배달 속도 20분
            • 지역 B : 평균 배달 속도 30분
              •   두 그룹의 고객 만족도를 비교한 결과, 지역 A에서 고객 만족도가 더 높게 나타남.
          •  결론 : 실험 결과 배달속도와 고객 만족도 간에 명확한 인과관계가 성립했다고 판단할 수 있음

 

주요 통계적 도구

  • 상관관계 분석 도구
    • 피어슨 상관계수(Pearson Correlation Coefficient) : 연속형 변수 간의 선형 상관관계를 측정
    • 스피어만 상관계수(Spearman Correlation Coefficient) : 순위 데이터 간의 비선형 상관관계를 측정
  • 인과관계 추론 도구
    • 회귀분석(Regression Analysis): 변수 간 관계를 모델링
    • 도구 변수 방법(Instrumental Variable) : 혼란변수를 통제하기 위해 사용
    • 임의 배정 실험(Randomized Controlled Trials) : 인과관계를 가장 잘 증명할 수 있는 방법
    • 그렌저 인과관계 검정 (Granger Causality Test): 시간적 선후관계 확인

 

상관관계 vs 인과관계 예시 : 배달과 매출 증가

  • 상황 : 저녁 피크시간(저녁 6~9시)에 배달 주문이 증가하며, 이 시간대 매출도 함께 증가.
  • 상관관계 해석 :
    • 배달 주문 증가와 매출 증가 간의 강한 상관관계가 있다.
    • 하지만 :
      • 날씨가 좋은 날에 사람들이 야외 활동을 하다가 배달을 주문하는 경향이 높을 수 있음
      • 메뉴의 인기 : 저녁시간대에 인기 메뉴 프로모션이 매출 증가의 진짜 원인일 수 있음
  • 인과관계 해석 :
    • 만약 분석 결과, 배달 주문 증가가 실제로 매출 증가를 초래했다면, 이는 인과관계로 설명할 수 있음
    • 이를 입증하려면 :
      • 특정 지역에서 배달 주문을 증가시키기 위한 이벤트를 시행하고 매출 변화를 추적.
      • 이벤트 지역과 그렇지 않은 지역 간의 매출 차이를 비교하여 직접적인 영향을 확인.

 

유사 상관관계 예시 : 배달 관련

  • 의미 : 두 변수 사이에 상관관계가 존재하는 것처럼 보이지만, 실제로는 직접적인 인과관계가 없는 상태. 이런 상관관계는 우연이나 제 3의 숨은 요인(혼란변수, Confounder)에 의해 발생
  • 사례 : 아이스크림 배달 주문이 많아질수록 배달원의 사고율이 증가한다.
  • 설명 :
    • 두 변수 간에 상관관계는 존재하지만, 이는 날씨라는 제 3의 요인에 의해 나타난 유사 상관관계일 가능성이 높음
      • 여름철에는 아이스크림 주문도 많아지고, 동시에 배달량이 증가하면서 사고율도 높아질 수 있음
      • 실제로 아이스크림 주문량은 사고와 직접적인 인과관계가 없음

 

요약

  • “상관관계가 인과관계를 의미하지 않는다”는 통계학에서 가장 흔히 사용되는 경고이다. 
  • 상관관계는 두 변수 간의 연관성을 보여주지만, 이는 제 3의 요인에 의해 나타날 수 있으며, 직접적인 원인-결과 관계를 보장하지 않는다.
    • 혼란변수 또는 제 3의 요인에 의해 상관관계가 나타날 수 있음 = 유사 상관관계(Spurious Correlation)
  • 인과관계를 입증하려면 실험적 증거나 통제된 연구가 필요하며, 단순한 데이터 패턴 이상의 분석이 요구된다.