728x90
안녕하세요. 최근 네이버 블로그만 하느라 오랜만에 데이터 분석 관련 포스팅을 써보네요!
데이터 분석가라면 필수로 알고 있어야하는 상관관계와 인과관계에 대한 특징에 대한 설명과 예시들을 설명 드리려고 합니다 :)
상관관계 vs 인과관계
- 상관관계(Correlation)
- 의미 : 두 변수 간의 연관성 또는 패턴이 관찰되는 상태. 한 변수의 변화에 따라 다른 변수도 변화하는 경향이 있을때 이를 상관관계라고 함.
- 특징
- 상관관계는 인과관계를 나타내지 않을 수 있음
- 상관계수(Pearson's r)는 -1에서 1 사이의 값을 가지며, 값이 클수록 두 변수의 연관성이 강함을 의미
- 양의 상관관계(r>0) : 한 변수가 증가하면 다른 변수도 증가)
- 음의 상관관계(r<0) : 한 변수가 증가하면 다른 변수는 감소
- 상관관계 없음(r=0)
- 예시(배달 데이터)
- 배달 데이터를 분석하다보면 특정 날씨 조건과 배달 횟수 간의 상관관계가 발견될 수 있음
- 관찰된 상관관계 : 비가 오는 날 주문 횟수가 증가하는 패턴이 있다.
- 해석 : 비가 오는 날 사람들이 외출을 꺼려하며 음식을 배달로 주문하는 경향이 있을 수 있음
- 기온 : 비가 오는 날은 대체로 기온이 낮아지는 경우가 많아 따뜻한 음식의 주문이 증가
- 프로모션 : 배달 앱에서 날씨에 따라 할인 프로모션을 제공했다면, 이것이 주문 증가의 실제 원인일 수 있음
- 요약 : 비와 배달 주문 증가 간의 상관관계는 존재하지만, 비가 직접적으로 배달 주문 증가의 인과관계를 나타내지는 않음
- 배달 데이터를 분석하다보면 특정 날씨 조건과 배달 횟수 간의 상관관계가 발견될 수 있음
- 인과관계(Causation)
- 의미
- 한 변수의 변화가 다른 변수의 변화를 직접적으로 초래하는 경우. 하나의 변수(X)가 원인이 되어 다른 변수(Y)가 결과로 나타나는 관계
- 특징
- 인과관계를 증명하려면 단순히 변수간의 연관성 만으로는 부족. 통제된 실험 또는 인과적 추론인과적 추론(causal inference)이 필요.
- 다양한 조건을 충족해야 인과관계를 확정할 수 있음
- 시간적 선후 관계 (X가 Y보다 먼저 발생해야한다)
- 비혼란성 (다른 요인으로 인해 관계가 혼동되지 않아야 한다)
- 반복적 관찰 및 실험이 필요하다
- 예시(배달 데이터)
- 가설 : 배달 속도가 빨라질수록 고객 만족도가 높아진다.
- 인과관계를 입증하려면 :
- 시간적 선후 관계 : 배달 속도가 변화한 후 고객 만족도에 변화가 있어야한다.
- 예) 배달 시간을 평균 30분에서 20분으로 단축한 이후, 고객 만족도가 10% 증가했다.
- 혼란 변수 통제 : 배달 속도 외의 요인이 영향을 주지 않도록 해야한다.
- 고객 만족도에 영향을 미칠 수 있는 혼란 변수:
- 음식의 품질
- 배달원의 태도
- 프로모션
- 실험적으로 이러한 요인을 통제하거나 제거한 상태에서 분석해야한다.
- 고객 만족도에 영향을 미칠 수 있는 혼란 변수:
- 실험설계 : 지역별로 배달 속도를 다르게 설정하고 만족도를 비교하는 방식으로 실험
- 지역 A : 평균 배달 속도 20분
- 지역 B : 평균 배달 속도 30분
- 두 그룹의 고객 만족도를 비교한 결과, 지역 A에서 고객 만족도가 더 높게 나타남.
- 결론 : 실험 결과 배달속도와 고객 만족도 간에 명확한 인과관계가 성립했다고 판단할 수 있음
- 시간적 선후 관계 : 배달 속도가 변화한 후 고객 만족도에 변화가 있어야한다.
- 의미
주요 통계적 도구
- 상관관계 분석 도구
- 피어슨 상관계수(Pearson Correlation Coefficient) : 연속형 변수 간의 선형 상관관계를 측정
- 스피어만 상관계수(Spearman Correlation Coefficient) : 순위 데이터 간의 비선형 상관관계를 측정
- 인과관계 추론 도구
- 회귀분석(Regression Analysis): 변수 간 관계를 모델링
- 도구 변수 방법(Instrumental Variable) : 혼란변수를 통제하기 위해 사용
- 임의 배정 실험(Randomized Controlled Trials) : 인과관계를 가장 잘 증명할 수 있는 방법
- 그렌저 인과관계 검정 (Granger Causality Test): 시간적 선후관계 확인
상관관계 vs 인과관계 예시 : 배달과 매출 증가
- 상황 : 저녁 피크시간(저녁 6~9시)에 배달 주문이 증가하며, 이 시간대 매출도 함께 증가.
- 상관관계 해석 :
- 배달 주문 증가와 매출 증가 간의 강한 상관관계가 있다.
- 하지만 :
- 날씨가 좋은 날에 사람들이 야외 활동을 하다가 배달을 주문하는 경향이 높을 수 있음
- 메뉴의 인기 : 저녁시간대에 인기 메뉴 프로모션이 매출 증가의 진짜 원인일 수 있음
- 인과관계 해석 :
- 만약 분석 결과, 배달 주문 증가가 실제로 매출 증가를 초래했다면, 이는 인과관계로 설명할 수 있음
- 이를 입증하려면 :
- 특정 지역에서 배달 주문을 증가시키기 위한 이벤트를 시행하고 매출 변화를 추적.
- 이벤트 지역과 그렇지 않은 지역 간의 매출 차이를 비교하여 직접적인 영향을 확인.
유사 상관관계 예시 : 배달 관련
- 의미 : 두 변수 사이에 상관관계가 존재하는 것처럼 보이지만, 실제로는 직접적인 인과관계가 없는 상태. 이런 상관관계는 우연이나 제 3의 숨은 요인(혼란변수, Confounder)에 의해 발생
- 사례 : 아이스크림 배달 주문이 많아질수록 배달원의 사고율이 증가한다.
- 설명 :
- 두 변수 간에 상관관계는 존재하지만, 이는 날씨라는 제 3의 요인에 의해 나타난 유사 상관관계일 가능성이 높음
- 여름철에는 아이스크림 주문도 많아지고, 동시에 배달량이 증가하면서 사고율도 높아질 수 있음
- 실제로 아이스크림 주문량은 사고와 직접적인 인과관계가 없음
- 두 변수 간에 상관관계는 존재하지만, 이는 날씨라는 제 3의 요인에 의해 나타난 유사 상관관계일 가능성이 높음
요약
- “상관관계가 인과관계를 의미하지 않는다”는 통계학에서 가장 흔히 사용되는 경고이다.
- 상관관계는 두 변수 간의 연관성을 보여주지만, 이는 제 3의 요인에 의해 나타날 수 있으며, 직접적인 원인-결과 관계를 보장하지 않는다.
- 혼란변수 또는 제 3의 요인에 의해 상관관계가 나타날 수 있음 = 유사 상관관계(Spurious Correlation)
- 인과관계를 입증하려면 실험적 증거나 통제된 연구가 필요하며, 단순한 데이터 패턴 이상의 분석이 요구된다.
'Dev > 데이터 분석' 카테고리의 다른 글
[분석] 인과추론(3) - 행동 데이터 분석 (0) | 2024.03.07 |
---|---|
[분석] 인과추론(2) - 행동 데이터 분석 (1) | 2024.02.28 |
[분석] 인과추론(1) - 행동 데이터 분석 (1) | 2024.02.23 |
[지표] 임팩트 있는 문제를 정의하려면? (2) | 2023.09.30 |
[통계] 카이제곱 검정(두 변수간 관계파악) (0) | 2023.05.01 |