본문 바로가기
Dev/데이터 분석

[분석] 인과추론(1) - 행동 데이터 분석

by bodi 2024. 2. 23.
728x90

AI가 만들어준 썸네일

 

들어가며 

데이터분석가로 실무를 경험하는 입장에서 데이터를 통해 항상 풀리지 않는 부분이 있습니다. "사람들은 왜 이렇게 행동한 것일까.", "사람들은 주로 어떻게 행동하는가." 등.

데이터 분석가의 입장에서 "왜" 라는 것을 데이터를 통해 찾아봐도 알 수 없는 부분이 존재합니다. 그것이 바로 도메인 지식이 필요한 이유이고, 그 도메인 지식 안에 교란변수가 어떤것이 있고 시즈널적인 요소는 어떤 부분에서 존재하는지 등을 알 수 있게 되는 것 같습니다. 

그래서 지난 콘텐츠에서 다뤘던 THICK data(씩 데이터) 에서도 나타나는 것 처럼 총제적 시야가 필요합니다. 

총체적 시야는 결국 ‘관계를 파악하고 연결하는 능력’이다.

 


분석의 종류

분석에는 기술분석, 예측, 인과관계라는 세 가지 유형이 있습니다.

  • 기술분석 : 데이터에 대한 설명을 제공
    • ‘~는 무엇인가’ 또는 ‘이미 측정한 것’에 대한 답을 줌
    • 비즈니스 보고가 이 분석 범주에 속함
    • ex) “지난달 얼마나 많은 고객이 서비스 구독을 취소했나요?”, “작년 이익은 얼마인가요?”와 같은 질문에 답할 수 있음
  • 예측 분석 : 예측을 제공
    • “현재와 같은 조건이 지속된다면 ~는 무엇이 될까” 또는 “아직 측정하지 않은 것”에 대해 알려줌
    • 대부분의 머신러닝 방법이 이 분석 유형에 속함
    • ex) “다음달에 구독을 취소하는 고객은 몇 명일까?”, “이 주문은 허위일까?”와 같은 질문에 답할 수 있음
  • 인과관계 분석 : 데이터의 인과관계를 제공
    • “만약 이렇다면?” 또는 “다른 조건에서는 ~가 어떻게 될까?”를 고민하는 분석 유형
    • “할인 쿠폰을 보내지 않으면 다음달에 얼마나 많은 고객이 구독을 취소할까?”와 같은 질문에 답할 수 있음
    • 가장 널리 알려진 인과관계 분석 도구는 무작위 실험 또는 무작위 대조군 연구(RCT)라고도 부르는 A/B 테스트임
      • 무작위로 선택한 고객군에 쿠폰을 보내고 대조군과 비교하여 얼마나 많은 고객이 구독을 취소하는지 확인하는 무작위 실험이 가장 간단하면서도 효과적인 분석 방법

 


분석시 주의해야할 점

"인간은 복잡한 존재다"

인간의 행동 특징

  • 여러 요인에 영향을 받는다
  • 상황에 따라 다르다
  • 가변적이다
  • 혁신적이다
  • 전략적이다
  • 인간의 행동은 어떤 시점에 있을 수도 있고 없을 수도 있으며 시간이 지남에 따라 강해지거나 약해짐
    • 환경의 사소한 변화가 행동에 큰 변화를 일으킬 수 있기 때문에 과거에 행동만으로 미래의 인간 행동을 예측하는 것은 이길 확률이 매우 낮은 도박을 하는 것과 같음

로버트 루카스(거시경제학자)는 인간의 행동 자체를 예측하는 대신 소비자 선호도와 같이 인간의 행동을 유발하는 깊이 있는 매개변수가 무엇인지를 고민해야 한다고 말했습니다. 인간의 행동을 이해하기 위해서는 하나의 데이터만 보는 것이 아니라 여러 데이터를 고려해야합니다. 

 


 

행동 데이터 분석이란?

*행동 과학 : 데이터 자체를 목적으로 하기 보다는 데이터를 인간의 심리와 행동을 들여다보는 렌즈로 바라보는 사고방식

행동 데이터 분석이란 인과관계 분석 도구를 사용하는 행동 과학적인 사고방식이라고도 할 수 있으며 가장 많이 관련있는 것이 인과관계, 인과추론이라고할 수 있습니다. 데이터 분석에서의, 통계학에서의 원칙이라고 할 수 있는 "상관관계는 인과관계가 아니다"에 대해서 명확히 구분하는 것은 어려울 수 있습니다. 이러한 문제를 해결하기 위해서 인과추론에 대해 공부할 필요가 있으며 인과관계 다이어그램과 데이터를 사용하면 행동을 이해할 수 있습니다.

바로 예시로 들어가보겠습니다. '보증금 유형이 예약 취소율에 영향을 주는가?' 라는 질문에서 '보증금 유형이 예약 취소율에 영향을 줄 것이다.' 라는 가설로 다루게 되고, 그 가설을 검증하기 위해서 데이터를 살펴보게 됩니다.

데이터를 살펴봤을때 여러 컬럼이 존재하는데 1차적으로 보증금 유형과 예약 취소율을 확인해볼 것입니다.

 

보증금에 대한 정보, 취소 여부에 대한 정보 집계(카운트, 비율)

위와 같이, 보증금에 대한 정보 - [보증금 유형이 있는 경우(1)와 보증금 유형이 없는 경우(0)] 와 취소 여부에 대한 정보 - [취소를 한 경우(1)와 취소를 하지 않은 경우(0)] 를 살펴보면 아래와 같은 정보를 알 수 있게 됩니다. 

  • 보증금이 없는 예약이 압도적으로 많으며 취소율은 27%
  • 반면 환불불가 보증금이 있는 예약의 취소율은 약 95%로 높음

이러한 정보를 통해 최종적인 결론으로 고민해야할 포인트는 그렇다면 보증금 제도를 없애면 취소율이 무조건 감소할까? 입니다.

결론적으로는 그렇지 않습니다.

 

그 이유는, 실제로는 호텔이 ‘취소 가능성이 높은’ 예약에 환불 불가 보증금을 거는 경우가 많으며 이 때문에 허위 상관관계가 발생했을 가능성이 높기 때문입니다. 이러한 내용은 데이터로만 판단하기 어려운 부분이라 항상 분석가들은 해당 업계에 대한 도메인을 필수적으로 알아합니다.

 


 

위 내용을 인과관계 다이어그램으로 표현해보겠습니다. 

1) 호텔이 ‘취소 가능성이 높은’ 예약에 환불 불가 보증금을 거는 경우가 많으며 이 때문에 허위 상관관계가 발생했을 가능성이 높다 라는 것을 몰랐을 경우

  • 아래의 인과관계 다이어그램은 '보증금 유형과 취소율 사이의 인과관계는 무엇인가?' 라는 기본적인 비즈니스 분석 질문을 나타냅니다.

 

2) 호텔이 ‘취소 가능성이 높은’ 예약에 환불 불가 보증금을 거는 경우가 많으며 이 때문에 허위 상관관계가 발생했을 가능성이 높다 라는 것을 알았을 경우 

  • 아래의 인과관계 다이어그램은 정보에 입각한 행동 가설을 나타냅니다.
  • '환불이 불가능한 보증금이 취소율을 높이는 것처럼 보이지만 이 관계는 결정해야 하는 요소에 의해 교란된 것일 수 있습니다. 

 

포함할 잠재적인 변수를 식별할 때 사용가능한 데이터에서 시작하는 경향이 있습니다. 이렇게 하면 눈 앞에 보이지 않는다는 이유로 가장 중요한 변수를 놓칠 수 있습니다. 또한 데이터의 변수가 현실세계에서 일어나는 일을 잘 나타내는지 고려하지 않고 변수 액면 그대로 받아들일 가능성도 큽니다.

  • 예를 들어 데이터의 범주형 변수는 고객 중심의 관점 보다는 비즈니스 중심 관점을 나타낼 가능성이 높으며, 일부 범주 변수를 함께 집계하거나 다른 변수를 새로운 변수로 병합하는 것이 더 적절할 수 있습니다.
    • 위 데이터 예시의 경우 시장 세분 유형을 나타내는 변수(MarketSegment)와 예약의 어린이 인원수를 나타내는 변수(Children)로 새로운 범주형 변수를 생성할 수 있습니다.
      • 어린이가 없는 법인고객
      • 어린이가 없는 비법인고객
      • 어린이가 있는 법인고객
      • 어린이가 있는 비법인고객

보이는 것이 전부다 라는 함정에 빠지지 않도록 행동 범주부터 차근차근 살펴봐야합니다.

 


 

다음 글에서는 행동 범주에 대한 설명과, 각 변수를 포함할지 여부에 대해 식별해보겠습니다. 
* 이 글은 한빛미디어 - 행동 데이터 분석 책 및 참고 자료를 바탕으로 작성되었습니다.