본문 바로가기
Dev/데이터 분석

[분석] 인과추론(3) - 행동 데이터 분석

by bodi 2024. 3. 7.
728x90

들어가며

지난 콘텐츠에서는 조금 더 상세한 행동 데이터 분석에 대해서 알아봤습니다. 

이번 편에서는 데이터를 기반으로 포함할 관찰 가능한 변수 검증 및 인과관계 다이어그램을 단순화 해보려고 합니다.

>> 2편 자세히 보러가기 << 

 

[분석] 인과추론(2) - 행동 데이터 분석

들어가며 지난 콘텐츠에서는 분석의 종류, 분석시 주의해야할 점, 행동 데이터 분석이란?, 인과관계 다이어그램에 대해서 알아봤습니다. 이번 편에서는 조금 더 상세한 행동 데이터 분석에 대해

bodi.tistory.com

 


 

데이터를 기반으로 포함할 관찰 가능한 변수 검증하기

먼저 범주형 변수와 숫자형 변수를 나눠서 확인하면 보기가 더 수월합니다. 주어진 예시의 모든 관찰 가능한 변수는 관심 대상인 두 변수와 모두 잠정적으로 연결됩니다. 범주형/연속형 유형의 데이터는 서로 다른 정량적 도구가 필요합니다.

 

숫자형 변수 사이의 관계

[데이터의 모든 숫자형 변수의 상관계수 행렬 살펴보기]

두 관심 변수의 행을 보면 데이터셋의 모든 숫자형 변수와 어떤 상관관계가 있는지 알 수 있습니다. (두 관심 변수 사이의 상관관계는 0.16)

  • 변수의 포함여부를 결정하는 '크기 정도' 임곗값은 정해져 있지 않으며 후보 변수의 개수에 따라 달라질 수 있습니다. 
  • 후보로 생각했던 변수 중에 임곗값을 통과하는 변수가 거의 없고 오히려 임곗값에 가까운 다른 변수가 있다면 해당 변수를 포함하는 것이 좋습니다.
  • 여기서 궁금해지는 것이 "변수가 관심 변수 중 하나와 낮은 상관관계가 있더라도 여전히 고려해야 하는 교란변수도 있지 않을까?" 인데요.
    • 맞습니다. 강력한 이론적인 근거가 있다면 변수가 관심변수와 낮은 상관관계가 있더라도 변수를 포함할 수 있습니다. 이 부분이야말로 데이터분석가의 도메인 지식 이해도와 및 여러가지 상황을 고려해야하는 부분일 것입니다. 
    • 일반적으로 관심 변수와 최소한 중간 수준의 상관관계가 있는 변수에 초점을 맞추는 것이 좋습니다.

숫자형 변수와 이진형 변수의 상관계수행렬

여기에선 절댓값이 0.1 이상인 상관관계만 남기고 나머지를 제외하면 인과관계 다이어그램은 아래와 같아집니다. 

호텔은 시간을 통제하는 능력이 없기 떄문에 시간이 지남에 따라 사회 추세와 같은 중간변수를 거치더라도 예약연도(year)는 관련된 변수의 요인이지 효과는 아니라고 가정할 수 있습니다. 예약이력여부, 취소이력여부는 전제 조건입니다. 예약이력여부는 과거 사건을 참조하기 때문에 1일 평균 요금의 요인이기도 하며 취소이력여부와 1일평균요금은 공통된 요인을 공유합니다. 

 


 

범주형 변수 사이의 관계

범주형 변수도 숫자형 변수와 같은 방법으로 관계를 분석할 수 있습니다. 범주형 변수이기 때문에 피어슨 상관계수를 사용할 수 없습니다. 대신 크레머 V 계수를 사용할 수 있습니다. 

이진형 변수는 크래머 V 계수를 적용했을 때 피어슨 상관계수를 직접 적용한 것과 상당히 유사한 결과가 나옵니다.(= 0.16483946381640308). 범주형 변수와 이진형 변수의 상관계수 행렬을 구하기 위해서는 타입을 카테고리형으로 변경해줘야합니다.

이 상관관계로 다양한 사실을 알아낼 수 있습니다.

  • 예약분기(Quarter)가 다른 어떤 변수와도 의미없는 상관관계가 없다는 것을 알 수 있습니다 .
    • 이것은 계절성이 주어진 예제를 분석할 때 적절한 요인이 아니라는 사실을 나타냅니다. 
    • 혹은 예약분기(Quarter)의 시간 단위가 적절하지 않아서 생긴 문제일 수도 있음
  • 고객 세분 유형과 관련된 세 가지 변수(CustomerType:고객유형, MarketSegment:시장세분유형, DistributionChannel:예약경로)는 매우 강한 상관관계와 약한 상관관계가 있는 혼합된 형태를 보입니다.
    • 세 변수 모두 출신국가(Country)와 0.1X의 상관관계가 있지만 예약여부(RepeatedGuest)와는 서로 다른 상관관계가 있습니다. 
      • 이러한 변수가 서로를 대체할 수 있으며 동일한 행동의 일부 측면을 나타내고 있음을 의미합니다.
      • 이런 경우 추가 분석이 필요하고 새로운 변수를 생성할 가능성도 높습니다.

 

분석한 내용을 적용하고 절댓값이 0.1 이상인 상관관계만 남기고 나머지를 제외하면 인과관계 다이어그램은 아래와 같이 수정됩니다. 

인과관계 다이어그램이 약간 복잡해 보이지만 대부분 몇 가지 행동 과학적 견해로 요약할 수 있습니다.

  1. 왼쪽에 있는 4개의 변수는 개인의 특성을 반영하며 서료 유의미한 상관관계가 있습니다. 화살표 방향을 결정하는 것이 무의미하기 때문에 양방향 화살표로 이러한 상관관계를 표현했습니다. 예를들어 고객유형과 시장세분화유형에 미치는 영향은 그 반대보다 크거나 작다고 말하기 어렵습니다. 실제로는 필요한 인터뷰를 진행한 후에 더 깊은 개인 특성을 나타내는 새로운 변수를 생성해야합니다. 
  2. 개인 특성이 관심 변수에 영향을 미치며 잠재적으로 교란을 일으킬 수 있습니다.
  3. 개인 특성이 예약이력여부, 취소이력여부라는 과거 행동에 영향을 미쳤다고 볼 수 있습니다. 예를들어 이전에 예약을 취소한 적이 있다고 해서 누군가의 국가 또는 시장 세분 유형이 바뀐다고 보기는 어렵습니다. 더 깊은 개인 특성이 작용한다는 것을 파악하고 나면 행동 페르소나를 생성하여 과거 행동이 일부 개인 특성 변수에 속하도록 만들 수도 있습니다. 

 


 

숫자형 변수와 범주형 변수 사이의 관계

숫자형 변수와 범주형 변수 사이의 상관관계를 측정하는 것은 동일한 유형의 변수 사이의 상관관계를 측정하는 것보다 과정이 복잡합니다.

숫자형 변수와 범주형 변수 사이에 상관관계가 있다고 말하는 것은 범주형 변수의 범주에 따라 숫자형 변수의 값이 평균적으로 다르다는 것과 같습니다. 범주형 변수의 범주에 따른 숫자형 변수의 평균을 비교하면 이러한 상관관계를 확인할 수 있습니다. 

예를들어 호텔을 예약할 때 고객의 재정적 특성이 1일 평균 요금에 영향을 미친다고 가정하겠습니다. 결과를 보면 1일 평균 요금이 고객 유형에 따라 크게 다르다는 것을 확인할 수 있습니다. 

 NRD와 취소율 사이의 관계를 이해하는 것이 이번 콘텐츠의 목적이고, 그런 관점에서 볼 때 관심변수 외 다른 변수들 사이의 관계를 명확하게 정의하는 것보다 화살표 방향을 올바르게 잡는 것이 훨씬 더 중요합니다. 

 


 

인과관계 다이어그램 단순화

완성한 다이어그램은 실제 상황에 맞는 정확하고 완전하지만 비즈니스 요구 사항을 충족하는 데 가장 도움이 되는 방식으로 구성되지 않을 수 있습니다.

  • 중간변수에 관심이 없거나 중간변수가 관찰되지 않은 변수일 경우 사슬 축소
  • 관찰된 변수를 찾아야하거나 다른 변수가 다이어그램과 어떤 관련이 있는지 알고 싶다면 사슬을 확장
  • 하나의 변수에 흥미로운 정보가 포함되어 있다고 생각한다면 변수를 분할
  • 다이어그램을 읽을 때 가독성을 높이거나 유형 사이의 변동이 중요하지 않은 경우 변수 결합
  • 순환을 발견할 때마다 중간단계를 도입하거나 관계의 중요한 측면을 식별하여 순환을 끊음

단순화한 최종 인과관계 다이어그램

 


 

정리하며

구축 과정 요약

  1. 측정하고 싶은 관계에서 시작
  2. 포함할 후보 변수를 식별합니다. 행동 과학 지식과 비즈니스 전문 지식을 활용하여 관심 변수에 영향을 미칠 가능성이 있는 변수를 식별
  3. 데이터의 상관관계에 따라 포함할 관찰 가능한 변수를 확인
  4. 가능하다면 관찰되지 않은 변수의 대리 변수를 추가하고 지금까지 포함한 변수의 추가 요인을 추가하여 인과관계 다이어그램을 반복적으로 확장
  5. 마지막으로 관련이 없는 관계와 변수를 제거하여 인과관계 다이어그램을 단순화

 

과정을 따라 인과관계 다이어그램을 구축할 때 항상 관심 요인이 관심 효과에 미치는 인과적 영향을 측정한다는 궁극적인 목표를 염두해야합니다. 가장 좋은 인과관계 다이어그램은 현재 사용 가능한 데이터를 최대한 활용할 수 있게 하고 유익한 추가 연구를 이끌어내는 인과관계 다이어그램입니다. 

 

* 이 글은 한빛미디어 - 행동 데이터 분석 책 및 참고 자료를 바탕으로 작성되었습니다.