본문 바로가기
Dev/데이터 분석

[분석] 인과추론(2) - 행동 데이터 분석

by bodi 2024. 2. 28.
728x90

들어가며

지난 콘텐츠에서는 분석의 종류, 분석시 주의해야할 점, 행동 데이터 분석이란?, 인과관계 다이어그램에 대해서 알아봤습니다. 

이번 편에서는 조금 더 상세한 행동 데이터 분석에 대해 알아보겠습니다. 

>> 1편 자세히 보러가기 << 

 

[분석] 인과추론(1) - 행동 데이터 분석

들어가며 데이터분석가로 실무를 경험하는 입장에서 데이터를 통해 항상 풀리지 않는 부분이 있습니다. "사람들은 왜 이렇게 행동한 것일까.", "사람들은 주로 어떻게 행동하는가." 등. 데이터

bodi.tistory.com

 


행동 범주

  1. 행동
  2. 의도
  3. 인지와 감정
  4. 개인 특성
  5. 비즈니스 행동

 

1) 행동

  • 행동(action)은 행동경향(behavior)의 기본 단위이며 행동 데이터분석 책에서는 두 개념을 같은 의미로 사용합니다.
    • 행동은 말로 표현하지 않아도 직접 관찰할 수 있는 움직임을 의미합니다.
  • 행동을 방해하는 요소를 파악하고 해결하려면 행동의 단계를 세분화해서 정의해야 합니다.
    • 웹사이트나 앱에서 고객이 경험하는 과정을 나타내는 고격 여정을 정의할 때도 같은 원리를 적용할 수 있습니다.
  • 행동을 수정하는 것이 행동 분석의 궁극적인 목표입니다.
    • 가장 방대한 고객 데이터이며 보통 트랜잭션 데이터에 속함

 

2) 의도

  • 누군가 나는 X를 할거야 라고 말한다면 X는 의도를 표현한 것입니다.
    • 의도는 행동에 한 발 더 가까운 요소
  • 고객의 특정 행동을 강제하는 것이 아니라면 일반적으로 고객의 의도를 파악하고 이를 이용해서 행동을 유도하는 것이 좋습니다.
    • 또한 하고 싶다고 생각한 행동이 실제 행동으로 이어지지 않는 경우도 있습니다. 이것을 행동과학에서는 의도-행동 차이라고 합니다.
  • 고객이 기대했던 행동을 하지 않았다면 그 이유가 ‘고객이 그 행동을 하고싶지 않아서’인지 혹은 ‘의도와 행동 사이에 차이가 있어서’인지 잘 파악해야 고객의 행동을 유도할 수 있을 것 입니다.
    • 설문조사, 사용자경험 관찰 등의 방법이 있음 

 

3) 인지와 감정

  • 감정, 인지, 심성 모형, 신념과 같은 정신상태를 아울러 표현하는 문구입니다. 의도나 보다 영구적인 개인특성을 제외하고 고객의 뇌에서 일어나는 모든 일이라고 생각하면 됩니다.
  • 인지와 감정은 이 모든 것을 비롯하여 고객만족도(CSAT)와 고객경험(CX)과 같은 모호한 비즈니스 용어를 포함합니다.
  • 인지와 감정은 두가지 측면에서 심리적인 개인 특성이라고 할 수 있습니다.
    • 첫째, 인지와 감정은 직접 관찰할 수 없음
    • 둘째, 설문조사나 사용자경험(UX) 관찰로 관련 데이터를 수집
    • 심리학적인 방법을 사용하지 않는 이상 진술이나 관찰된 지표에 의존해야 합니다.

 

4) 개인 특성

  • 응용분석에서는 연령, 성별, 가족관계와 같은 인구 통계 변수를 수집하고 사용하는 것이 중요합니다.
    • 이러한 변수는 누군가의 행동을 예상할 수 있는 좋은 예측 변수가 되기 때문
  • 그러나 행동 데이터 분석에서는 더 광범위하고 정확하게 개인 특성을 파악해야합니다.
    • 행동 데이터 분석에서는 분석 기간 동안 드물게 혹은 굉장히 점진적으로만 변하는 모든 정보를 개인 특성으로 정의
  • 인구통계 변수는 상대적인 안정성과 대표성을 지녀서 대표 요인의 개념에 부합하지만 어떻게 인지, 감정, 의도 및 행동의 원인이 된다는 것인지는 이해하기 다소 어려울 수 있습니다.
    • 확률론적 관점에서 행동의 원인을 ‘기여요소’로 정의하면 이러한 문제를 해결할 수 있음
  • 행동 과학에는 ‘행동은 사람과 환경의 함수이다’라는 유명한 말이 있습니다. 사회적 요소가 인구통계 변수 보다 중요도가 더 높은 경우가 있습니다. 인과관계 모델링과 데이터 분석 관점에서 사회 현상과 개인 특성의 상호작용은 조절효과와 매개효과를 기반으로 파악할 수 있습니다.

 

5) 비즈니스 행동

  • 비즈니스 행동은 조직이나 임직원이 고객(또는 다른 임직원)에게 영향을 주고자 하는 행동을 의미함
    • 이메일과 우편을 포함한 의사소통
    • 웹사이트 문구나 고객센터 상담원의 응대 매뉴얼 변경
    • 고객보상이나 채용기준과 같은 사업 규칙
    • 허위 고객 계정을 판별하거나 직원을 승진시키는 것과 같은 임직원 개인의 결정
  • 첫째, 고객 행동을 세분화 하는 수준만큼 비즈니스 행동을 상세하게 추적하지 못하는 조직이 많습니다.
    • 비즈니스 행동의 특이사항을 기록한다 해도 보통 부서별 데이터베이스(또는 어떤 특정 파일)에 남기고 비즈니스를 대표하는 종합 데이터에는 포함하지 않는 경우가 많음
  • 둘째, 비즈니스 행동은 고객 행동과 관련된 변수를 해석하는 데 영향을 줄 수 있습니다.
    • 영업 영역에서 다양한 고객 행동 뒤에 숨겨진 비즈니스 행동이 있는 경우가 많음
    • 많은 구매 성향 모델은 영업 부서가 목표로 하는 고객층으로 한정하여 설정되어야함

 


 

잠재적인 교란변수인 '선험적 최소 위험도'를 범주로 대체해보면 관심대상인 두 변수에 관찰되지 않은 많은 변수가 추가됩니다.

교란 변수가 있는 인과관계 다이어그램 / 포함할 잠재적인 변수 범주가 있는 인과관계 다이어그램

 

각 범주를 살펴보면서 관심 대상인 두 변수의 요인이 될 수 있는 변수를 찾습니다. 

1) 행동

  • 행동 범주에 포함할 변수를 찾을 때 일반적으로 과거의 행동을 고려합니다. 
  • 위 예시에서는 호텔이 환불불가능한 보증금(NRD)을 요구하는 여부에 영향을 미칠 수 있는 고객의 과거행동을 생각해볼 수 있습니다. 
    • 고객이 과거에 예약을 취소한 이력이 있다면 호텔이 NRD를 요구할 가능성이 높음
    • 또한 과거에 예약을 취소한 이유와 상관없이 취소한 이력이 있는 고객은 미래에도 예약을 취소할 가능성이 더 높다고 생각할 수 있음
  • 이전 행동과 관련된 두 가지 변수(PreviousCancellation:취소이력여부, IsRepeatedGuest:예약이력여부)를 고려해볼 수 있음
    • 다른 과거 행동에는 어떤게 있을지 고려해보면 좋음

 

2) 의도

  • 의도는 데이터에서 누락되는 경우가 많기 때문에 데이터분석에서 간과하기 쉽습니다. 
  • 그러나 행동의 중요한 요인이며 고객과 직원을 인터뷰하여 파악할 수 있습니다. 
    • 따라서 의도는 가존의 사용 가능한 데이터를 보는 것뿐만 아니라 '행동 우선' 접근법을 따르는 이점을 가장 잘 보여주는 사례
  • 두 가지 변수(TripReason:여행목적, CancellationReason:취소사유)로 의도를 생각해볼 수 있음
    • 실제 이유는 인터뷰로 알아내야 하지만 데이터로 확인이 가능한 세가지 변수(CustomerType:고객유형, MarketSegment:시장세분유형, DistributionChannel:예약경로)가 여행 목적에 영향을 받는다고 가정

 

3) 인지와 감정

  • 분석과 관련된 사회적, 심리적 또는 인지적 현상을 식별할 때 행동데이터분석 저자는 특정 결정 시점을 확대하는 것을 좋아한다고 합니다. 
    • 결정시점 : 어떤 행동을 결정하는 시점
  • 위 예시에서는 고객이 예약을 하고 취소하는 순간을 결정 시점으로 정의해보겠습니다.
    • 첫번째 결정 시점에서 고객은 보증금이 환불되지 않는다는 사실을 이해하지 못하거나 잊어버릴 수 있음
    • 두번째 결정 시점에서 보증금을 매몰비용으로 여기고 예약을 취소하려고 할 수 있음
  • 위 정의를 통해 나타낸 두 결정 시점에 영향을 주는 요인 : 보증금에 대한 이해와 인지, 보증금의 매몰 비용 취급

 

4) 개인 특성

  • 인구통계 변수는 그 자체가 아니라 성격특성과 같은 다른 개인 특성을 나타내는 대체재로서 가치가 있습니다.
  • 데이터에 존재하는 인구통계 변수를 배제하고 인과-행동 사고방식을 고수하는 것이 중요합니다.
    • 인과-행동 사고방식을 고수하려면 인구통계 변수를 보기 전에 먼저 성격 특성을 생각해야 합니다.
  • 성격 특성
    • 성격 심리학에 따르면 5가지 성격 특성 요소가 있으며 이 중에서 예약 취소 행동을 유발하는 특성으로 성실성, 신경성을 생각할 수 있습니다.
    • 즉, 계획성이 낮고 걱정 근심이 없는 사람일수록 예약을 취소할 가능성이 더 높다고 생각할 수 있습니다.
  • 인구통계 변수
    • 고객 유형은 여행 목적이나 취소사유 외에도 가격 탄력성과 같은 소득과 같은 다른 개인 특성에도 영향을 미치며 이러한 특성은 관심 변수에 영향을 미칩니다. → 재무적 특성
      • 이 특성은 아래와 같은 데이터의 다른 변수에 영향을 줄 수 있습니다. 
        • 위에서 살펴본 세가지 변수(CustomerType:고객유형, MarketSegment:시장세분유형, DistributionChannel:예약경로)
        • 어린이 인원수(Children)
        • 1일 평균 요금(ADR)
        • 출신 국가(Country)

 

5) 비즈니스 행동

  • 비즈니스 행동은 분석하는 관계에서 큰 역할을 하지만 간과하기 쉽고 통하밯기 까다로운 경우가 많습니다.
  • 위 예시에서 비즈니스 규칙은 NRD를 적용할 고객을 결정하기 때문에 중요한 역할을 합니다.
    • 즉, NRDeposit으로 들어가는 인과관계 다이어그램의 모든 화살표에 영향을 줍니다.
    • 이러한 영향력은 비즈니스 규칙이 취하는 형태에 따라 여러가지 방법으로 설명할 수 있습니다.
      • 예를 들어 이전에 예약을 취소한 적이 있는 모든 고객에게 NRD를 적용해야한다는 비즈니스 규칙이 있을 수 있음
      • 각 비즈니스의 정책을 고려하고 반영해야함.
      • 이러한 경우에는 이진형 변수를 만들고 화살표를 연결 할 수 있음

 

6) 시간 추세

  • 서로 관련이 없지만 취소율의 점진적인 증가나 NRD가 필요한 예약 수의 점진적인 증가와 같이 데이터에 전체적으로 적용되는 시간 추세가 있을 수 있습니다.
    • 호텔 산업의 계절성을 고려할 때 분석하고 싶은 몇 가지 주기적인 측면이 있을 수 있음

 

가능한 후보 변수들을 모두 추가한 최종 인과관계 다이어그램은 아래와 같습니다. 많은 변수들을 하나씩 뜯어보면서 다이어그램을 더 잘게 쪼개보았습니다. 각 변수가 어떤 영향을 미치는지 한눈에 확인이 가능하겠죠?

하지만 아래 다이어그램을 확인해보면 어떤 변수는 관찰이 가능하고 어떤 변수는 관찰이 불가능합니다. 변수 식별을 마친 후 인과관계 다이어그램에서 관찰이 가능한 후보 변수들을 선별할 필요가 있습니다. 

 

 

 


 

다음 글에서는 데이터를 기반으로 포함할 관찰 가능한 변수 검증 및 인과관계 다이어그램을 단순화 해 보겠습니다. 
* 이 글은 한빛미디어 - 행동 데이터 분석 책 및 참고 자료를 바탕으로 작성되었습니다.