[통계] 카이제곱 검정(두 변수간 관계파악)

728x90

지난 포스팅에서는 연속형 변수를 대상으로 독립표본 t-test를 진행해보았습니다.

[통계] 독립표본 t검정(t-test)

독립표본 t 검정 : 서로 독립인 두 모집단의 모평균이 동일한지의 여부를 검정하기 위한 검정통계량 각 모집단으로부터 추출된 독립표본을 이용할 수 있습니다. 가설의 채택 및 기각은 P-value를

bodi.tistory.com

만약 범주형 변수인 경우 어떤식으로 관계를 확인할 수 있을까요?
범주형 자료를 분석하기 위한 방법으로는 카이제곱 검정이 있습니다. 카이제곱 검정은 샘플에서 관찰된 빈도가 예상한 빈도와 크게 다른지 여부를 확인합니다.

출처

카이제곱 검정이란?

: 두 범주형 변수사이에 어떠한 관계가 있는지 검정하는 방법 (교차분석 후 집단간 차이가 유의한지 검증)

출처

귀무가설 : 두 범주형 변수는 서로 독립이다 (= 두 범주형 변수는 관계가 없다)
대립가설 : 두 범주형 변수는 서로 독립이 아니다 (= 두 범주형 변수는 관계가 있다)

카이제곱 검정을 하기 위해서는 두 범주형 변수끼리 이원분할표를 만들어준 뒤 기대빈도를 계산해야 합니다. 이원분할표는 pandas에서 crosstab()으로 구현할 수 있습니다.

카이제곱 검정(chi-squared test) 또는 χ2 검정은 카이제곱 분포에 기초한 통계적 방법으로, 관찰된 빈도가 기대되는 빈도와 의미있게 다른지의 여부를 검정하기 위해 사용되는 검정방법이다. 자료가 빈도로 주어졌을 때, 특히 명목척도 자료의 분석에 이용된다.
>> 카이제곱 값은 χ2 = Σ (관측값 - 기댓값)2 / 기댓값으로 계산한다.

(위키피디아 글 인용)

범주형 변수간의 관계 확인

seaborn 모듈에 penguins 데이터셋을 불러와서 각 펭귄의 종(species)과 섬(island) 변수의 관계를 확인해보겠습니다.

0) 가설 설정

귀무가설 : 펭귄의 종(species)과 섬(island) 두 변수는 관계가 없다.

대립가설 : 펭귄의 종(species)과 섬(island) 두 변수는 관계가 있다.

1) 모듈 및 데이터 import

import seaborn as sns
import pandas as pd
from scipy.stats import chi2_contingency

df = sns.load_dataset('penguins')
df.head()

2) 컬럼 정보 확인

우리가 확인할 컬럼의 타입과 Null값이 있는지 먼저 확인해줍니다. 우리가 확인하고자 하는 펭귄의 종(species)과 섬(island)은 Null값이 없는것을 확인할 수 있습니다.

df.info()

3) 이원분할표 생성 - crosstab() 사용

padas를 사용하여 crosstab() 함수에 행으로 표현할 변수, 열로 표현할 변수 순서대로 입력해줍니다.

cross_df = pd.crosstab(df['species'], df['island'])
cross_df

3) 카이제곱 검정 진행

chi2_contingency() 함수에 이원분할표를 대입하여 카이제곱검정을 실시하면 아래의 순서대로 4가지의 값이 나타나는 것을 확인할 수 있습니다.
1) 카이제곱 검정통계량(chi2)
2) p-value
3) 자유도(dof)
4) 기대도수(expected)

chi2, pvalue, dof, expected = chi2_contingency(cross_df)
print(f"chi2 검정통계량 : {chi2} , p-value : {pvalue}, dof : {dof}")

p-value가 0.05보다 작은 값으로 펭귄의 종(species)과 섬(island) 두 변수는 관계가 있다는 것을 알 수 있습니다.

기대도수(expected)는 무엇인가요?

기대도수는 두 변수가 독립일때 기대되는 빈도를 의미합니다.
(기대빈도의 크기: 각 범주에 포함할 수 있도록 기대되는 빈도를 기대빈도라고 하는데, 이 기대빈도가 5 이상이어야 한다. 5보다 적으면 사례 수를 증가시켜야 한다. - 위키피디아 인용 )
위에서 다룬 데이터로 기대빈도를 확인해보면, 아래와 같습니다.

exp = pd.DataFrame(expected)
exp.index = cross_df.index
exp.columns = cross_df.columns
exp

여기까지 카이제곱검정에 대해서 알아봤습니다.

두 범주형 변수사이에 어떠한 관계가 있는지 확인하는 카이제곱검정 조금 감이 잡히시나요?
조금 더 알차고 자세한 컨텐츠로 돌아올게요! 읽어주셔서 감사합니다 😄

(잘못된 개념이나 피드백은 언제든 환영입니다)

'Dev > 데이터 분석' 카테고리의 다른 글

[분석] 인과추론(1) - 행동 데이터 분석 (1)	2024.02.23
[지표] 임팩트 있는 문제를 정의하려면? (2)	2023.09.30
[통계] 독립표본 t검정(t-test) (0)	2023.02.28
[데이터분석] 공유 자전거 데이터 분석(2편) (0)	2022.08.31
[데이터분석] 공유 자전거 데이터 분석(1편) (0)	2022.06.30

데이터맛집

[통계] 카이제곱 검정(두 변수간 관계파악)

카이제곱 검정이란?

범주형 변수간의 관계 확인

0) 가설 설정

1) 모듈 및 데이터 import

2) 컬럼 정보 확인

3) 이원분할표 생성 - crosstab() 사용

3) 카이제곱 검정 진행

기대도수(expected)는 무엇인가요?

'Dev > 데이터 분석' 카테고리의 다른 글

티스토리툴바

[통계] 카이제곱 검정(두 변수간 관계파악)

카이제곱 검정이란?

범주형 변수간의 관계 확인

0) 가설 설정

1) 모듈 및 데이터 import

2) 컬럼 정보 확인

3) 이원분할표 생성 - crosstab() 사용

3) 카이제곱 검정 진행

기대도수(expected)는 무엇인가요?

'Dev > 데이터 분석' 카테고리의 다른 글

관련글

티스토리툴바