통계/통계학 Statics

[통계] 카이제곱검정 (교차분석 - 적합도검정, 독립성검정, 동질성 검정)

sseozytank 2022. 9. 7.

1. 카이제곱분포란? 

 k개의 서로 독립적인 표준 정규 확률 변수를 각각 제곱한 다음 합해서 얻어지는 분포 

- 즉, 주사위를 던져서 나온 숫자들이 우연히 나온 것인지, 조작에 의한 것인지를 판단할 때 쓰는 분포

- 예를 들어 우리가 주사위를 공정하게 던졌다면 시행횟수가 무한대로 수렴할 수록 확률이 동일하게 나올 것이지만, 조작된 주사위라면 그렇지 않을 것이다. 한 숫자에서 유난히 나오는 횟수가 많다면 조작되었다는 가능성을 시사할 수 있다. 

- 카이제곱 검정은 주어진 데이터와 기대되는 분포 사이의 차이를 측정하여 이러한 가설을 테스트하며, 이 때 사용하는 통계량이 바로 카이제곱 통계량이다. 

 

카이제곱 통계량(χ²) = Σ [(실제 관측값 - 기대되는 값)² / 기대되는 값]

 

- 카이제곱 통계량을 계산한 후, 이 값을 카이제곱 분포의 표를 사용하여 유의수준에 해당하는 임계값과 비교해서 검정하는 것

 

 

2.어디에 사용될까? 

주로 교차 분석(cross-tabulation analysis)에 사용된다. 

-범주형(명목 척도, 순서 척도) 자료에서 변수들의 빈도를 이용해 두 변수간의 관계를 알아보기 위하여 사용함

-적합도 검정, 독립성 검정, 동질성 검정에 활용됨 

 

 

(1) 적합도검정(Goodness of fit) 

- 범주형 변수 1개 

- 어떤 모집단의 표본이 그 모집단을 대표할 수 있는 지 검정

- 관찰 된 비율 값이 기대값과 같은지 여부를 검정 

 -기존에 알려진 기준이 존재 

 

예시 1 

멘델의 유전법칙에 의하면 4종류의 식물이 9:3:3:1의 비율로 나오게 되어 있다고 한다.
240그루의 식물을 관찰하였더니 120:40:55:25로 나타났다. 유의수준 5%로 적합도 검정을 하시오 

 

예시 2

어느 공정의 부적합품률은 15%로 알려져있다. 시료를 80개 추출하여 검사한 결과 불량이 16개이다. 유의수준 5%로 적합도 검정을 하시오 

 

 

 

(2) 독립성검정 (Test of independence)

- 범주형인 두 변수가 서로 연관되어 있는 여부를 검정 (연속한 변수들 사이의 상관분석과 같다)

- 귀무 가설 : 변수 X와 Y는 서로 독립이다. 

   대립 가설 : 변수 X와 Y는 서로 독립이 아니다.

 

예시 1

영화 장르와 간식류 구매는 서로 연관이 있는지 검정하시오. 

 

 

 

 

(3) 동질성 검정 (Test of independence)

- 독립성 검정처럼 변수가 2개로 각 그룹들이 동질한지 검정

- 귀무 가설 : 각 그룹의 확률분포가 동일하다.

- 대립 가설 : 각 그룹의 확률분포가 동일하지 않다. 

 

 

예시 1

남,녀 각각 500명을 임의로 추출하였고, 성별에 따른 선호도가 관련성이 있는지, 유의수준 0.05에서 검정하시오 

 

 

 

 

 

https://m.blog.naver.com/PostView.naver?isHttpsRedirect=true&blogId=lchry&logNo=220511965537 

https://free-chicken-forever.tistory.com/111

https://free-chicken-forever.tistory.com/m/110 

 

 

 

댓글