통계/통계학 Statics

[통계] ANOVA 분산분석

sseozytank 2023. 5. 25.

ANOVA 분석은 6시그마 시간에 주구장창 배웠었는데, 너무 생산/품질(불량 등)쪽에 특화해서 배웠더니 기존 업무에 어떻게 활용해야 할지 감이 잘 오지 않아 다시금 정리해보았다.

- ANOVA, ANalysis Of VAriance

- 세 집단 이상의 평균을 비교하는데 사용

* t-test가 두 집단 간 평균차이를 파악하는 데에 적용되는 반면, ANOVA는 세 집단 이상의 집단 평균치의 차이를 검정

* 다수 집단 비교를 할 때, t-test를 사용할수도 있지만, 다중검정문제로 인해 1종 오류가 증가하게 됨

< 왜? 평균 차이를 비교하는데 분산이 개념을 활용할까? >

- 집단의 평균들이 멀리 떨어져 분산이 크면 클수록, 집단간의 평균들이 서로 다르기 때문이다.

.따라서 평균끼리의 차이도 커진 것을 확인할 수 있다. 이 처럼 분산의 차이로 평균의 차이를 유추할 수 있어, 분산분석을 통해 집단끼리의 평균 차이를 검정할 수 있는 것이다. 때문에 검정 통계량 F를 구하는 방법또한 집단간 분산 / 집단내 분산 인것 !

(집단 평균들 간의 분산이 크면 클수록 , 집단 내 분산은 작으면 작을수록 평균의 차이가 분명해진다)

< 분산 분석에 필요한 3가지 가정 >

1. 정규성 가정 : 각 그룹에 있는 데이터는 정규분포의 형태를 가져야 한다.

(단, 데이터가 아주 많은 경우에는 정규성을 가지지 않아도 괜찮다)

2. 등분산 가정 : 각 그룹의 분산은 서로 같은 분산을 가져야 한다.

(그룹간의 데이터의 수가 비슷하고 어느 두 그룹 간의 분산의 비가 모두 4를 넘지 않는 경우에는 등분산 가정을 만족하지 않아도 괜찮다)

3. 독립성 가정 : 각 그룹에 대해서 관찰은 서로 독립적이어서, 그룹간에 서로 영향을 주지 않아야 한다.

이제 분산분석에 대한 원리는 이해했다. 그렇다면 이 세 집단의 평균이 정말로 차이가 있는지는 어떻게 확신할 수 있을까?

1. 이를 검정하기 위해 귀무가설과 대립가설을 세운다.

귀무가설 H0 : 여러 그룹의 평균이 동일하다

대립가설 H1 : 여러 그룹의 평균이 동일하지는 않다.

2. 위에서 언급했듯이 F검정통계값을 구한다.

3. 계산된 F 검정통계량을 사용하여 p-value를 추정한다.

(p-value는 주어진 f검정통계량의 분포에서 관측된 값 이상으로 귀무가설이 발생할 확률을 나타낸다.)

4.p-value가 유의수준보다 작다면, 귀무가설을 기각하고 대립가설을 채택한다. (그룹 간의 평균에 통계적으로 유의한 차이가 있다.)

*단, p-value가 유의수준을 넘어선다고 해서 귀무가설이 참이라고 말할 수는 없음 (확률 추정치이기 때문, 주의해야함)

처음 공부했을 때 제일 헷갈렸던 부분이 왜 분산분석인데 평균에 차이가 있는지 궁금할 때 사용하지 였다.

위에 적힌 내용으로 이해했을 때 가장 명확하게 이해가 되었었는데, 도움이 되었으면 좋겠다!

<참고문헌>

[통계] 다중공선성(Multicollinearity)의 개념부터 검증까지 (0)	2023.11.22
[통계] 카이제곱검정 (교차분석 - 적합도검정, 독립성검정, 동질성 검정) (0)	2022.09.07

댓글