ANOVA 분석은 6시그마 시간에 주구장창 배웠었는데, 너무 생산/품질(불량 등)쪽에 특화해서 배웠더니 기존 업무에 어떻게 활용해야 할지 감이 잘 오지 않아 다시금 정리해보았다.
1. 분산분석(ANOVA)이란?
- ANOVA, ANalysis Of VAriance
- 세 집단 이상의 평균을 비교하는데 사용
* t-test가 두 집단 간 평균차이를 파악하는 데에 적용되는 반면, ANOVA는 세 집단 이상의 집단 평균치의 차이를 검정
* 다수 집단 비교를 할 때, t-test를 사용할수도 있지만, 다중검정문제로 인해 1종 오류가 증가하게 됨
< 왜? 평균 차이를 비교하는데 분산이 개념을 활용할까? >
- 집단의 평균들이 멀리 떨어져 분산이 크면 클수록, 집단간의 평균들이 서로 다르기 때문이다.
.따라서 평균끼리의 차이도 커진 것을 확인할 수 있다. 이 처럼 분산의 차이로 평균의 차이를 유추할 수 있어, 분산분석을 통해 집단끼리의 평균 차이를 검정할 수 있는 것이다. 때문에 검정 통계량 F를 구하는 방법또한 집단간 분산 / 집단내 분산 인것 !
(집단 평균들 간의 분산이 크면 클수록 , 집단 내 분산은 작으면 작을수록 평균의 차이가 분명해진다)
< 분산 분석에 필요한 3가지 가정 >
1. 정규성 가정 : 각 그룹에 있는 데이터는 정규분포의 형태를 가져야 한다.
(단, 데이터가 아주 많은 경우에는 정규성을 가지지 않아도 괜찮다)
2. 등분산 가정 : 각 그룹의 분산은 서로 같은 분산을 가져야 한다.
(그룹간의 데이터의 수가 비슷하고 어느 두 그룹 간의 분산의 비가 모두 4를 넘지 않는 경우에는 등분산 가정을 만족하지 않아도 괜찮다)
3. 독립성 가정 : 각 그룹에 대해서 관찰은 서로 독립적이어서, 그룹간에 서로 영향을 주지 않아야 한다.
2 . F 검정
이제 분산분석에 대한 원리는 이해했다. 그렇다면 이 세 집단의 평균이 정말로 차이가 있는지는 어떻게 확신할 수 있을까?
1. 이를 검정하기 위해 귀무가설과 대립가설을 세운다.
귀무가설 H0 : 여러 그룹의 평균이 동일하다
대립가설 H1 : 여러 그룹의 평균이 동일하지는 않다.
2. 위에서 언급했듯이 F검정통계값을 구한다.
3. 계산된 F 검정통계량을 사용하여 p-value를 추정한다.
(p-value는 주어진 f검정통계량의 분포에서 관측된 값 이상으로 귀무가설이 발생할 확률을 나타낸다.)
4.p-value가 유의수준보다 작다면, 귀무가설을 기각하고 대립가설을 채택한다. (그룹 간의 평균에 통계적으로 유의한 차이가 있다.)
*단, p-value가 유의수준을 넘어선다고 해서 귀무가설이 참이라고 말할 수는 없음 (확률 추정치이기 때문, 주의해야함)
처음 공부했을 때 제일 헷갈렸던 부분이 왜 분산분석인데 평균에 차이가 있는지 궁금할 때 사용하지 였다.
위에 적힌 내용으로 이해했을 때 가장 명확하게 이해가 되었었는데, 도움이 되었으면 좋겠다!

<참고문헌>
https://chukycheese.github.io/statistics/anova/
'통계 > 통계학 Statics' 카테고리의 다른 글
[통계] 다중공선성(Multicollinearity)의 개념부터 검증까지 (0) | 2023.11.22 |
---|---|
[통계] 카이제곱검정 (교차분석 - 적합도검정, 독립성검정, 동질성 검정) (0) | 2022.09.07 |
댓글