통계/통계학 Statics

[통계] ANOVA 분산분석

sseozytank 2023. 5. 25.

ANOVA 분석은 6시그마 시간에 주구장창 배웠었는데, 너무 생산/품질(불량 등)쪽에 특화해서 배웠더니 기존 업무에 어떻게 활용해야 할지 감이 잘 오지 않아 다시금 정리해보았다. 

 

1. 분산분석(ANOVA)이란? 

 - ANOVA, ANalysis Of VAriance

 -  세 집단 이상의 평균을 비교하는데 사용

 * t-test가 두 집단 간 평균차이를 파악하는 데에 적용되는 반면, ANOVA는 세 집단 이상의 집단 평균치의 차이를 검정  

 * 다수 집단 비교를 할 때, t-test를 사용할수도 있지만, 다중검정문제로 인해 1종 오류가 증가하게 됨 

 

< 왜? 평균 차이를 비교하는데 분산이 개념을 활용할까? > 

- 집단의 평균들이 멀리 떨어져 분산이 크면 클수록, 집단간의 평균들이 서로 다르기 때문이다.

.따라서 평균끼리의 차이도 커진 것을 확인할 수 있다.  이 처럼 분산의 차이로 평균의 차이를 유추할 수 있어, 분산분석을 통해 집단끼리의 평균 차이를 검정할 수 있는 것이다. 때문에 검정 통계량 F를 구하는 방법또한 집단간 분산 / 집단내 분산 인것 ! 

(집단 평균들 간의 분산이 크면 클수록 , 집단 내 분산은 작으면 작을수록 평균의 차이가 분명해진다) 

 

< 분산 분석에 필요한 3가지 가정 >

1. 정규성 가정 : 각 그룹에 있는 데이터는 정규분포의 형태를 가져야 한다. 

(단, 데이터가 아주 많은 경우에는 정규성을 가지지 않아도 괜찮다) 

2. 등분산 가정 : 각 그룹의 분산은 서로 같은 분산을 가져야 한다. 

(그룹간의 데이터의 수가 비슷하고 어느 두 그룹 간의 분산의 비가 모두 4를 넘지 않는 경우에는 등분산 가정을 만족하지 않아도 괜찮다) 

3. 독립성 가정 : 각 그룹에 대해서 관찰은 서로 독립적이어서, 그룹간에 서로 영향을 주지 않아야 한다. 

 

2 . F 검정

이제 분산분석에 대한 원리는 이해했다. 그렇다면 이 세 집단의 평균이 정말로 차이가 있는지는 어떻게 확신할 수 있을까? 

1. 이를 검정하기 위해 귀무가설과 대립가설을 세운다. 

귀무가설 H0 : 여러 그룹의 평균이 동일하다 

대립가설 H1 : 여러 그룹의 평균이 동일하지는 않다. 

 

2. 위에서 언급했듯이 F검정통계값을 구한다. 

 

 

https://angeloyeo.github.io/2020/02/29/ANOVA.html

 

3. 계산된 F 검정통계량을 사용하여 p-value를 추정한다.

(p-value는 주어진 f검정통계량의 분포에서 관측된 값 이상으로 귀무가설이 발생할 확률을 나타낸다.) 

 

4.p-value가 유의수준보다 작다면, 귀무가설을 기각하고 대립가설을 채택한다. (그룹 간의 평균에 통계적으로 유의한 차이가 있다.) 

*단, p-value가 유의수준을 넘어선다고 해서 귀무가설이 참이라고 말할 수는 없음 (확률 추정치이기 때문, 주의해야함) 

 


처음 공부했을 때 제일 헷갈렸던 부분이 왜 분산분석인데 평균에 차이가 있는지 궁금할 때 사용하지 였다. 

위에 적힌 내용으로 이해했을 때 가장 명확하게 이해가 되었었는데, 도움이 되었으면 좋겠다! 

 

 

 

<참고문헌>

https://chukycheese.github.io/statistics/anova/ 

https://socialinnovation.tistory.com/142

https://diseny.tistory.com/entry/%EB%B6%84%EC%82%B0%EB%B6%84%EC%84%9DANOVA%EB%A5%BC-%EC%9D%B4%ED%95%B4%ED%95%98%EB%8A%94-%EA%B0%80%EC%9E%A5-%EC%A2%8B%EC%9D%80-%EB%B0%A9%EB%B2%951

댓글