통계/통계학 Statics3 [통계] 다중공선성(Multicollinearity)의 개념부터 검증까지 | 다중공선성 Multicollinearity 통계학의 회귀분석에서 독립변수들 간에 강한 상관관계가 나타나는 문제. 왜 문제일까? 회귀분석은 기본적으로 피처 간의 '독립성'을 전제하기 때문에, 각 피처간의 상관관계가 높으면 분석에 부정적인 영향을 미친다. 독립변수가 서로 의존하게 되면 보통 over-fitting문제가 발생한다. 어떻게 찾고 해결할까? 상관관계가 높은 변수를 찾아거나, VIF 검정을 통해 다중공선성을 유발하는 변수를 찾고, 1.제거하거나, 파생변수로 만들거나 2.PCA 기법 사용하여 서로 독립인 새로운 변수들을 생성 🔽 [ML] 주성분 분석 PCA와 차원의 저주 모바일 게임 오픈을 앞두고, 유저 클러스터링을 실시하기 위해 코드를 작성해두고 있다. 그런데, log에서 찾을 수 있는 데이터가.. 통계/통계학 Statics 2023. 11. 22. [통계] ANOVA 분산분석 ANOVA 분석은 6시그마 시간에 주구장창 배웠었는데, 너무 생산/품질(불량 등)쪽에 특화해서 배웠더니 기존 업무에 어떻게 활용해야 할지 감이 잘 오지 않아 다시금 정리해보았다. 1. 분산분석(ANOVA)이란? - ANOVA, ANalysis Of VAriance - 세 집단 이상의 평균을 비교하는데 사용 * t-test가 두 집단 간 평균차이를 파악하는 데에 적용되는 반면, ANOVA는 세 집단 이상의 집단 평균치의 차이를 검정 * 다수 집단 비교를 할 때, t-test를 사용할수도 있지만, 다중검정문제로 인해 1종 오류가 증가하게 됨 - 집단의 평균들이 멀리 떨어져 분산이 크면 클수록, 집단간의 평균들이 서로 다르기 때문이다. .따라서 평균.. 통계/통계학 Statics 2023. 5. 25. [통계] 카이제곱검정 (교차분석 - 적합도검정, 독립성검정, 동질성 검정) 1. 카이제곱분포란? k개의 서로 독립적인 표준 정규 확률 변수를 각각 제곱한 다음 합해서 얻어지는 분포 - 즉, 주사위를 던져서 나온 숫자들이 우연히 나온 것인지, 조작에 의한 것인지를 판단할 때 쓰는 분포 - 예를 들어 우리가 주사위를 공정하게 던졌다면 시행횟수가 무한대로 수렴할 수록 확률이 동일하게 나올 것이지만, 조작된 주사위라면 그렇지 않을 것이다. 한 숫자에서 유난히 나오는 횟수가 많다면 조작되었다는 가능성을 시사할 수 있다. - 카이제곱 검정은 주어진 데이터와 기대되는 분포 사이의 차이를 측정하여 이러한 가설을 테스트하며, 이 때 사용하는 통계량이 바로 카이제곱 통계량이다. 카이제곱 통계량(χ²) = Σ [(실제 관측값 - 기대되는 값)² / 기대되는 값] - 카이제곱 통계량을 계산한 후, .. 통계/통계학 Statics 2022. 9. 7. 이전 1 다음