통계9 [통계] 게임 데이터에서의 파레토법칙과 롱테일 법칙 (a.k.a. 고래 유저) 아래는 3월 내 블로그의 글별 조회수인데, 이걸 보면서 오랜만에 학교에서 배웠던 개념이 하나 생각나서 정리해본다. 식스시그마인지 통계적품질관리인지 둘중 하나의 수업에서 배웠던 것 같다.. 그럼 문제의 조회수를 살펴보자. 이렇게 차트화를 시켜보면 좀 더 눈에 확 들어오는데, 깃허브 사용법이 TOP10 조회수 중 약 60%를 차지하고 있다. TOP1인 깃허브 사용법과 TOP2인 깃허브 브랜치 글 두개의 점유율을 합치면 약 75%.상위 20%가 전체의 80%를 생산해낸다는 법칙인 파레토법칙이 떠오른다. 1.파레토법칙이란?상위 20%가 전체 생산의 80%를 해낸다는 법칙. 80:20 법칙 (80:20 Rule) 또는 20:80 법칙이라고 함 2.그럼 롱테일 법칙은 뭔데?롱테일 법칙이란, 파레토 법칙의 반대라.. 통계 2025. 3. 24. [통계] 다중공선성(Multicollinearity)의 개념부터 검증까지 | 다중공선성 Multicollinearity 통계학의 회귀분석에서 독립변수들 간에 강한 상관관계가 나타나는 문제. 왜 문제일까? 회귀분석은 기본적으로 피처 간의 '독립성'을 전제하기 때문에, 각 피처간의 상관관계가 높으면 분석에 부정적인 영향을 미친다. 독립변수가 서로 의존하게 되면 보통 over-fitting문제가 발생한다. 어떻게 찾고 해결할까? 상관관계가 높은 변수를 찾아거나, VIF 검정을 통해 다중공선성을 유발하는 변수를 찾고, 1.제거하거나, 파생변수로 만들거나 2.PCA 기법 사용하여 서로 독립인 새로운 변수들을 생성 🔽 [ML] 주성분 분석 PCA와 차원의 저주 모바일 게임 오픈을 앞두고, 유저 클러스터링을 실시하기 위해 코드를 작성해두고 있다. 그런데, log에서 찾을 수 있는 데이터가.. 통계/통계학 Statics 2023. 11. 22. [ML] 주성분 분석 PCA와 차원의 저주 모바일 게임 오픈을 앞두고, 유저 클러스터링을 실시하기 위해 코드를 작성해두고 있다. 그런데, log에서 찾을 수 있는 데이터가 너~무 많다. 난 이 중에서 어떤 변수를 사용해서 클러스터링을 실시해야할까? 우선 상관관계 분석을 통해 다중공선성을 유발할 것 같은 변수나 (승률과 승리 수) 우리 게임의 핵심 유저를 판가름 하는데 필요 없다고 생각하는 정보 (닉네임 변경 횟수) 등은 과감하게 추려준다. 근데 이 다음은 이제 뭘해야할지 모르겠다. 10개 정도가 추려졌는데 그냥 넣고 모델링을 돌려볼려자니 어디선가 들어본 '차원의 저주'가 내 머릿속을 스쳐간다. (이놈 때문에 내 첫 데이터 분석가 면접에서 어버버 했던 적이 있다.) 차원의 저주 (Curse of dimensionality) 샘플은 많을 수록 좋다... 통계/머신러닝 MachineLearning 2023. 11. 20. [통계] ANOVA 분산분석 ANOVA 분석은 6시그마 시간에 주구장창 배웠었는데, 너무 생산/품질(불량 등)쪽에 특화해서 배웠더니 기존 업무에 어떻게 활용해야 할지 감이 잘 오지 않아 다시금 정리해보았다. 1. 분산분석(ANOVA)이란? - ANOVA, ANalysis Of VAriance - 세 집단 이상의 평균을 비교하는데 사용 * t-test가 두 집단 간 평균차이를 파악하는 데에 적용되는 반면, ANOVA는 세 집단 이상의 집단 평균치의 차이를 검정 * 다수 집단 비교를 할 때, t-test를 사용할수도 있지만, 다중검정문제로 인해 1종 오류가 증가하게 됨 - 집단의 평균들이 멀리 떨어져 분산이 크면 클수록, 집단간의 평균들이 서로 다르기 때문이다. .따라서 평균.. 통계/통계학 Statics 2023. 5. 25. [ML] ChatGPT로 알아보는 LightGBM datarobot으로 모델링을 진행하면서, 모델 별 기본 원리와 어떤 특징을 가지고 있는지 알기 위해 챗 지피티와 함께 공부해보았다. 우선은 그 중 LightGBM에 대해 알아보았다! LightGBM (Light Gradient Boosting Machine) - GOSS, EFB라는 새로운 알고리즘을 통해서 데이터 셋의 크기를 줄이고 수행 속도를 큰 폭으로 높임 i. GOSS : 데이터셋의 샘플 수를 줄이는 알고리즘 (축소한 데이터셋이라도 어느 수준 이상으로 차이가 발생하지 않는다) ii. EFB : 데이터셋의 Feature 수를 줄이는 알고리즘 ( 상호 배타적인 변수들을 하나의 bucket으로 묶어서 줄이는 방식) - Tree 기반 학습 알고리즘 - 수직적으로 확장되는 leaf-wise로 level-.. 통계/머신러닝 MachineLearning 2023. 5. 12. [ML] Target Leakage / Data Leakage (데이터 누수) data robot 교육을 들으며, Target Leakage 개념을 알게 되었다. 요약하면 모델을 사용하여 예측하려는 시점에 실제로 값을 사용할 수 없는 컬럼 은 모델에 누출을 유발할 수 있다. 데이터 로봇은 Stacked Pred를 통해 앙상블 시 Target leakage를 방지할 수 있게 함 이 내용이었다. Tarkge Leakage 개념에 대해서 가장 잘 이해됐던 것이 바로 이 예시이다. 날짜 오늘 온도 내일의 습도 내일 온도 (예측값) 2023-03-03 13'C 48% 13'C 2023-03-04 12'C 20% 14'C 2023-03-05 16'C 61% 12'C 겉보기엔 아무 이상 없어 보이는 데이터지만, 내일의 온도를 예측하기 위한 컬럼으로 오늘온도와 내일의 습도가 사용되는데, 예측하는.. 통계/머신러닝 MachineLearning 2023. 3. 3. [ML] 지도학습, 비지도학습, 강화학습 머신러닝은 크게 지도 학습 / 비지도 학습/ 강화 학습으로 나눌 수 있다. 이번 포스팅에서는 지도학습, 비지도학습, 강화학습에 대한 개념과 차이, 해당 알고리즘에 대해 간략하게 소개하겠습니다. 지도학습 ✔️정답이 있는 데이터를 활용해 데이터를 학습 위 그림처럼 토끼 사진에 토끼라고 라벨링된 데이터와, 판다사진에 판다라벨링이 되어있는 데이터를 학습시키면, 토끼사진을 넣었을 때 토끼라는 정답을 알려주는 것이 지도학습이다. ✔️ 종류 1) 분류 (Classification) : 주어진 데이터를 클래스 별로 구별해 내는 과정 : 데이터와 데이터의 레이블 값을 학습시키고, 데이터가 주어졌을 때 학습된 모델을 통해 어느 범주에 속한 데이터인지 판단하고 예측 1️⃣ 로지스틱 회귀 : 연속형 변수를 예측하는 선형 회귀.. 통계/머신러닝 MachineLearning 2022. 11. 28. [ML] 회귀 모델 성능 평가 지표 개념과 파이썬 코드 (MAE,MSE,RMSE,R2,MAPE,MPE) 회귀모델을 만들면 이에 대한 평가가 필요한데, 관련 방법으론는 MAE , MSE, RMSE,RMSE, R2, MAPE 등이 있다. MAE (Mean Absolute Error) 평균 절대 오차 MAE모든 절대 오차의 평균언제?약간의 이상치가 있을 때 그 이상치의 영향을 적게 받으면서 모델을 만들고자 할 때, MAE를 보며 판단판단값이 낮을수록 좋다. 단점실제 정답보다 낮게 예측한 것인지 , 높게 예측한지는 알 수 없고 , 스케일에 영향을 받는다. from sklearn.metrics import mean_absolute_errormean_absolute_error(y_test, y_pred) MSE (Mean Squared Error) 평균 절대 오차 MSE (정답값 - 예측값)^2 의 평균 언제?이.. 통계/머신러닝 MachineLearning 2022. 10. 13. [통계] 카이제곱검정 (교차분석 - 적합도검정, 독립성검정, 동질성 검정) 1. 카이제곱분포란? k개의 서로 독립적인 표준 정규 확률 변수를 각각 제곱한 다음 합해서 얻어지는 분포 - 즉, 주사위를 던져서 나온 숫자들이 우연히 나온 것인지, 조작에 의한 것인지를 판단할 때 쓰는 분포 - 예를 들어 우리가 주사위를 공정하게 던졌다면 시행횟수가 무한대로 수렴할 수록 확률이 동일하게 나올 것이지만, 조작된 주사위라면 그렇지 않을 것이다. 한 숫자에서 유난히 나오는 횟수가 많다면 조작되었다는 가능성을 시사할 수 있다. - 카이제곱 검정은 주어진 데이터와 기대되는 분포 사이의 차이를 측정하여 이러한 가설을 테스트하며, 이 때 사용하는 통계량이 바로 카이제곱 통계량이다. 카이제곱 통계량(χ²) = Σ [(실제 관측값 - 기대되는 값)² / 기대되는 값] - 카이제곱 통계량을 계산한 후, .. 통계/통계학 Statics 2022. 9. 7. 이전 1 다음