통계/머신러닝 MachineLearning5 [ML] 주성분 분석 PCA와 차원의 저주 모바일 게임 오픈을 앞두고, 유저 클러스터링을 실시하기 위해 코드를 작성해두고 있다. 그런데, log에서 찾을 수 있는 데이터가 너~무 많다. 난 이 중에서 어떤 변수를 사용해서 클러스터링을 실시해야할까? 우선 상관관계 분석을 통해 다중공선성을 유발할 것 같은 변수나 (승률과 승리 수) 우리 게임의 핵심 유저를 판가름 하는데 필요 없다고 생각하는 정보 (닉네임 변경 횟수) 등은 과감하게 추려준다. 근데 이 다음은 이제 뭘해야할지 모르겠다. 10개 정도가 추려졌는데 그냥 넣고 모델링을 돌려볼려자니 어디선가 들어본 '차원의 저주'가 내 머릿속을 스쳐간다. (이놈 때문에 내 첫 데이터 분석가 면접에서 어버버 했던 적이 있다.) 차원의 저주 (Curse of dimensionality) 샘플은 많을 수록 좋다... 통계/머신러닝 MachineLearning 2023. 11. 20. [ML] ChatGPT로 알아보는 LightGBM datarobot으로 모델링을 진행하면서, 모델 별 기본 원리와 어떤 특징을 가지고 있는지 알기 위해 챗 지피티와 함께 공부해보았다. 우선은 그 중 LightGBM에 대해 알아보았다! LightGBM (Light Gradient Boosting Machine) - GOSS, EFB라는 새로운 알고리즘을 통해서 데이터 셋의 크기를 줄이고 수행 속도를 큰 폭으로 높임 i. GOSS : 데이터셋의 샘플 수를 줄이는 알고리즘 (축소한 데이터셋이라도 어느 수준 이상으로 차이가 발생하지 않는다) ii. EFB : 데이터셋의 Feature 수를 줄이는 알고리즘 ( 상호 배타적인 변수들을 하나의 bucket으로 묶어서 줄이는 방식) - Tree 기반 학습 알고리즘 - 수직적으로 확장되는 leaf-wise로 level-.. 통계/머신러닝 MachineLearning 2023. 5. 12. [ML] Target Leakage / Data Leakage (데이터 누수) data robot 교육을 들으며, Target Leakage 개념을 알게 되었다. 요약하면 모델을 사용하여 예측하려는 시점에 실제로 값을 사용할 수 없는 컬럼 은 모델에 누출을 유발할 수 있다. 데이터 로봇은 Stacked Pred를 통해 앙상블 시 Target leakage를 방지할 수 있게 함 이 내용이었다. Tarkge Leakage 개념에 대해서 가장 잘 이해됐던 것이 바로 이 예시이다. 날짜 오늘 온도 내일의 습도 내일 온도 (예측값) 2023-03-03 13'C 48% 13'C 2023-03-04 12'C 20% 14'C 2023-03-05 16'C 61% 12'C 겉보기엔 아무 이상 없어 보이는 데이터지만, 내일의 온도를 예측하기 위한 컬럼으로 오늘온도와 내일의 습도가 사용되는데, 예측하는.. 통계/머신러닝 MachineLearning 2023. 3. 3. [ML] 지도학습, 비지도학습, 강화학습 머신러닝은 크게 지도 학습 / 비지도 학습/ 강화 학습으로 나눌 수 있다. 이번 포스팅에서는 지도학습, 비지도학습, 강화학습에 대한 개념과 차이, 해당 알고리즘에 대해 간략하게 소개하겠습니다. 지도학습 ✔️정답이 있는 데이터를 활용해 데이터를 학습 위 그림처럼 토끼 사진에 토끼라고 라벨링된 데이터와, 판다사진에 판다라벨링이 되어있는 데이터를 학습시키면, 토끼사진을 넣었을 때 토끼라는 정답을 알려주는 것이 지도학습이다. ✔️ 종류 1) 분류 (Classification) : 주어진 데이터를 클래스 별로 구별해 내는 과정 : 데이터와 데이터의 레이블 값을 학습시키고, 데이터가 주어졌을 때 학습된 모델을 통해 어느 범주에 속한 데이터인지 판단하고 예측 1️⃣ 로지스틱 회귀 : 연속형 변수를 예측하는 선형 회귀.. 통계/머신러닝 MachineLearning 2022. 11. 28. [ML] 회귀 모델 성능 평가 지표 개념과 파이썬 코드 (MAE,MSE,RMSE,R2,MAPE,MPE) 회귀모델을 만들면 이에 대한 평가가 필요한데, 관련 방법으론는 MAE , MSE, RMSE,RMSE, R2, MAPE 등이 있다. MAE (Mean Absolute Error) 평균 절대 오차 MAE모든 절대 오차의 평균언제?약간의 이상치가 있을 때 그 이상치의 영향을 적게 받으면서 모델을 만들고자 할 때, MAE를 보며 판단판단값이 낮을수록 좋다. 단점실제 정답보다 낮게 예측한 것인지 , 높게 예측한지는 알 수 없고 , 스케일에 영향을 받는다. from sklearn.metrics import mean_absolute_errormean_absolute_error(y_test, y_pred) MSE (Mean Squared Error) 평균 절대 오차 MSE (정답값 - 예측값)^2 의 평균 언제?이.. 통계/머신러닝 MachineLearning 2022. 10. 13. 이전 1 다음