분류 전체보기109 [통계] ANOVA 분산분석 ANOVA 분석은 6시그마 시간에 주구장창 배웠었는데, 너무 생산/품질(불량 등)쪽에 특화해서 배웠더니 기존 업무에 어떻게 활용해야 할지 감이 잘 오지 않아 다시금 정리해보았다. 1. 분산분석(ANOVA)이란? - ANOVA, ANalysis Of VAriance - 세 집단 이상의 평균을 비교하는데 사용 * t-test가 두 집단 간 평균차이를 파악하는 데에 적용되는 반면, ANOVA는 세 집단 이상의 집단 평균치의 차이를 검정 * 다수 집단 비교를 할 때, t-test를 사용할수도 있지만, 다중검정문제로 인해 1종 오류가 증가하게 됨 - 집단의 평균들이 멀리 떨어져 분산이 크면 클수록, 집단간의 평균들이 서로 다르기 때문이다. .따라서 평균.. 통계/통계학 Statics 2023. 5. 25. [ML] ChatGPT로 알아보는 LightGBM datarobot으로 모델링을 진행하면서, 모델 별 기본 원리와 어떤 특징을 가지고 있는지 알기 위해 챗 지피티와 함께 공부해보았다. 우선은 그 중 LightGBM에 대해 알아보았다! LightGBM (Light Gradient Boosting Machine) - GOSS, EFB라는 새로운 알고리즘을 통해서 데이터 셋의 크기를 줄이고 수행 속도를 큰 폭으로 높임 i. GOSS : 데이터셋의 샘플 수를 줄이는 알고리즘 (축소한 데이터셋이라도 어느 수준 이상으로 차이가 발생하지 않는다) ii. EFB : 데이터셋의 Feature 수를 줄이는 알고리즘 ( 상호 배타적인 변수들을 하나의 bucket으로 묶어서 줄이는 방식) - Tree 기반 학습 알고리즘 - 수직적으로 확장되는 leaf-wise로 level-.. 통계/머신러닝 MachineLearning 2023. 5. 12. [Git] 뉴비를 위한 Github 사용법 총정리 (CLI ver) 데이터 분석가지만, 서비스에 들어가는 알고리즘이나 로직개발을 하며 협업을 위해 Git사용이 꼭 필요해졌고 같은 초심자의 입장에서 Git을 사용하며 어려웠던 부분을 공유하면 좋을 것 같아 팀원분의 도움과, 여러 테크 블로그의 글을 서치해서 이 글을 작성합니다. *해당 문서는 GUI가 아닌 CLI 기준으로 작성되었습니다. 목차 0. Git과 Github의 차이점1. Github 기본 용어 정리 2. Github 기본 프로세스 3. Github로 로컬 저장소 생성부터 merge 까지 3-1. 로컬 저장소 생성 (일반적인 디렉토리를 git working tree로) 3-2. 로컬 저장소와 GIt Repository 연결 3-3. Staging Area에 파일을 올려보자 .. 깃허브 github 2023. 4. 14. [프로그래머스] 구명보트(Python) https://school.programmers.co.kr/learn/courses/30/lessons/42885 프로그래머스 코드 중심의 개발자 채용. 스택 기반의 포지션 매칭. 프로그래머스의 개발자 맞춤형 프로필을 등록하고, 나와 기술 궁합이 잘 맞는 기업들을 매칭 받으세요. programmers.co.kr ✔️문제 요약 1.구명보트에는 최대 2명이 탈 수 있음 2.무게 제한 limit, 사람의 몸무게를 담은 배열 people 3.모든 사람을 구출하기 위해 필요한 구명보트 개수의 최솟값을 return ✔️풀이 방법 1.Greedy 알고리즘은 당장 눈앞에 있는 것부터 해결하는 알고리즘 2.구명보트에 최대 2명이 탈 수 있는데, 그렇다면 우리는 가벼운 사람과 무거운 사람을 같이 태워야한다. - 제일 가벼.. 코딩테스트/코딩테스트 Python 2023. 4. 6. [ML] Target Leakage / Data Leakage (데이터 누수) data robot 교육을 들으며, Target Leakage 개념을 알게 되었다. 요약하면 모델을 사용하여 예측하려는 시점에 실제로 값을 사용할 수 없는 컬럼 은 모델에 누출을 유발할 수 있다. 데이터 로봇은 Stacked Pred를 통해 앙상블 시 Target leakage를 방지할 수 있게 함 이 내용이었다. Tarkge Leakage 개념에 대해서 가장 잘 이해됐던 것이 바로 이 예시이다. 날짜 오늘 온도 내일의 습도 내일 온도 (예측값) 2023-03-03 13'C 48% 13'C 2023-03-04 12'C 20% 14'C 2023-03-05 16'C 61% 12'C 겉보기엔 아무 이상 없어 보이는 데이터지만, 내일의 온도를 예측하기 위한 컬럼으로 오늘온도와 내일의 습도가 사용되는데, 예측하는.. 통계/머신러닝 MachineLearning 2023. 3. 3. [스크랩] 빅쿼리 쿼리량 관리 https://burning-dba.tistory.com/148 스크랩 2023. 2. 27. [Python] 파이썬에서 빅쿼리 불러오기 ✔️ 참고 자료Python BigQuery 연동하기 Python BigQuery 연동하기빅쿼리 데이터를 파이썬 데이터프레임으로 불러오기wooiljeong.github.io ✔️ pip install google-cloud-bigquery 실행 시, 오류 사항 해결 참고 자료grpcio 다운로드 에러 ERROR: Failed wheel for grpciopip install grpcio에서 멈출 때 - CodeThief다운로드를 하다보면, terminal에서 경로와 함께 해당 파일이 존재하지 않아 다운로드를 못한다고 나올 수 있는데, 이 경우 다른 환경 변수에서 해당 파일을 복사하여 오류가 뜬 경로에 파일을 붙혀넣기 해주면 해결된다. from google.cloud import bigqueryfrom .. 파이썬 Python 2023. 2. 15. [BigQuery] 중첩된 필드 조회 (event_params.key.value) 맨날 postgresql이나 MySQL만 쓰다가 빅쿼리를 처음 써보니 생소한 데이터 형식에 쿼리를 치자마자 오류를 만날 수 있었다. 난 단지 이걸 불러오고 싶어서 단순히 저걸 셀렉트해왔지.. 하지만 GA의 데이터 구조는 약간 달라서 쿼리가 실행되지 않았다 ㅜㅜ SELECT event_params.value.string_value FROM `dataset.tablename.events_20230118` LIMIT 1000 GA는 다음과 같이 계층형 구조로 이루어져있어서,위처럼 쿼리를 날리면 위같은 에러가 뜬다 . record 타입를 가진 필드가 repeated 모드(array) 까지 있어서 hits의 자식인 hits.page 필드는 select 쿼리가 안된다. struct 타입 + array 타입 (인용 .. 데이터베이스/SQL 2023. 1. 19. [로스트아크] 게임에서 맞은 새해 제야의 종소리를 듣고 공지가 올라왔다길래 컴퓨터를 켰다. 나는 작년 크리스마스의기적 이벤트 시작때 유입되었는데, 처음 친오빠랑 큰이고바바 작은 이고바바 아바타를 입고 스샷을 찍으면서 엄청 좋아했었던 기억이 아직도 생생하다. 게임이 정말 낭만적이구나 라고 생각했었는데 오늘 똑같은 기분이 들었던 것 같다. 올해 해돋이를 로아에서 보게될줄 몰랐는데.... 이게 뭐라고 감동적인지 모르겠네..길게 주절주절 쓰다가 다 줄여버렸는데, 2023년엔 모두 좋은 일만 가득했으면 좋겠다. 탱크/게임이야기 2023. 1. 1. [데이터 분석] 데이터 분석 실무 용어 정리 CTR (Click-through-rate) -버튼 클릭 건수 / 홈페이지 접속 건수 -PV 전환율을 사용하는 케이스 PV (Page View) -페이지 뷰 -페이지가 표시된 횟수 -PV가 높다는 것은 홈페이지에 둘러볼 콘텐츠가 많다는 것 -여러 개의 팝업창을 띄우거나 UI가 너무 복잡해 특정 컨텐츠를 이용하기 위해서 어쩔 수 없이 여러 페이지를 거쳐서 이용할 때도 높아질 수 있음 CPC (Cost Per Click) -클릭 1번당 비용 CPM (Cost Per Mile) -1000번 노출 당 비용 CPA (Cost Per Action) -내가 원하는 사용자의 액션(회원가입,설치)을 하게 하는데 사용된 비용 CTP(Click-through-probabilty) -클릭한 Unique 사용자의 수 / 홈페이.. 데이터 분석/방법론 2022. 12. 20. [데이터 분석] 로그 데이터란? ✔️로그란 ? - 연속적인 데이터의 기록 , 즉 서비스나 시스템 가동 시 발생되는 이벤트의 기록- 보통의 우리가 보는 데이터는 행,열 형태로 되어있는 RDB지만, 로그 데이터는 JSON, CSV, TSV와 같은 비정형 텍스트로 들어온다. ✔️로그 데이터의 분석 게임분야에 대해 로그 데이터를 분석한 글이 있어 대신 첨부한다. https://datadoctorblog.com/2022/03/24/Py-Preprocessing-user-root-log/ Py) 전처리 - 게임 로그데이터 처리아이템 획득과 관련된 사용자의 게임 로그 데이터를 정제하는 예시를 알아본다.datadoctorblog.com해당 글을 읽어보면, 로그는 분석하는 것도 중요하지만 설계하는 것 또한 중요함을 느낄 수 있다. 필수 로그를 빠뜨리.. 데이터 분석/방법론 2022. 12. 16. [ML] 지도학습, 비지도학습, 강화학습 머신러닝은 크게 지도 학습 / 비지도 학습/ 강화 학습으로 나눌 수 있다. 이번 포스팅에서는 지도학습, 비지도학습, 강화학습에 대한 개념과 차이, 해당 알고리즘에 대해 간략하게 소개하겠습니다. 지도학습 ✔️정답이 있는 데이터를 활용해 데이터를 학습 위 그림처럼 토끼 사진에 토끼라고 라벨링된 데이터와, 판다사진에 판다라벨링이 되어있는 데이터를 학습시키면, 토끼사진을 넣었을 때 토끼라는 정답을 알려주는 것이 지도학습이다. ✔️ 종류 1) 분류 (Classification) : 주어진 데이터를 클래스 별로 구별해 내는 과정 : 데이터와 데이터의 레이블 값을 학습시키고, 데이터가 주어졌을 때 학습된 모델을 통해 어느 범주에 속한 데이터인지 판단하고 예측 1️⃣ 로지스틱 회귀 : 연속형 변수를 예측하는 선형 회귀.. 통계/머신러닝 MachineLearning 2022. 11. 28. 이전 1 ··· 4 5 6 7 8 9 10 다음