파이썬 Python7 [Python] 파이썬 구글 번역 API로 리뷰 데이터 번역하기 빅쿼리에서도 Translate ML을 지원해서 빅쿼리 데일리 잡으로 번역을 하려 했더니 위치 문제로 사용이 불가하다고 한다. (https://cloud.google.com/bigquery/docs/locations?hl=ko eu multi-region or us multi-region 만 지원하는 듯) 그래서 Python에서 바로 번역 처리 후 ETL 하기로 결정하고, 번역하는 코드만 짜서 엔지니어분께 전달드렸다. 그래서 오늘 포스팅은 다국어로 들어오는 리뷰 데이터 번역하기 1.데이터 셋 만들기실제 리뷰 데이터로 글을 쓸 수는 없으니 챗 지피티로 간단한 데이터 프레임을 생성했다. import pandas as pddata = { 'date': ['2024-01-01', '2024-01-05',.. 파이썬 Python 2024. 6. 20. [Python] 파이썬으로 하는 시계열 데이터 분해 (Seasonal_decompose) 파이썬으로 시계열 분해를 해보자! 샘플 데이터로는 애플의 주가 데이터를 사용해볼 것이다. 연습용으로 데이터 사용할 사람만 샘플 데이터 다운로드 #패키지가 없는 사람만 pip install yfinanceimport pandas as pdimport yfinance as yf# 시작 날짜와 끝 날짜 지정start_date = '2020-01-01'end_date = '2024-04-24'# 애플 주식의 데이터를 불러오기aapl = yf.download('AAPL', start=start_date, end=end_date)# 결과 출력aapl.head() 받아오면, 아래와 같이 멀티 인덱스로 개장 시, 고점, 저점 ,폐장 시, 조정 종가, 거래량 데이터가 받아진 것을 확인할.. 파이썬 Python 2024. 4. 24. [Python] 파이썬 - 구글 스프레드 시트 연동하기 파이썬으로 구글 스프레드 시트를 땡겨오면 파이썬을 통해 데이터 불러오기 뿐만 아니라 파이썬에서 구글 스프레드 시트로 데이터를 넣거나 삭제할 수도 있어서 굉장히 편하다. 처음 설정만 해두면 방법도 쉬운 편이기 때문에 한번 같이 연동해보도록 하자. 1.구글 클라우드 프로젝트 및 서비스 계정 생성 1. 서비스 이용 동의 일단 아래 구글 클라우드 플랫폼 링크를 클릭해서, 서비스 약관을 동의 체크 해준다. https://console.cloud.google.com/apis/dashboard Google 클라우드 플랫폼 로그인 Google 클라우드 플랫폼으로 이동 accounts.google.com 2. 프로젝트 만들기 API 및 서비스 ( 동의 및 계속하기를 누르면 자동으로 이 창에 머무르게 됨) > 사용자 인증.. 파이썬 Python 2024. 3. 18. [Python] linux 환경에서 DB 계정 정보를 숨기고, mssql을 연동해보자. 사내 코드를 공유할 수 있는 jupyter hub를 사용하고 있다. 실무자들은 직접 보지만, 관련자들은 PDF나 HTML로 보고있는데 이렇게 파일을 왔다갔다 하다가, 코드에 들어가 있는 DB 계정정보가 노출될 수 있다. 그렇기 때문에 DB 계정 정보를 숨겨두는 것이 반드시 필요하다. [ DB 계정 정보를 저장하고 숨기기 ] 1.리눅스 환경에서 Terminal을 열어주기 우리 jupyter hub는 linux ubuntu 환경이기 때문에, 여기서 Terminal을 열어준다. 2. DB 계정 정보를 담은 .env 생성 하고 .conf에 숨겨주자 *env와 .env의 차이점 더보기 env는 노출되는 것이고 .env는 숨김 처리 1) env로 생성했을 시 ls 쳤을 시 바로 노출 2) .env로 생성했을 때 숨.. 파이썬 Python 2023. 12. 4. [Python] 파이썬에서 빅쿼리 불러오기 ✔️ 참고 자료Python BigQuery 연동하기 Python BigQuery 연동하기빅쿼리 데이터를 파이썬 데이터프레임으로 불러오기wooiljeong.github.io ✔️ pip install google-cloud-bigquery 실행 시, 오류 사항 해결 참고 자료grpcio 다운로드 에러 ERROR: Failed wheel for grpciopip install grpcio에서 멈출 때 - CodeThief다운로드를 하다보면, terminal에서 경로와 함께 해당 파일이 존재하지 않아 다운로드를 못한다고 나올 수 있는데, 이 경우 다른 환경 변수에서 해당 파일을 복사하여 오류가 뜬 경로에 파일을 붙혀넣기 해주면 해결된다. from google.cloud import bigqueryfrom .. 파이썬 Python 2023. 2. 15. [Python] 파이썬 판다스 데이터 타입 (Data Type) ✔️Python Pandas의 데이터 타입 int64 : 정수형float64 : 실수형bool : 부울형datetime64 : 날짜표현object : 문자열 or 복합형 ✔️파이썬 판다스 데이터 타입 출력 타이타닉 데이터의 데이터 타입을 알아보자. 1.info 함수 사용 df.info() 2.dtypes 사용 #info와 달리 뒤에 ()가 붙지 않는다. df.dtypes ✔️데이터 타입 변경 #특정 컬럼만 변경 df=df.astype({'Age': 'int' }) #전체 데이터 프레임 변경 df=df.astype(int) 파이썬 Python 2022. 9. 16. [Python] 파이썬 판다스 사분위수 활용 데이터 이상치 제거 | 이상치는 무엇이고, 왜 제거해야 하는 걸까? 이상치(특이치)란 다른 관측치와 크게 다른 데이터 포인트. 어떤 의사결정을 하는데 필요한 데이터를 분석할 경우 이상치에 의해 통계분석 결과가 바뀔 수 있기 때문에 치환하거나 제거하는 것이 좋다. (본문에서는 사분위수를 활용해 이상치를 제거하는 경우만 다룬다) - 유저 5명의 키가 (160,162,164,169,221)라면 평균 키가 175.2가되는 불상사가 발생한다! | 이상치는 어떻게 판단할까? 대표적인 방법으로 사분위수 기반 이상치 판단법이 있다. 사분위수 범위를 이용해서 구하는 방법이 있다. 25%(Q1)와 75%(Q3)를 기준으로 Q3-Q1의 범위를 구해준다. (IQR)이 후 상한선 (Q3+1.5IQR) , 하한선 (Q.. 파이썬 Python 2022. 9. 15. 이전 1 다음