탱크의 데이터분석

스파크 Spark8

[Spark] PySpark에서 struct 구조 분해하기 [Spark] PySpark에서 explode 함수로 array구조 분해하기https://stackoverflow.com/questions/57811415/reading-a-nested-json-file-in-pyspark pyspark json을 read 하다가, 구조가 너무 복잡하게 read 되어서 분리하는데 애를 좀 먹었다. array는 쉬운데 struct 구조가 넘 어려웠다..sseozytank.tistory.com 전 포스팅에서, explode 함수로 array 구조를 펼쳤다. 그럼 이번엔 struct 구조의 데이터를 분해해보자. from pyspark.sql import functions as F# 스파크 세션 생성spark = SparkSession.builder \ .appName.. 스파크 Spark 2024. 5. 10.

[Spark] PySpark에서 explode 함수로 array구조 분해하기 https://stackoverflow.com/questions/57811415/reading-a-nested-json-file-in-pyspark pyspark json을 read 하다가, 구조가 너무 복잡하게 read 되어서 분리하는데 애를 좀 먹었다. array는 쉬운데 struct 구조가 넘 어려웠다..... 일단 array 구조 분해부터 explode로 해보자. from pyspark.sql import SparkSession# 스파크 세션 생성spark = SparkSession.builder \ .appName("Transform DataFrame") \ .getOrCreate()from pyspark.sql import functions as Fdata = [(['A', '.. 스파크 Spark 2024. 5. 10.

[Spark] Pyspark 데이터 전처리 단골 코드 (Pyspark Method ver.) 👆 목차를 활용하면 편하게 읽을 수 있다 (오른쪽에 목차가 같이 따라다녀요!)pandas와 비슷한 pyspark...! 하지만 묘하게 헷갈린다. 자주 쓰는 코드들을 정리해보자. 내가 만드는 코드집 우선 전처리편 👩‍🎨 1.컬럼명 변경 샘플 데이터 data = [ (5.1, 3.5, 1.4, 0.2, "Iris-setosa"), (4.9, 3.0, 1.4, 0.2, "Iris-setosa"), (4.7, 3.2, 1.3, 0.2, "Iris-setosa"), (4.6, 3.1, 1.5, 0.2, "Iris-setosa"), (5.0, 3.6, 1.4, 0.2, "Iris-setosa")]# DataFrame 생성df = spark.createDataFrame(data, [.. 스파크 Spark 2024. 4. 26.

[Spark] 원격 주피터 허브에서 로컬 Spark 세션 및 hdfs 불러오기 원격 주피터 허브에서, 로컬에서 띄운 스파크 세션을 불러오려면 이렇게 하면 된다. (단, 스파크 및 하둡이 모두 설치 및 환경변수 설정까지 완료되어 있다는 전제 하에) 흑흑 글에는 에러 발생했을 때 이렇게 하세요 라고 쉽게 적혀져 있지만, 이 에러 해결법들을 찾기 위해 챗지피티와 맞짱도 뜨고 스택 오버플로우와 죽마고우가 되며... 팀장님을 괴롭히고.... 아무튼 그런 슬픈 과정들이 계속 있었다. 1.Spark만 먼저 연결해보기 우선 spark 와 hadoop을 모두 실행 시켜 준다. (아래 경로는 본인에 맞게 수정) ~/hadoop/sbin/start-all.sh; ~/spark-3.5.1-bin-hadoop3/sbin/start-all.sh; jps으로 다 잘 켜졌는지 확인! jps 다 잘 실행되었다... 스파크 Spark 2024. 4. 17.

[Spark] 우분투(Ubuntu)에서 하둡(Hadoop)위에 Spark(스파크)를 올리고, jupyter notebook으로 열기 우분투 환경에서 하둡 설치를 마쳤다. [Hadoop] 우분투(Ubuntu)에서 하둡(Hadoop) 설치와 환경세팅 및 실행/중단 방법 ubuntu 환경에서 hadoop을 설치해보고, 사용해보자! 일단 가장 먼저 java 설치부터 스타트 1.JAVA 설치 1.java 설치 확인 java -version 나의 경우, 깔려있고 깔려있지 않은 사람들은 Command 'java' not found, but can sseozytank.tistory.com 그럼 이제 하둡 위에 스파크를 올려보고, jupyter notyebook 으로 열어보고, 아래 포스팅에서 올렸던 파일을 불러와서 간단한 pyspark 처리까지 해보도록 하겠다. [Hadoop] 우분투(Ubuntu)에서 HDFS에 파일 업로드 Hadoop을 설치했으.. 스파크 Spark 2024. 3. 29.

[Spark] Pyspark spark sql 사용하기 [Spark] Pyspark DataFrame Method 정리 데이터 분석가가 Pyspark를 쓰는 이유라하면, 역시 대용량의 데이터를 효율적으로 처리하기 위함이다. Pyspark는 pandas 같은 문법으로도, SQL같은 문법으로도 활용이 가능하다해서 데이터 가공을 여 sseozytank.tistory.com 앞선 포스팅으로 Pyspark의 DataFrame Method를 통해 DataFrame을 다루는 법 코드들에 대해 정리했다. spark는 SQL도 지원해줘서 Pyspark에서도 sql처럼 DataFrame을 다룰 수 있는데, 오늘 포스팅에선 해당 방법에 대해 적어보겠다. SQL이 내집처럼 편안한 나에겐 너무너무 소중한 기능이다. 근데 어렵지도 않다! 렛쯔고 (2024-04 +) pyspark로 .. 스파크 Spark 2024. 2. 20.

[Spark] Pyspark DataFrame Method 정리 데이터 분석가가 Pyspark를 쓰는 이유라하면, 역시 대용량의 데이터를 효율적으로 처리하기 위함이다. Pyspark는 pandas 같은 문법으로도, SQL같은 문법으로도 활용이 가능하다해서 데이터 가공을 여러가지 코드로 작성해보며 Pyspark를 익혀보려고 한다.예제 데이터는 참고 문헌 첫번째에 있는 블로그와 같은 데이터를 사용했다! 그럼 천천히 따라해보도록 하자. 👇 예제 데이터 👇 https://www.kaggle.com/datasets/mansoordaku/ckdisease 0.라이브러리 불러오기 import pyspark import pandas as pd from pyspark.sql import SparkSession from pyspark import SparkContext, SparkCo.. 스파크 Spark 2024. 2. 20.

[Spark] Apache Spark란? 1.Spark 의 등장 배경 [빅데이터] 1.하둡(Hadoop)이란? - HDFS, MapReduce, YARN 빅데이터 개념을 마스터하기 위해 시리즈를 작성해보기로 했다. 이번 빅데이터 시리즈 포스팅의 궁극적인 목적은 Hadoop -> Hive -> Spark -> Pyspark까지 마스터 하는 것. 하지만 내 머릿속엔 아무것도 sseozytank.tistory.com 우리는 앞서, 하둡에 대해 이해했다.하둡은 HDFS랑 MapReduce 두가지 핵심 요소를 가지고 있는데 (HDFS에서 데이터를 여러 노드에 분산하여 저장하고 MapReduce는 데이터를 분산 환경에서 처리하는 데 사용) MapReduce는 반복적인 작업에 대한 성능이 떨어지는 문제점을 가지고 있었다. 이를 극복하기 위해 나온 것이 Sp.. 스파크 Spark 2024. 2. 19.

이전 1 다음

티스토리툴바