스파크 Spark

[Spark] 우분투(Ubuntu)에서 하둡(Hadoop)위에 Spark(스파크)를 올리고, jupyter notebook으로 열기

sseozytank 2024. 3. 29.

우분투 환경에서 하둡 설치를 마쳤다.

 

[Hadoop] 우분투(Ubuntu)에서 하둡(Hadoop) 설치와 환경세팅 및 실행/중단 방법

ubuntu 환경에서 hadoop을 설치해보고, 사용해보자! 일단 가장 먼저 java 설치부터 스타트 1.JAVA 설치 1.java 설치 확인 java -version 나의 경우, 깔려있고 깔려있지 않은 사람들은 Command 'java' not found, but can

sseozytank.tistory.com

 

그럼 이제 하둡 위에 스파크를 올려보고, jupyter notyebook 으로 열어보고, 아래 포스팅에서 올렸던 파일을 불러와서 간단한 pyspark 처리까지 해보도록 하겠다. 

 

[Hadoop] 우분투(Ubuntu)에서 HDFS에 파일 업로드

Hadoop을 설치했으니, HDFS에다가 파일을 업로드 해보도록 하자. 우선, 업로드할 csv를 준비하기 ! 캐글에서 아래 데이터를 다운 받아 왔다. 데이터를 다운로드 했으면 이제 본격적으로 스타트! 1. 파

sseozytank.tistory.com

 

1. Apache Spark 설치 

https://spark.apache.org/downloads.html?source=post_page-----c81d0cf332e3-------------------------------- 

사이트 접속 후, 해당 링크로 들어가 아래 대로 따라준다. 

1. 3번 링크 클릭
빨간 박스 부분에 마우스 오른쪽 버튼 클릭 -> 링크 주소 복사

#wget [복사한 URL] 
wget https://dlcdn.apache.org/spark/spark-3.5.1/spark-3.5.1-bin-hadoop3.tg

 

복사된 링크를 wget 과 함께 입력 후, 실행 시켜준다. 

다운로드 완료~!

 

다운로드가 모두 완료되었으면, 압축을 풀어주면 된다. 

tar xvzf spark-3.5.1-bin-hadoop3.tgz

 

알집을 다 풀었으면, 편한 사용을 위해  심볼릭 링크를 생성해주자 

ln -s spark-3.5.1-bin-hadoop3 spark

 

*심볼릭 링크란 ? 

- 링크를 연결해서, 원본 파일을 직접 사용하는 것과 같은 효과 (윈도우의 바로가기) 

 

 

2. 환경변수 설정 

설치가 완료되었으면, .bashrc 파일을 수정해 환경변수를 설정해준다. 

vi ~/.bashrc

 

 

.bashrc를 들어가 아래 코드를 추가 후, esc -> :wq! 로 저장하고 나오면 된다. (경로는 본인에 맞게 수정 필요) 

export SPARK_HOME="home/[유저명]/spark-3.5.1-bin-hadoop3"
export PATH=:$PATH:/usr/lib/jvm/java-8-openjdk-amd64/lib/tools.jar:$HADOOP_HOME/sbin:$HADOOP_HOME/bin:/home/[유저명]/spark/bin

 

 

변경한 환경변수를 적용하기 위해 , source 를 실행시켜준다. 

source ~/.bashrc

 

3. SPARK 실행 확인 

spark-shell

 

 

이제 우리 ubuntu 하둡 위에 spark 설치를 마쳤다. jupyter notebook으로 연결해서 pyspark를 쓰기 쉽게 해보고, 저번 포스팅에서 hadoop에 올렸던 파일까지 불러와서 어떤 프로세스로 동작하는지 대강 이해해보도록 하자. 

4. JUPYTER NOTEBOOK에서 pyspark 활용 

최종적으로는 로컬 jupyter를 사용하는 것이 아니라, 원격 서버의 juypter hub와 spark를 연결할 것이지만 이번 게시글에서는 가볍게 로컬 jupyter에 pyspark를 연결하는 것에서 끝내보려고 한다.

 

1.Jupyter Notebook 설치

sudo apt install python3-pip
pip3 install jupyter

#혹시 위 코드로 설치했는데 jupyter가 없다고 뜰 경우
#sudo apt install jupyter-core

 

2.pyspark 설치 

pip3 install pyspark

 

3.pyspark 환경 설정

echo "export PYSPARK_PYTHON=python3" >> ~/.bashrc
source ~/.bashrc

 

 

4.Jupyter Notebook에 PySpark 연결 

PYSPARK_DRIVER_PYTHON="jupyter" PYSPARK_DRIVER_PYTHON_OPTS="notebook" pyspark

 

이후 해당 서버에서 이부분을 둘중에 하나 token 부분까지 풀로 복사해서 붙혀넣으면  잘 접속되는 것을 확인할 수 있다. 

 

 

5. HDFS에다가 올려뒀던 csv 불러오기 

*하둡을 다시 켜준다 

~/hadoop/sbin/start-all.sh

 

jupyter에서 path 입력 후 데이터 불러오기하면 끝! 

 

 

이제 이 과정들을 좀 더 편하게 하기 위해 linux에 fuse를 이용해서 mount 하고, samba를 연동해 파일 이동을 자유롭게 해볼 것이다. 조금만 더 파이팅!

 

 

https://robomoan.medium.com/ubuntu-%ED%99%98%EA%B2%BD%EC%97%90%EC%84%9C-apache-spark-%EC%84%A4%EC%B9%98%ED%95%98%EA%B8%B0-c81d0cf332e3

https://domdom.tistory.com/526

https://qjadud22.tistory.com/22

댓글