분류 전체보기107 [Spark] 원격 주피터 허브에서 로컬 Spark 세션 및 hdfs 불러오기 원격 주피터 허브에서, 로컬에서 띄운 스파크 세션을 불러오려면 이렇게 하면 된다. (단, 스파크 및 하둡이 모두 설치 및 환경변수 설정까지 완료되어 있다는 전제 하에) 흑흑 글에는 에러 발생했을 때 이렇게 하세요 라고 쉽게 적혀져 있지만, 이 에러 해결법들을 찾기 위해 챗지피티와 맞짱도 뜨고 스택 오버플로우와 죽마고우가 되며... 팀장님을 괴롭히고.... 아무튼 그런 슬픈 과정들이 계속 있었다. 1.Spark만 먼저 연결해보기 우선 spark 와 hadoop을 모두 실행 시켜 준다. (아래 경로는 본인에 맞게 수정) ~/hadoop/sbin/start-all.sh; ~/spark-3.5.1-bin-hadoop3/sbin/start-all.sh; jps으로 다 잘 켜졌는지 확인! jps 다 잘 실행되었다... 스파크 Spark 2024. 4. 17. [Zeppelin] 알아두면 편한 제플린(Zeppelin) 단축키 Shift + Enter : 셀 실행 Ctrl + Shift + Enter : 아래 셀 모두 실행 Ctrl + Alt + J : 아래로 이동 Ctrl + Alt + K : 위로 이동 Ctrl + Alt + B : 아래 셀 추가 Ctrl + Alt + L : Output 제거 Ctrl + Alt + T : Title 노출 및 숨기기 Ctrl + Alt + D : 셀 삭제 Ctrl + Alt + M : Line Number 노출 및 숨기기 Ctrl + Alt + E : 셀 노출 및 숨기기 Ctrl + Alt + O : Output 노출 및 숨기기 Ctrl + Shift + C : 선택한 셀을 아래에 복사 제플린 Zeppelin 2024. 4. 15. [Linux] 도커 컴포즈 (Docker Compose) 기초 개념과 설치부터 실행까지 저번 글을 통해 Docker 에 대해서 알아봤다.나는 개발자가 아니기 때문에 요 포스팅을 끝으로 도커는 마무리하려고 한다. [Linux] 뉴비를 위한 Docker 기초 개념 및 명령어, 설치부터 예제까지Docker를 공부하면서 헷갈리거나, 어려웠던 부분을 열심히 이해해서 조금 더 쉽게 작성하려고 노력했다. 해당 글은 개념 및 실행 관련 예제가 많다보니, Docker를 만들어야하는 목적의 사람에겐 적sseozytank.tistory.com Docker Compose 도커 컴포즈란? 여러 개의 컨테이너를 하나의 서비스로 정의하고 구성해 하나의 묶음으로 관리할 수 있는 하나의 애플리케이션을 만드는 것. 예를 들어, 우리가 어플 하나를 실행하고 싶은데 컴포즈가 없다면 DB, 웹서버 등 여러개를 실행해야하.. 리눅스 Linux 2024. 4. 9. [Linux] 뉴비를 위한 Docker 기초 개념 및 명령어, 설치부터 예제까지 Docker를 공부하면서 헷갈리거나, 어려웠던 부분을 열심히 이해해서 조금 더 쉽게 작성하려고 노력했다. 해당 글은 개념 및 실행 관련 예제가 많다보니, Docker를 만들어야하는 목적의 사람에겐 적합하지 않을 수 있음! 한 컴퓨터로 이것저것 할려니깐 정말 미쳐 도라방스다. 그렇다고 비싼 컴퓨터를 여러대를 살 수도 없는 노릇 이고 1.VM vs Container1) VM ( Virtual Machines )그렇다면, 하나의 컴퓨터에 가상 컴퓨터를 만들어서 운영 체제를 설치하는건 어떨까? 그렇다면 컴퓨터 한대를 더 안사도 되잖아! 의 개념에서 나온게 VM 이다. 하지만, 우리가 무거운 작업을 하면 상관 없겠지만 고작 웹서버 하나가 깔려고 운영체제를 깐다? 너무 무겁고 비효율 적이다. 그리고 이미 사용하고.. 리눅스 Linux 2024. 4. 9. [Hadoop] 우분투(Ubuntu)에서 HDFS에 파일 업로드 Hadoop을 설치했으니, HDFS에다가 파일을 업로드 해보도록 하자. 우선, 업로드할 csv를 준비하기 ! 캐글에서 아래 데이터를 다운 받아 왔다. 데이터를 다운로드 했으면 이제 본격적으로 스타트! 1. 파일을 우분투 서버에 다운로드하기 wget 명령어를 통해 리눅스 서버로 바로 다운로드 해주자. wget https://blog.kakaocdn.net/dn/dZmj9T/btsGd8RAfcZ/Vjc1ijBN0qDkMMupkWbkC1/tfile.csv 2. HDFS에 DATA를 넣을 폴더 생성 (선택) 하둡을 실행시켜주고, ~/hadoop/sbin/start-all.sh 원하는 하둡 경로에 폴더를 생성해준다. hadoop fs -mkdir /folder #앞에 / 꼭 붙혀야한다! hadoop fs -ls .. 하둡 Hadoop 2024. 4. 1. [Linux/Ubuntu] 삼바(Samba)를 설치하고 HDFS를 윈도우 디렉토리와 연결해보자 삼바(Samba)란? 운영 체제가 다른, 즉 윈도우와 리눅스 사이의 접근을 쉽게 할 수 있도록 도와주는 프로그램 삼바를 사용하게 되면 윈도우에서 리눅스 서버에 탐색기처럼 접근하여 파일을 쉽게 읽고 쓸 수 있음 로컬과의 파일 이동을 수월하게 하기 위해, linux에 fuse로 마운트가 완료된 hdfs를 공유 디렉토리로 설정해보려고 한다. [Linux/Ubuntu] Fuse를 이용하여 HDFS를 Linux에 Mount하기 Linux FUSE = Filesystem in Userspace 컴퓨터 파일 시스템을 개발할 때 사용되는 프레임워크로 Fuse 사용 시 hdfs 셸 명령을 쓰지 않고 로컬 파일처럼 hdfs를 사용할 수 있음 1.Fuse 관련 패키지 설치 #fuse 관련 sseozytank.tistory... 리눅스 Linux 2024. 3. 29. [Linux/Ubuntu] Fuse를 이용하여 HDFS를 Linux에 Mount하기 Linux FUSE = Filesystem in Userspace 컴퓨터 파일 시스템을 개발할 때 사용되는 프레임워크로 Fuse 사용 시 hdfs 셸 명령을 쓰지 않고 로컬 파일처럼 hdfs를 사용할 수 있음 1.Fuse 관련 패키지 설치 #fuse 관련 패키지 설치 sudo apt-get install fuse libfuse-dev #깃에서 클론해오기 git clone --depth 1 --branch branch-3.1 https://github.com/apache/hadoop.git 나는 hadoop을 설치해둔 hadoop 폴더가 이미 있어서 뒤에 hadoop_dev를 추가해서 hadoop_dev라는 폴더로 설치해줬다. #깃에서 클론해오기 git clone --depth 1 --branch bran.. 리눅스 Linux 2024. 3. 29. [Spark] 우분투(Ubuntu)에서 하둡(Hadoop)위에 Spark(스파크)를 올리고, jupyter notebook으로 열기 우분투 환경에서 하둡 설치를 마쳤다. [Hadoop] 우분투(Ubuntu)에서 하둡(Hadoop) 설치와 환경세팅 및 실행/중단 방법 ubuntu 환경에서 hadoop을 설치해보고, 사용해보자! 일단 가장 먼저 java 설치부터 스타트 1.JAVA 설치 1.java 설치 확인 java -version 나의 경우, 깔려있고 깔려있지 않은 사람들은 Command 'java' not found, but can sseozytank.tistory.com 그럼 이제 하둡 위에 스파크를 올려보고, jupyter notyebook 으로 열어보고, 아래 포스팅에서 올렸던 파일을 불러와서 간단한 pyspark 처리까지 해보도록 하겠다. [Hadoop] 우분투(Ubuntu)에서 HDFS에 파일 업로드 Hadoop을 설치했으.. 스파크 Spark 2024. 3. 29. [Hadoop] 우분투(Ubuntu)에서 하둡(Hadoop) 설치와 환경세팅 및 실행/중단 방법 ubuntu 환경에서 hadoop을 설치해보고, 사용해보자! 일단 가장 먼저 java 설치부터 스타트 1.JAVA 설치 1.java 설치 확인 java -version 나의 경우, 깔려있고 깔려있지 않은 사람들은 Command 'java' not found, but can be installed with: ~ 문구가 뜬다. 2.java가 설치 되지 않았을 때, 다운로드 sudo apt install openjdk-8-jre-headless ⛔ 혹시 Unable to locate package 에러가 뜬다면 아래 코드 두 개 입력해주기sudo apt updatesudo apt install openjdk-8-jdk-headless 2.Hadoop 계정 세팅 1.새.. 하둡 Hadoop 2024. 3. 29. [Linux] 뉴비를 위한 VIM 기초 사용법 총정리 1.vim과 nano - 유닉스에서 사용할 수 있는 에디터로, 터미널을 통해서 텍스트 편집이 가능한 텍스트 편집기 2.vi와 vim - vi : visual display editor - vim : vi iMproved , 향상된 vi (업그레이드 버전) 3.vim 사용법 익히기 vim 처음 사용할 때 언제는 esc를 쓰고, 이런게 너무 어려웠는데 이렇게 접근하니까 훨씬 수월했다. 1.우선 vim에 진입해주자. vim #이미 있는 파일을 수정하기 vim [파일명] 이렇게 진입해주면, vim 일반 모드가 실행된 것이다. 2.입력 모드로 진입하기 vim을 처음 들어가면, 입력이 되지 않을 것이다. 그럼 텍스트를 편집할 수 있는 입력 모드로 전환해줘야 한다. 진입한 상태로 커서 기준 어디서 부터 입력할지를 생.. 리눅스 Linux 2024. 3. 27. [Linux/Ubuntu] 리눅스와 우분투는 무엇일까? 빅데이터 처리를 위해서 이것저것을 공부하고 있다. Hive를 쓰면 사실상 리눅스에 대해서 몰라도 되지만, Spark를 쓸 때 리눅스를 알면 도움이 많이 된다고 해서 리눅스의 기초까지만 숙지해보려고 한다. 전 회사의 SE분께서 많은 도움을 주셨다. (__) 본격적으로 리눅스를 시작하기 전, 리눅스와 우분투가 무엇인지 알고 가보자. 1. OS - 리눅스(Linux) 우선 리눅스는 Window, MAC과 같은 OS (Operation System, 운영체제)이다. UNIX라는 운영 체제에서 영향을 받아 개발된 운영 체제인데, 하드웨어에 종속적인 UNIX를 쓰기 위해선 겁나게 비싼 장비를 사용해야한다. 그래서 "장비에 종속 없이 인텔 기반의 윈도우 PC에서도 깔아서 슬 수 있게 하자"가 리눅스의 시작이 된 것이.. 리눅스 Linux 2024. 3. 20. [Python] 파이썬 - 구글 스프레드 시트 연동하기 파이썬으로 구글 스프레드 시트를 땡겨오면 파이썬을 통해 데이터 불러오기 뿐만 아니라 파이썬에서 구글 스프레드 시트로 데이터를 넣거나 삭제할 수도 있어서 굉장히 편하다. 처음 설정만 해두면 방법도 쉬운 편이기 때문에 한번 같이 연동해보도록 하자. 1.구글 클라우드 프로젝트 및 서비스 계정 생성 1. 서비스 이용 동의 일단 아래 구글 클라우드 플랫폼 링크를 클릭해서, 서비스 약관을 동의 체크 해준다. https://console.cloud.google.com/apis/dashboard Google 클라우드 플랫폼 로그인 Google 클라우드 플랫폼으로 이동 accounts.google.com 2. 프로젝트 만들기 API 및 서비스 ( 동의 및 계속하기를 누르면 자동으로 이 창에 머무르게 됨) > 사용자 인증.. 파이썬 Python 2024. 3. 18. 이전 1 2 3 4 5 6 7 ··· 9 다음