분류 전체보기102 [Linux/Ubuntu] 삼바(Samba)를 설치하고 HDFS를 윈도우 디렉토리와 연결해보자 삼바(Samba)란? 운영 체제가 다른, 즉 윈도우와 리눅스 사이의 접근을 쉽게 할 수 있도록 도와주는 프로그램 삼바를 사용하게 되면 윈도우에서 리눅스 서버에 탐색기처럼 접근하여 파일을 쉽게 읽고 쓸 수 있음 로컬과의 파일 이동을 수월하게 하기 위해, linux에 fuse로 마운트가 완료된 hdfs를 공유 디렉토리로 설정해보려고 한다. [Linux/Ubuntu] Fuse를 이용하여 HDFS를 Linux에 Mount하기 Linux FUSE = Filesystem in Userspace 컴퓨터 파일 시스템을 개발할 때 사용되는 프레임워크로 Fuse 사용 시 hdfs 셸 명령을 쓰지 않고 로컬 파일처럼 hdfs를 사용할 수 있음 1.Fuse 관련 패키지 설치 #fuse 관련 sseozytank.tistory... 리눅스 Linux 2024. 3. 29. [Linux/Ubuntu] Fuse를 이용하여 HDFS를 Linux에 Mount하기 Linux FUSE = Filesystem in Userspace 컴퓨터 파일 시스템을 개발할 때 사용되는 프레임워크로 Fuse 사용 시 hdfs 셸 명령을 쓰지 않고 로컬 파일처럼 hdfs를 사용할 수 있음 1.Fuse 관련 패키지 설치 #fuse 관련 패키지 설치 sudo apt-get install fuse libfuse-dev #깃에서 클론해오기 git clone --depth 1 --branch branch-3.1 https://github.com/apache/hadoop.git 나는 hadoop을 설치해둔 hadoop 폴더가 이미 있어서 뒤에 hadoop_dev를 추가해서 hadoop_dev라는 폴더로 설치해줬다. #깃에서 클론해오기 git clone --depth 1 --branch bran.. 리눅스 Linux 2024. 3. 29. [Spark] 우분투(Ubuntu)에서 하둡(Hadoop)위에 Spark(스파크)를 올리고, jupyter notebook으로 열기 우분투 환경에서 하둡 설치를 마쳤다. [Hadoop] 우분투(Ubuntu)에서 하둡(Hadoop) 설치와 환경세팅 및 실행/중단 방법 ubuntu 환경에서 hadoop을 설치해보고, 사용해보자! 일단 가장 먼저 java 설치부터 스타트 1.JAVA 설치 1.java 설치 확인 java -version 나의 경우, 깔려있고 깔려있지 않은 사람들은 Command 'java' not found, but can sseozytank.tistory.com 그럼 이제 하둡 위에 스파크를 올려보고, jupyter notyebook 으로 열어보고, 아래 포스팅에서 올렸던 파일을 불러와서 간단한 pyspark 처리까지 해보도록 하겠다. [Hadoop] 우분투(Ubuntu)에서 HDFS에 파일 업로드 Hadoop을 설치했으.. 스파크 Spark 2024. 3. 29. [Hadoop] 우분투(Ubuntu)에서 하둡(Hadoop) 설치와 환경세팅 및 실행/중단 방법 ubuntu 환경에서 hadoop을 설치해보고, 사용해보자! 일단 가장 먼저 java 설치부터 스타트 1.JAVA 설치 1.java 설치 확인 java -version 나의 경우, 깔려있고 깔려있지 않은 사람들은 Command 'java' not found, but can be installed with: ~ 문구가 뜬다. 2.java가 설치 되지 않았을 때, 다운로드 sudo apt install openjdk-8-jre-headless ⛔ 혹시 Unable to locate package 에러가 뜬다면 아래 코드 두 개 입력해주기sudo apt updatesudo apt install openjdk-8-jdk-headless 2.Hadoop 계정 세팅 1.새.. 하둡 Hadoop 2024. 3. 29. [Linux] 뉴비를 위한 VIM 기초 사용법 총정리 1.vim과 nano - 유닉스에서 사용할 수 있는 에디터로, 터미널을 통해서 텍스트 편집이 가능한 텍스트 편집기 2.vi와 vim - vi : visual display editor - vim : vi iMproved , 향상된 vi (업그레이드 버전) 3.vim 사용법 익히기 vim 처음 사용할 때 언제는 esc를 쓰고, 이런게 너무 어려웠는데 이렇게 접근하니까 훨씬 수월했다. 1.우선 vim에 진입해주자. vim #이미 있는 파일을 수정하기 vim [파일명] 이렇게 진입해주면, vim 일반 모드가 실행된 것이다. 2.입력 모드로 진입하기 vim을 처음 들어가면, 입력이 되지 않을 것이다. 그럼 텍스트를 편집할 수 있는 입력 모드로 전환해줘야 한다. 진입한 상태로 커서 기준 어디서 부터 입력할지를 생.. 리눅스 Linux 2024. 3. 27. [Linux/Ubuntu] 리눅스와 우분투는 무엇일까? 빅데이터 처리를 위해서 이것저것을 공부하고 있다. Hive를 쓰면 사실상 리눅스에 대해서 몰라도 되지만, Spark를 쓸 때 리눅스를 알면 도움이 많이 된다고 해서 리눅스의 기초까지만 숙지해보려고 한다. 전 회사의 SE분께서 많은 도움을 주셨다. (__) 본격적으로 리눅스를 시작하기 전, 리눅스와 우분투가 무엇인지 알고 가보자. 1. OS - 리눅스(Linux) 우선 리눅스는 Window, MAC과 같은 OS (Operation System, 운영체제)이다. UNIX라는 운영 체제에서 영향을 받아 개발된 운영 체제인데, 하드웨어에 종속적인 UNIX를 쓰기 위해선 겁나게 비싼 장비를 사용해야한다. 그래서 "장비에 종속 없이 인텔 기반의 윈도우 PC에서도 깔아서 슬 수 있게 하자"가 리눅스의 시작이 된 것이.. 리눅스 Linux 2024. 3. 20. [Python] 파이썬 - 구글 스프레드 시트 연동하기 파이썬으로 구글 스프레드 시트를 땡겨오면 파이썬을 통해 데이터 불러오기 뿐만 아니라 파이썬에서 구글 스프레드 시트로 데이터를 넣거나 삭제할 수도 있어서 굉장히 편하다. 처음 설정만 해두면 방법도 쉬운 편이기 때문에 한번 같이 연동해보도록 하자. 1.구글 클라우드 프로젝트 및 서비스 계정 생성 1. 서비스 이용 동의 일단 아래 구글 클라우드 플랫폼 링크를 클릭해서, 서비스 약관을 동의 체크 해준다. https://console.cloud.google.com/apis/dashboard Google 클라우드 플랫폼 로그인 Google 클라우드 플랫폼으로 이동 accounts.google.com 2. 프로젝트 만들기 API 및 서비스 ( 동의 및 계속하기를 누르면 자동으로 이 창에 머무르게 됨) > 사용자 인증.. 파이썬 Python 2024. 3. 18. [Metabase] 메타베이스 대시보드에 이미지 삽입하기 메타베이스 대시보드는 이미지 삽입이 가능하다. 크기 같은 것에 대한 제약이 좀 커서 활용성은 떨어지지만... 알아두면 대시보드에 BI 삽입 정도는 가능하다. DOCS 같은 것을 엄청 뒤져서 찾은 https://discourse.metabase.com/t/how-to-show-an-external-image-in-the-dashboard/2404/6 여기 rjdagner님의 댓글에 적힌 방법이다. 감사합니다 ! 그럼 아래 귀여운 모코코 사진을 대시보드에 넣어보장 대시보드 생성 1.메타베이스에서 대시보드를 생성한 후, EDIT 창으로 들어가기 2.대시보드 내에 TEXT 상자를 만들어준다. 만들어주면 원하는 위치, 크기로 배치해준당. 이미지 가져오기 3.구글에서 다운받고 싶은 이미지의 이미지 주소를 복사해온다.. 메타베이스 Metabse 2024. 3. 8. [취업 가이드북] 1.데이터 분석가 직무 소개 및 역량 기르기 어떤 직무든, 본인의 직무에 대해 파악하는 것이 취업의 1순위라고 생각한다. 따라서 첫 편에서는 데이터 분석가라는 직무를 소개하고, 어떤 역량이 필요하고 이것들은 어떻게 기를 수 있는지 나의 경험을 바탕으로 적어보려고 한다. 참고로, 하고싶은게 있는데 뭘 준비해야할지 모르겠다면 취업 사이트에 들어가서 해당 직무의 공고를 여러개 보면된다. 취준의 처음이자 끝은 JD (Job Description) 파악! 지피지기면 백전백승! 같이 차근차근 파악해보자. 데이터 분석가 채용 정보 | 원티드데이터 분석가 전문가에게 딱 맞는 글로벌 10,000개 회사, 원티드에서 만나보세요.www.wanted.co.kr 1. 데이터 분석가 직무 소개 여태까지 경험을 통해 데이터 분석가의 업무를 요약해봤다. 데이터 수집 자동화.. 취업 가이드 2024. 3. 5. [Spark] Pyspark spark sql 사용하기 [Spark] Pyspark DataFrame Method 정리 데이터 분석가가 Pyspark를 쓰는 이유라하면, 역시 대용량의 데이터를 효율적으로 처리하기 위함이다. Pyspark는 pandas 같은 문법으로도, SQL같은 문법으로도 활용이 가능하다해서 데이터 가공을 여 sseozytank.tistory.com 앞선 포스팅으로 Pyspark의 DataFrame Method를 통해 DataFrame을 다루는 법 코드들에 대해 정리했다. spark는 SQL도 지원해줘서 Pyspark에서도 sql처럼 DataFrame을 다룰 수 있는데, 오늘 포스팅에선 해당 방법에 대해 적어보겠다. SQL이 내집처럼 편안한 나에겐 너무너무 소중한 기능이다. 근데 어렵지도 않다! 렛쯔고 (2024-04 +) pyspark로 .. 스파크 Spark 2024. 2. 20. [Spark] Pyspark DataFrame Method 정리 데이터 분석가가 Pyspark를 쓰는 이유라하면, 역시 대용량의 데이터를 효율적으로 처리하기 위함이다. Pyspark는 pandas 같은 문법으로도, SQL같은 문법으로도 활용이 가능하다해서 데이터 가공을 여러가지 코드로 작성해보며 Pyspark를 익혀보려고 한다.예제 데이터는 참고 문헌 첫번째에 있는 블로그와 같은 데이터를 사용했다! 그럼 천천히 따라해보도록 하자. 👇 예제 데이터 👇 https://www.kaggle.com/datasets/mansoordaku/ckdisease 0.라이브러리 불러오기 import pyspark import pandas as pd from pyspark.sql import SparkSession from pyspark import SparkContext, SparkCo.. 스파크 Spark 2024. 2. 20. [Spark] Apache Spark란? 1.Spark 의 등장 배경 [빅데이터] 1.하둡(Hadoop)이란? - HDFS, MapReduce, YARN 빅데이터 개념을 마스터하기 위해 시리즈를 작성해보기로 했다. 이번 빅데이터 시리즈 포스팅의 궁극적인 목적은 Hadoop -> Hive -> Spark -> Pyspark까지 마스터 하는 것. 하지만 내 머릿속엔 아무것도 sseozytank.tistory.com 우리는 앞서, 하둡에 대해 이해했다.하둡은 HDFS랑 MapReduce 두가지 핵심 요소를 가지고 있는데 (HDFS에서 데이터를 여러 노드에 분산하여 저장하고 MapReduce는 데이터를 분산 환경에서 처리하는 데 사용) MapReduce는 반복적인 작업에 대한 성능이 떨어지는 문제점을 가지고 있었다. 이를 극복하기 위해 나온 것이 Sp.. 스파크 Spark 2024. 2. 19. 이전 1 2 3 4 5 6 7 ··· 9 다음