탱크의 데이터분석

하둡 Hadoop4

[Hadoop] 우분투(Ubuntu)에서 HDFS에 파일 업로드 Hadoop을 설치했으니, HDFS에다가 파일을 업로드 해보도록 하자. 우선, 업로드할 csv를 준비하기 ! 캐글에서 아래 데이터를 다운 받아 왔다. 데이터를 다운로드 했으면 이제 본격적으로 스타트! 1. 파일을 우분투 서버에 다운로드하기 wget 명령어를 통해 리눅스 서버로 바로 다운로드 해주자. wget https://blog.kakaocdn.net/dn/dZmj9T/btsGd8RAfcZ/Vjc1ijBN0qDkMMupkWbkC1/tfile.csv 2. HDFS에 DATA를 넣을 폴더 생성 (선택) 하둡을 실행시켜주고, ~/hadoop/sbin/start-all.sh 원하는 하둡 경로에 폴더를 생성해준다. hadoop fs -mkdir /folder #앞에 / 꼭 붙혀야한다! hadoop fs -ls .. 하둡 Hadoop 2024. 4. 1.

[Hadoop] 우분투(Ubuntu)에서 하둡(Hadoop) 설치와 환경세팅 및 실행/중단 방법 ubuntu 환경에서 hadoop을 설치해보고, 사용해보자! 일단 가장 먼저 java 설치부터 스타트 1.JAVA 설치 1.java 설치 확인 java -version 나의 경우, 깔려있고 깔려있지 않은 사람들은 Command 'java' not found, but can be installed with: ~ 문구가 뜬다. 2.java가 설치 되지 않았을 때, 다운로드 sudo apt install openjdk-8-jre-headless ⛔ 혹시 Unable to locate package 에러가 뜬다면 아래 코드 두 개 입력해주기sudo apt updatesudo apt install openjdk-8-jdk-headless 2.Hadoop 계정 세팅 1.새.. 하둡 Hadoop 2024. 3. 29.

[Hadoop] 하둡 에코시스템(Hadoop Ecosystem)과 주요 컴포넌트 지난 포스팅에서 하둡에 대해 이해했다. 그렇다면 늘 같이 다니는 하둡 에코시스템 너는 뭐냐!? 하둡 에코시스템? (Hadoop Ecosystem) 하둡은 오픈소스라했다. 이에 따라 하둡을 좀 더 편하게, 그리고 단점은 수정하여 더 잘사용할 수 있도록 여러 서브프로젝트들이 생겨났고, 그 서브 프로젝트의 모임을 하둡 에코 시스템이라고 한다. 사실상 '하둡'이라 하면 단일 솔루션을 얘기하는 것이 아니라 , 하둡이라는 거대한 에코시스템을 일컫는다고 생각하면 된다. 즉, 코어 프로젝트는 HDFS, MapReduce, YARN 서브 프로젝트는 아래 그 외에 컴포넌트들 그렇다면, 그 중에서도 주요 컴포넌트들에 대해 알아보자. 이번 포스팅에서는 하둡 에코시스템에 이런 것들이있구나 정도에서 끝내고 내가 실무에서 사용할 .. 하둡 Hadoop 2024. 2. 13.

[Hadoop] 하둡(Hadoop)이란? - HDFS, MapReduce, YARN 빅데이터 개념을 마스터하기 위해 시리즈를 작성해보기로 했다. 이번 빅데이터 시리즈 포스팅의 궁극적인 목적은 Hadoop -> Hive -> Spark -> Pyspark까지 마스터 하는 것. 하지만 내 머릿속엔 아무것도 없기 때문에 하나하나 공부해보려고 한다! 그럼 스타뜨! 하둡이란? 하둡이란, 빅데이터를 수집 / 저장 / 처리 / 분석할 수 있는 오픈 소스 프레임 워크이다. 하나의 성능 좋은 컴퓨터를 이용하여 데이터를 처리하는 대신, 적당한 성능의 범용 컴퓨터 여러 대를 클러스터화하고, 큰크기의 데이터를 클러스터에서 병렬로 동시에 처리하여 처리 속도를 높이는 것이 목적임 하둡 = 분산 처리 가능 시스템 + 저장된 데이터 병렬 처리 (맵 리듀스) *프레임 워크 : 목적에 필요한 것을 고민할 필요 없이 이.. 하둡 Hadoop 2024. 2. 7.

이전 1 다음

티스토리툴바