본문 바로가기

학습장59

Hadoop 설치(2) 사양이 딸려서(?) Cloudera 이용하지 않고 하둡 압축파일만 받아 설치해보기로 하였습니다. # wget https://downloads.apache.org/hadoop/common/hadoop-3.3.0/hadoop-3.3.0.tar.gz 압축해제 # tar -zxvf hadoop-3.3.0.tar.gz 디렉터리 이동 # mv hadoop-3.3.0 /usr/local 환경변수 설정 # vi /etc/profile # 추가 export HADOOP_HOME=/usr/local/hadoop-3.3.0 # 수정 export PATH=$PATH:JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$HADOOP_HOME/bin 수정한 환경변수 적용 [root@hadoop.. 2021. 1. 10.
Cloudera 활용한 Hadoop 설치 root 계정 활성화 /etc/ssh/sshd_config 수정 후 서비스 재시작 systemctl restart sshd.service hostbame을 FQDN 형식으로 수정 (아래 참고) http://blog.naver.com/yehyang0512/221407967289 /etc/hosts 172.26.11.237 hadoop01.co.kr hadoop01 -- master 172.26.10.99 hadoop02.co.kr hadoop02 172.26.3.17 hadoop03.co.kr hadoop03 172.26.10.80 hadoop04.co.kr hadoop04 vi ~/allnodes 에 추가로 vi ~/nodes 생성 (master 빼고) yum install -y epel-release .. 2021. 1. 10.
Hadoop에 대하여.. Hadoop HDFS MapReduce Yarn HDFS란 대용량 데이터(데이터블록 기본크기 64 or 128Mb)를 분산 환경으로 저장하기에 최적화된 파일시스템(?) 파일을 기본 3벌로 각 노드에 분산 저장하며 읽어들일때는 분산저장된 3벌에서 n빵하여 동시에 읽는 구조여서 빠르다. 각 데이터블록이 저장되어 있는 노드 정보(?)는 네임노드가 갖고있다. 맨처음 네임노드에 접근하여 어느 노드에 저장되어있나 확인.. 특정 노드 장애시 해당 노드가 갖고 있던 데이터블록은 다른 노드들로 이전됨 맵리듀스가 다루기 어렵고 java를 통한 맵리듀스는 디스크 i/o가 많이 발생하여 hive, impala, spark 등으로 데이터처리 Hive SQL 사용하면 내부적으로는 맵리듀스 코드로 변환하여 데이터처리 SQL 활용에.. 2021. 1. 10.
728x90