본문 바로가기

학습장/Data Engineering

Hadoop에 대하여..

by daedoo_ 2021. 1. 10.

Hadoop

HDFS
MapReduce
Yarn

HDFS란

대용량 데이터(데이터블록 기본크기 64 or 128Mb)를 분산 환경으로 저장하기에 최적화된 파일시스템(?)
파일을 기본 3벌로 각 노드에 분산 저장하며 읽어들일때는 분산저장된 3벌에서 n빵하여 동시에 읽는 구조여서 빠르다.
각 데이터블록이 저장되어 있는 노드 정보(?)는 네임노드가 갖고있다. 맨처음 네임노드에 접근하여 어느 노드에 저장되어있나 확인..
특정 노드 장애시 해당 노드가 갖고 있던 데이터블록은 다른 노드들로 이전됨

맵리듀스가 다루기 어렵고 java를 통한 맵리듀스는 디스크 i/o가 많이 발생하여 hive, impala, spark 등으로 데이터처리

Hive

SQL 사용하면 내부적으로는 맵리듀스 코드로 변환하여 데이터처리
SQL 활용에 익숙한 기존 DW쪽 진영을 위해 나온..
하둡 데이터를 sql과 비슷한 문법으로 읽을 수 있도록 해주는..

하이브QL, 하이브DB

자체적으로 MapReduce 코드로 변환해서 가져옴

Impala

디스크 I/O를 줄여 in-memory 방식으로 동작
SQL 문법으로 사용가능하며 메모리를 많이 잡아먹기때문에 긴급성, 즉각적인 데이터 확인이 필요한 파워유저만 사용하도록 하는 것이 적합

Spark

'학습장 > Data Engineering' 카테고리의 다른 글

pyspark groupBy 샘플코드 (0)	2021.03.01
Sqoop ETL (0)	2021.02.21
DataStage Job Xml export (0)	2021.01.17
Hadoop 설치(2) (1)	2021.01.10
Cloudera 활용한 Hadoop 설치 (0)	2021.01.10

댓글

티스토리툴바