본문 바로가기
학습장/Data Engineering

Hadoop에 대하여..

by daedoo_ 2021. 1. 10.

Hadoop

  • HDFS
  • MapReduce
  • Yarn

HDFS

  • 대용량 데이터(데이터블록 기본크기 64 or 128Mb) 분산 환경으로 저장하기에 최적화된 파일시스템(?)
  • 파일을 기본 3벌로  노드에 분산 저장하며 읽어들일때는 분산저장된 3벌에서 n빵하여 동시에 읽는 구조여서 빠르다.
  •  데이터블록이 저장되어 있는 노드 정보(?) 네임노드가 갖고있다. 맨처음 네임노드에 접근하여 어느 노드에 저장되어있나 확인..
  • 특정 노드 장애시 해당 노드가 갖고 있던 데이터블록은 다른 노드들로 이전됨

맵리듀스가 다루기 어렵고 java 통한 맵리듀스는 디스크 i/o 많이 발생하여 hive, impala, spark 등으로 데이터처리

 

 

Hive

  • SQL 사용하면 내부적으로는 맵리듀스 코드로 변환하여 데이터처리
  • SQL 활용에 익숙한 기존 DW 진영을 위해 나온..
  • 하둡 데이터를 sql과 비슷한 문법으로 읽을  있도록 해주는..
  • 하이브QL, 하이브DB
    • 자체적으로 MapReduce 코드로 변환해서 가져옴

 

Impala

  • 디스크 I/O 줄여 in-memory 방식으로 동작
  • SQL 문법으로 사용가능하며 메모리를 많이 잡아먹기때문에 긴급성, 즉각적인 데이터 확인이 필요한 파워유저만 사용하도록 하는 것이 적합

 Spark

 

 

'학습장 > Data Engineering' 카테고리의 다른 글

pyspark groupBy 샘플코드  (0) 2021.03.01
Sqoop ETL  (0) 2021.02.21
DataStage Job Xml export  (0) 2021.01.17
Hadoop 설치(2)  (1) 2021.01.10
Cloudera 활용한 Hadoop 설치  (0) 2021.01.10

댓글