Hadoop
- HDFS
- MapReduce
- Yarn
HDFS란
- 대용량 데이터(데이터블록 기본크기 64 or 128Mb)를 분산 환경으로 저장하기에 최적화된 파일시스템(?)
- 파일을 기본 3벌로 각 노드에 분산 저장하며 읽어들일때는 분산저장된 3벌에서 n빵하여 동시에 읽는 구조여서 빠르다.
- 각 데이터블록이 저장되어 있는 노드 정보(?)는 네임노드가 갖고있다. 맨처음 네임노드에 접근하여 어느 노드에 저장되어있나 확인..
- 특정 노드 장애시 해당 노드가 갖고 있던 데이터블록은 다른 노드들로 이전됨
맵리듀스가 다루기 어렵고 java를 통한 맵리듀스는 디스크 i/o가 많이 발생하여 hive, impala, spark 등으로 데이터처리
Hive
- SQL 사용하면 내부적으로는 맵리듀스 코드로 변환하여 데이터처리
- SQL 활용에 익숙한 기존 DW쪽 진영을 위해 나온..
- 하둡 데이터를 sql과 비슷한 문법으로 읽을 수 있도록 해주는..
- 하이브QL, 하이브DB
- 자체적으로 MapReduce 코드로 변환해서 가져옴
Impala
- 디스크 I/O를 줄여 in-memory 방식으로 동작
- SQL 문법으로 사용가능하며 메모리를 많이 잡아먹기때문에 긴급성, 즉각적인 데이터 확인이 필요한 파워유저만 사용하도록 하는 것이 적합
Spark
'학습장 > Data Engineering' 카테고리의 다른 글
pyspark groupBy 샘플코드 (0) | 2021.03.01 |
---|---|
Sqoop ETL (0) | 2021.02.21 |
DataStage Job Xml export (0) | 2021.01.17 |
Hadoop 설치(2) (1) | 2021.01.10 |
Cloudera 활용한 Hadoop 설치 (0) | 2021.01.10 |
댓글