RDD1 [spark] RDD란? RDD (Resilient Distributed Dataset) 스파크의 데이터 처리 모델 RDD는 대량의 데이터를 요소로 가지는 분산 컬렉션 클러스터 환경에서 분산처리를 전제로 설계 되었음 내부는 파티션이라는 단위로 나뉨 스파크에서는 '파티션'이 분산처리 단위 RDD가 데이터를 처리하는 방식 변환 (Transformation) ( ex. Filter, groupBy, map, ..) RDD를 가공하여 새로운 RDD를 얻는 처리 데이터가 이미 키값으로 파티셔닝 되어 있거나,, 하나의 노드 내에서 모두 처리할 수 있는 작업 .. 데이터 양이 적은 경우?, 변환 전의 RDD가 가지는 요소를 같은 RDD의 다른 요소와 함께 처리하는 변환 키와 밸류의 쌍을 요소로 갖는 RDD 같은 키를 갖는 요소를 한데 모아 .. 2022. 10. 24. 이전 1 다음 728x90