groupby1 pyspark groupBy 샘플코드 DW용으로 사용중인 DB의 용량 확보를 위해 잘 사용되지 않는 로그성 데이터를 Sqoop 사용하여 HDFS로 이전 진행 예정임. Sqoop ETL Sqoop (SQL to Hadoop) Sqoop은 RBMS HDFS 사이에 데이터 ETL을 위해 만들어진 프로젝트이며, 하둡의 YARN, MapReduce 위에서 동작하는 하둡 에코시스템의 툴 중의 하나입니다. CLI로 간단하게 DB와 HDFS사이에 ET.. ourhistory160109.tistory.com 아래는 sqoop으로 적재 후 pyspark으로 건수 확인을 위한 코드 (curdate 기준 월별 건수 체크) from pyspark.sql import SparkSession import pyspark.sql.functions as F import p.. 2021. 3. 1. 이전 1 다음 728x90