학습장/Data Engineering26 pyspark groupBy 샘플코드 DW용으로 사용중인 DB의 용량 확보를 위해 잘 사용되지 않는 로그성 데이터를 Sqoop 사용하여 HDFS로 이전 진행 예정임. Sqoop ETL Sqoop (SQL to Hadoop) Sqoop은 RBMS HDFS 사이에 데이터 ETL을 위해 만들어진 프로젝트이며, 하둡의 YARN, MapReduce 위에서 동작하는 하둡 에코시스템의 툴 중의 하나입니다. CLI로 간단하게 DB와 HDFS사이에 ET.. ourhistory160109.tistory.com 아래는 sqoop으로 적재 후 pyspark으로 건수 확인을 위한 코드 (curdate 기준 월별 건수 체크) from pyspark.sql import SparkSession import pyspark.sql.functions as F import p.. 2021. 3. 1. Sqoop ETL Sqoop (SQL to Hadoop) Sqoop은 RBMS HDFS 사이에 데이터 ETL을 위해 만들어진 프로젝트이며, 하둡의 YARN, MapReduce 위에서 동작하는 하둡 에코시스템의 툴 중의 하나입니다. CLI로 간단하게 DB와 HDFS사이에 ETL 실행 가능 --query 옵션을 사용하면 가져올 데이터에 select 쿼리 사용 가능 --num-mapper (또는 -m ) 옵션으로 병렬성 크기 지정가능 다양한 종류의 DB 지원 MySQL의 경우 기본적으로 지원하며, 그 외에 DB는 jdbc 드라이버를 /var/lib/sqoop 에 위치시켜야 함. 주요 명령어 sqoop eval 실제 적재 작업이 수행되지는 않고, --query 파라미터에 작성된 쿼리를 RDB에서 수행하여 결과값 출력 해당 RDB.. 2021. 2. 21. DataStage Job Xml export DataStage 클라이언트 툴 설치시 포함된 프로그램들을 활용하면 몇몇 유용한 기능들을 활용할 수 있습니다. Job 정보 테이블에 저장하기 (Folder path, SQL문, Job 생성/최종수정일시 등 ) Job 별로 저장된 쿼리문 확인을 위해 일일이 job을 열어보지 않고 테이블에서 확인 할 수 있다면 영향도 파악 등에서 훨씬 수월할 거 같습니다. 이를 위한, 2가지 방법 1. Job Xml export 하여 쿼리문 테이블에 저장 dsexport, dsjob 등의 명령을 활용하기 위해, 클라이언트 툴 설치경로 아래에 \Clients\Classic 으로 이동 dsjob Job 및 Sequence Name 목록 출력 dsjob -domain domain명:port -user ID -password PW.. 2021. 1. 17. Hadoop 설치(2) 사양이 딸려서(?) Cloudera 이용하지 않고 하둡 압축파일만 받아 설치해보기로 하였습니다. # wget https://downloads.apache.org/hadoop/common/hadoop-3.3.0/hadoop-3.3.0.tar.gz 압축해제 # tar -zxvf hadoop-3.3.0.tar.gz 디렉터리 이동 # mv hadoop-3.3.0 /usr/local 환경변수 설정 # vi /etc/profile # 추가 export HADOOP_HOME=/usr/local/hadoop-3.3.0 # 수정 export PATH=$PATH:JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$HADOOP_HOME/bin 수정한 환경변수 적용 [root@hadoop.. 2021. 1. 10. 이전 1 ··· 3 4 5 6 7 다음 728x90