본문 바로가기

학습장59

DataStage 쿼리 결과값을 파라미터로 활용 DataStage에서 필요시 쿼리 결과값을 job 파라미터로 활용이 가능하다. 파라미터셋을 별도로 추가(변수명, 파일명 지정) 하고, 쿼리 결과를 파일에 기록하면 (파라미터셋에서 지정한 파일명으로) 사용하고자 하는 Job에서 파라미터로 활용하는 방식. ex) 타겟테이블의 특정 컬럼의 max값 기준으로 ETL 하고자 할 때 1. 파라미터셋 생성 Parameters 탭에서 name 지정 (여기서 지정한 Parameter name을 파라미터로 사용하기 위해 수행할 쿼리 결과값에 concat 시켜야함.) Values 탭에서 파일명 지정 (지정한 경로에 써질 파일명) 위 처럼 추가하면, DS서버에서 ParameterSets/ParameterSet명(위 예에서 test_param) 폴더 아래에 Value File .. 2021. 4. 20.
python 외부 스크립트 import 별도 작성하여 모듈로 사용하고자 하는 python 스크립트를 path 신경쓰지 않고 import 시키기 위한 간단한 방법 리눅스 기준 아래 경로에 .py를 위치 시킨다. (기존 패키지가 위치하는 경로) 사용자홈디렉토리/.local/lib/python3.X/site-packages pip (--user 옵션) 으로 외부 패키지 설치한 경우에도 위 경로에 설치 됨. python은 import시 내부적으로 3군데에서 해당 모듈이 존재하는지 찾는다. - 내장모듈 - sys.modules - sys.path PYTHON_PATH 에 추가해준 경로가 sys.path 에도 추가됨 ex) sys.path 확인 >>> import sys >>> sys.path ['', '/home/testuser/.local/lib/p.. 2021. 4. 12.
vertica-spark 연동 Vertica와 pyspark 연동 (특히, spark -> Vertica로 데이터 적재)을 위해 버티카쪽에서 필요한 설정 ( load() 의 경우 필요한 .jar 파일만 있으면 가능) 1. VERIFY_HADOOP_CONF_DIR 연동하고자 하는 hadoop의 core-site.xml, hdfs-site.xml 파일을 버티카 전체 노드마다 /etc/hadoop/conf 에 위치시킴. 아래 쿼리를 수행하여 각 노드별로 정상 적용 여부 체크 가능 SELECT VERIFY_HADOOP_CONF_DIR(); #참고 https://www.vertica.com/docs/8.1.x/HTML/index.htm#Authoring/SQLReferenceManual/Functions/VerticaFunctions/VERI.. 2021. 4. 5.
Bash shell date 반복문 Bash shell date 활용한 반복문 샘플입니다. ex. 시작월(YYYYMM) ~ 종료월(YYYYMM) 입력하여 월별 반복수행 #!/bin/bash if [ $# -ne 2 ]; then echo "usage: $0 startYM endYM" exit 1 fi startYm=`date -d $1"01" +'%Y-%m-%d'` endYm=`date -d $2"01 + 1 month" +'%Y-%m-%d'` while [ "$startYm" != "$endYm" ]; do echo `date -d "$startYm" +"%Y"` `date -d "$startYm" +"%m"` ":" $startYm "~" `date -d "$startYm + 1 month" +"%Y-%m-%d"` # ... start.. 2021. 4. 5.
728x90