본문 바로가기

학습장/Data Engineering26

spark dataframe to vertica pyspark 상에서 Dataframe을 Vertica로 적재 할 때 활용할 수 있는 두가지 방법 vertica-spark 커넥터 활용 jdbc Driver 활용 You can use Vertica's Spark Connector. This is generally the preferred way and faster. But it has a dependency on HDFS as a temporary location to land the data before it is written to Vertica. Vertica & Spark must be able to access HDFS No support for Kerberos Authentication (yet) without hacky workarounds.. 2021. 6. 29.
spark 에서 jdbc 활용하여 RDB로 데이터 적재 2021.04.05 - [학습장/Hadoop] - vertica-spark 연동 vertica-spark 연동 Vertica와 pyspark 연동을 위해 버티카쪽에서 필요한 설정 1. VERIFY_HADOOP_CONF_DIR 연동하고자 하는 hadoop의 core-site.xml, hdfs-site.xml 파일을 버티카 전체 노드마다 /etc/hadoop/conf 에 위치시킴. 아래.. ourhistory160109.tistory.com vertica-pyspark 커넥터 활용한 vertica와 pyspark 간 load(), save() 통한 연동에 관한 포스팅에 이어 jdbc 활용하여 pyspark Dataframe을 RDB 테이블에 적재하는 방법에 대해 포스팅하고자 합니다. ex) save to V.. 2021. 4. 27.
DataStage 쿼리 결과값을 파라미터로 활용 DataStage에서 필요시 쿼리 결과값을 job 파라미터로 활용이 가능하다. 파라미터셋을 별도로 추가(변수명, 파일명 지정) 하고, 쿼리 결과를 파일에 기록하면 (파라미터셋에서 지정한 파일명으로) 사용하고자 하는 Job에서 파라미터로 활용하는 방식. ex) 타겟테이블의 특정 컬럼의 max값 기준으로 ETL 하고자 할 때 1. 파라미터셋 생성 Parameters 탭에서 name 지정 (여기서 지정한 Parameter name을 파라미터로 사용하기 위해 수행할 쿼리 결과값에 concat 시켜야함.) Values 탭에서 파일명 지정 (지정한 경로에 써질 파일명) 위 처럼 추가하면, DS서버에서 ParameterSets/ParameterSet명(위 예에서 test_param) 폴더 아래에 Value File .. 2021. 4. 20.
vertica-spark 연동 Vertica와 pyspark 연동 (특히, spark -> Vertica로 데이터 적재)을 위해 버티카쪽에서 필요한 설정 ( load() 의 경우 필요한 .jar 파일만 있으면 가능) 1. VERIFY_HADOOP_CONF_DIR 연동하고자 하는 hadoop의 core-site.xml, hdfs-site.xml 파일을 버티카 전체 노드마다 /etc/hadoop/conf 에 위치시킴. 아래 쿼리를 수행하여 각 노드별로 정상 적용 여부 체크 가능 SELECT VERIFY_HADOOP_CONF_DIR(); #참고 https://www.vertica.com/docs/8.1.x/HTML/index.htm#Authoring/SQLReferenceManual/Functions/VerticaFunctions/VERI.. 2021. 4. 5.
728x90