spark dataframe to vertica

pyspark 상에서 Dataframe을 Vertica로 적재 할 때 활용할 수 있는 두가지 방법

vertica-spark 커넥터 활용
jdbc Driver 활용

You can use Vertica's Spark Connector.

This is generally the preferred way and faster.

But it has a dependency on HDFS as a temporary location to land the data before it is written to Vertica. Vertica & Spark must be able to access HDFS

No support for Kerberos Authentication (yet) without hacky workarounds

You can use the Vertica JDBC Driver

A little slower but no dependency on HDFS

You potentially may be able to define Kerberos params in the jdbc connection string.

May require writing a custom SQL Dialect (depending on what you want to do)

참고 - https://forum.vertica.com/discussion/241120/unable-to-write-spark-df-in-vertica-using-api

Unable to write spark DF in Vertica using API

Hi Team Getting below error when trying to save spark DF in vertica,this is blocking my work ,any help will be really appreciated ,couple of things here a) we have kereberosed cloudera and kerberosed vertica ,all necessary xml files are copied already in v

forum.vertica.com

연동을 위한 사전 준비사항

0. 공통

HDFS -> Vertica 방화벽 허용 설정

1. vertica-spark 커넥터

vertica-spark 커넥터 파일
df.save()호출 시 타겟테이블에 적재 전 임시경로 ('hdfs_url' 값으로 지정) 에 .orc 포맷으로 write 한 후 Vertica가 클라이언트로서 HDFS에 접근하여 COPY구문으로 적재하는 방식이어서, Vertica -> HDFS 로의 방화벽 허용 필요
버티카 전체 노드의 /etc/hadoop/conf 폴더에 core-site.xml, hdfs-site.xml 파일 필요
- select VERIFY_HADOOP_CONF_DIR() 하여 validation 체크
버티카 전체 노드의 /etc/hosts에 목적지 HDFS 노드 정보 추가
- 노드 정보 누락 있을 경우 아래 에러가 랜덤하게 발생
  - Could not connect to HDFS cluster (Namenode:port): No endpoints provided
참고: 2021.04.05 - [학습장/Hadoop] - vertica-spark 연동

2. jdbc Drvier

jdbc Driver jar 파일

save()시 mode별 특이사항

1. vertica-spark 커넥터

Dataframe에서 String 필드는 타겟테이블 생성시 모두 VARCHAR(strlen)로 생성
- strlen값은 옵션으로 지정가능 (default - 1024)
- 해당 길이 초과하는 데이터는 잘려서 적재됨
- https://www.vertica.com/docs/8.1.x/HTML/index.htm#Authoring/SparkConnector/WritingtoVerticaUsingDefaultSource.htm

적재시 null 값에 대한 별도 처리 불필요

2. jdbc Driver

Dataframe 상에 String 필드 있으면 overwrite 불가
- Dataframe에서 String 타입의 컬럼은 타겟테이블 생성시 TEXT로 생성 하려함
  - [Vertica][VJDBC](5108) ERROR: Type "TEXT" does not exist 에러 발생
append 시 String 필드에 null 값 있으면 에러 발생하여 Dataframe에서 빈값('') 등으로 치환 필요
- https://forum.vertica.com/discussion/238839/spark-df-to-vertica-driver-not-capable

저작자표시 (새창열림)

'학습장 > Data Engineering' 카테고리의 다른 글

python sqllineage 라이브러리 (6)	2022.08.29
ERROR s2v.S2V: ERROR: S2V.save(): did not pass the Vertica requirements pre-check. (0)	2021.07.14
spark 에서 jdbc 활용하여 RDB로 데이터 적재 (0)	2021.04.27
DataStage 쿼리 결과값을 파라미터로 활용 (0)	2021.04.20
vertica-spark 연동 (0)	2021.04.05

대두소두

spark dataframe to vertica

'학습장 > Data Engineering' 카테고리의 다른 글

댓글

티스토리툴바

spark dataframe to vertica

'학습장 > Data Engineering' 카테고리의 다른 글

관련글

댓글

티스토리툴바