대용량 데이터처리
반응형
-
Spark 개념 정리IT용어정리 2021. 1. 8. 00:03
Spark input sources File source: txt, csv, json, orc 등 Kafka source: Kafka broker를 사용함 Socket source: UTF8 text data from socket connection(테스팅 목적으로만) Spark의 장점 unification of disparate 데이터 처리 능력 Spark streaming receivers가 병렬로 데이터를 받아서 스파크 workers nodes에 쌓으면, 스파크 엔진이 짧은 테스크를 돌려 배치 처리를 한다. 이는 곧 효율적인 로드밸런싱과 빠른 복구를 가능하게 한다. Stream processing 데이터들이 지속적으로 유입되고 나가는 과정에서 분석/SQL을 수행하는 것 데이터가 이동 중이거나, 생성..