Spark
-
[Spark] Tutorial #1 데이터 조회, 가공 & 데이터프레임 생성DataProcessing/Spark 2021. 1. 24. 23:09
Text파일 읽어오기 & 라인(row) 수 반환 sc lines = sc.textFile("README.md") # 해당 폴더 안에 있는 README.md 파일 읽기 lines.count() # 해당 파일 라인 수 전체 텍스트 읽기 (collect 함수) lines.collect() 특정 단어 포함한 문장 반환하기 python_in_lines = lines.filter(lambda line: "Python" in line) python_in_lines.collect() RDD map함수 => 각 데이터 요소에 함수를 적용해 'map' 타입으로 변환 rdd = sc.textFile("README.md") rdd_map = rdd.map(lambda x: (x,1)) rdd_map.collect() 첫 5문..
-
Spark 개념 정리IT용어정리 2021. 1. 8. 00:03
Spark input sources File source: txt, csv, json, orc 등 Kafka source: Kafka broker를 사용함 Socket source: UTF8 text data from socket connection(테스팅 목적으로만) Spark의 장점 unification of disparate 데이터 처리 능력 Spark streaming receivers가 병렬로 데이터를 받아서 스파크 workers nodes에 쌓으면, 스파크 엔진이 짧은 테스크를 돌려 배치 처리를 한다. 이는 곧 효율적인 로드밸런싱과 빠른 복구를 가능하게 한다. Stream processing 데이터들이 지속적으로 유입되고 나가는 과정에서 분석/SQL을 수행하는 것 데이터가 이동 중이거나, 생성..