show()
반응형
-
[Spark] Tutorial #1 데이터 조회, 가공 & 데이터프레임 생성DataProcessing/Spark 2021. 1. 24. 23:09
Text파일 읽어오기 & 라인(row) 수 반환 sc lines = sc.textFile("README.md") # 해당 폴더 안에 있는 README.md 파일 읽기 lines.count() # 해당 파일 라인 수 전체 텍스트 읽기 (collect 함수) lines.collect() 특정 단어 포함한 문장 반환하기 python_in_lines = lines.filter(lambda line: "Python" in line) python_in_lines.collect() RDD map함수 => 각 데이터 요소에 함수를 적용해 'map' 타입으로 변환 rdd = sc.textFile("README.md") rdd_map = rdd.map(lambda x: (x,1)) rdd_map.collect() 첫 5문..