-
[Spark Streaming] Kafka TransformedDStream 변환하기DataProcessing/Spark 2021. 2. 19. 23:42728x90
Kafka에서 받아온 메시지를 json으로 직접적인 변환을 하려고 하면 다음과 같은 에러 발생:
"TypeError: 'TransformedDStream' object is not iterable"
"TypeError: 'TransformedDStream' object is not subscriptable"
Expecting value: line 1 column 1 (char 0)*DStream 타입은 연속적인 RDD 배열로서, 연속적인 스트리밍 데이터를 의미한다.
여기에서는 Kafka에서 데이터를 실시간으로 받아오면서 생성된다.
따라서 foreachRDD를 사용해서 DStream 각 RDD에 접근하여 임의의 연산 수행이 가능하게 해줍니다.
print((message)) => <pyspark.streaming.dstream.TransformedDStream object at 0x7f9e7416a190>
print(type(message)) => <class 'str'>RDD를 Json으로 변환하기 위해 handle_rdd()함수 생성
Twitter API 데이터 건수 확인(5초 당)
-
[코로나] : 2/2/4/6/5
-
[covid] : 81/82/104/93/79/82
-
[covid, COVID-19] : 103/121/103/108/88/92/85/100/89/95
-
[covid, COVID-19, coronavirus] : 103/121/103/108/88/92/85/100/89/95
- 이상 오늘의 삽질일기 끝!
여기저기 삽질도 해보고
날려도 먹으면서
배우는 게
결국 남는거다
- Z.Sabziller
'DataProcessing > Spark' 카테고리의 다른 글
[Spark Streaming] spark-streaming-kafka 실행 오류 해결 (feat. 파일 경로 옮기기) (0) 2021.02.24 [Spark Streaming] Kafka-Spark Streaming-Cassandra 연동 (feat.pyspark) (0) 2021.02.23 [Spark Streaming] Tutorial #1 트윗 데이터 실시간 스트리밍(feat. Kafka, Pyspark) (0) 2021.02.18 [Spark] 데이터 가공(Feat. 코로나 Trend분석) (0) 2021.02.17 [환경설정] Spark 설치 및 ubuntu 환경 설정 (feat.AWS) (0) 2021.02.15 -