DataProcessing/Spark
[Spark] Pyspark 데이터프레임을 JSON 딕셔너리로 변환하기
쫄보삽질러
2021. 3. 1. 21:59
Dataframe => JSON 변환하기
1. 데이터프레임에서 toJSON 함수와 collect하면 전체 dataset을 string으로 반환한다.
new_dfdf = df.toJSON().collect()
print('new_dfdf', type(new_dfdf[0]), new_dfdf)
만약 new_dfdf[0]을 출력해보면, '{' 문자가 나온다.
2. 따라서 key와 value로 접근하기 위한 dict로 변환하려면 개별 map에 대해 json.loads로 해주어야 한다.
new_df = df.toJSON().map(lambda x: json.loads(x)).collect()
print('new_df', type(new_df[0]), new_df)
- 이상 오늘의 삽질일기 끝!
여기저기 삽질도 해보고
날려도 먹으면서
배우는 게
결국 남는거다
- Z.Sabziller
반응형