-
[Spark] Trend 분석 연관어 빈도수 구하기 (feat. 불용어 처리)DataProcessing/Spark 2021. 2. 6. 20:14728x90
총 2037건의 데이터 MongoDB 저장 후 연관어 빈도수 확인 및 불용어 처리하기
추측 단어들 리스트
- 위: 위.중증
- 형: 형집행정지
- 초: 올해 초, 초.중등
- 노: 노 마스크, 노 메이크업, 노 재팬
- 카: 카셰어링
- 융: 융.복합
- 거리두기의 경우 '거리' 와 '두기'로 나누어짐
=> '거리두기'는 한 단어로 봐도 무방해보임
'두기'는 stopwords에 추가하고 거리 count를 '거리두기'로 반환
- 거리의 경우 거 와 리 로 나누어짐
=> 거리일수도 있고, 코로나 우울(블루), 나만 그런 거 아니지? 와 같은 거의 사용이 있을 수 있다고 판단
- 확진자의 경우확과 진자로 나누어짐
=> total count로 봤을 때, 비슷하다고 판단하여 확은 Stopwords에 포함시키고, 진자는 확진자로 바꾸어 DB 저장
- 올해 초의 경우 올해와 초로 나누어짐
=> 초를 올해 초로 봐도 무방할 것 같다.
-
1분 동안 count한 계수가 1인 단어들은 모두 제외 (이슈라고 볼 수 없음)
=> 상위 5%로 자른 후 뒤에서부터 개수 1인 단어들 탐색 후 제외 (처음 상위 20%도 너무 많다고 판단하여 개수 줄임)
- 이상 오늘의 삽질일기 끝!
여기저기 삽질도 해보고
날려도 먹으면서
배우는 게
결국 남는거다
- Z.Sabziller
'DataProcessing > Spark' 카테고리의 다른 글
[Spark] 데이터 가공(Feat. 코로나 Trend분석) (0) 2021.02.17 [환경설정] Spark 설치 및 ubuntu 환경 설정 (feat.AWS) (0) 2021.02.15 [Spark] 스파크 Dataframe 데이터프레임 가공하기 (0) 2021.01.31 [Spark] Tutorial #1 데이터 조회, 가공 & 데이터프레임 생성 (0) 2021.01.24 [환경설정] spark 스파크 jupyter notebook 실행 설정 (0) 2021.01.17