[Spark] Trend 분석 연관어 빈도수 구하기 (feat. 불용어 처리)

DataProcessing/Spark 2021. 2. 6. 20:14

총 2037건의 데이터 MongoDB 저장 후 연관어 빈도수 확인 및 불용어 처리하기

추측 단어들 리스트

위: 위.중증
형: 형집행정지
초: 올해 초, 초.중등
노: 노 마스크, 노 메이크업, 노 재팬
카: 카셰어링
융: 융.복합

거리두기의 경우 '거리' 와 '두기'로 나누어짐

=> '거리두기'는 한 단어로 봐도 무방해보임

'두기'는 stopwords에 추가하고 거리 count를 '거리두기'로 반환

거리의 경우 거 와 리 로 나누어짐

=> 거리일수도 있고, 코로나 우울(블루), 나만 그런 거 아니지? 와 같은 거의 사용이 있을 수 있다고 판단

확진자의 경우확과 진자로 나누어짐

=> total count로 봤을 때, 비슷하다고 판단하여 확은 Stopwords에 포함시키고, 진자는 확진자로 바꾸어 DB 저장

올해 초의 경우 올해와 초로 나누어짐

=> 초를 올해 초로 봐도 무방할 것 같다.

1분 동안 count한 계수가 1인 단어들은 모두 제외 (이슈라고 볼 수 없음)

=> 상위 5%로 자른 후 뒤에서부터 개수 1인 단어들 탐색 후 제외 (처음 상위 20%도 너무 많다고 판단하여 개수 줄임)

- 이상 오늘의 삽질일기 끝!

여기저기 삽질도 해보고

날려도 먹으면서

배우는 게

결국 남는거다

- Z.Sabziller

저작자표시

'DataProcessing > Spark' 카테고리의 다른 글

[Spark] 데이터 가공(Feat. 코로나 Trend분석) (0)	2021.02.17
[환경설정] Spark 설치 및 ubuntu 환경 설정 (feat.AWS) (0)	2021.02.15
[Spark] 스파크 Dataframe 데이터프레임 가공하기 (0)	2021.01.31
[Spark] Tutorial #1 데이터 조회, 가공 & 데이터프레임 생성 (0)	2021.01.24
[환경설정] spark 스파크 jupyter notebook 실행 설정 (0)	2021.01.17

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

인기포스트

ABOUT ME

쫄보의삽질 블로그 쫄보의삽질 블로그

총 2037건의 데이터 MongoDB 저장 후 연관어 빈도수 확인 및 불용어 처리하기

추측 단어들 리스트

'DataProcessing > Spark' 카테고리의 다른 글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역

인기포스트

ABOUT ME

총 2037건의 데이터 MongoDB 저장 후 연관어 빈도수 확인 및 불용어 처리하기

추측 단어들 리스트

'DataProcessing > Spark' 카테고리의 다른 글

관련글 관련글 더보기

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역