본문 바로가기
스포츠 데이터 분석

R studio 를 활용한 배구 기사 워드 클라우드(World Cloud) 생성하기

by knowing_j1n 2024. 8. 30.
728x90

안녕하세요.

오늘은 워드 크라우딩을 한번 해보겠습니다.

 

사용할 URL은 아래와 같습니다.

 

https://sports.news.naver.com/volleyball/index

 

배구 : 네이버 스포츠

스포츠의 시작과 끝!

sports.news.naver.com

 

스포츠 데이터 분석

 


사용한 library 와 변경한 파라미터들은 아래와 같습니다.


 

library(rvest) : R에서 웹 스크래핑(Web Scraping)을 쉽게 할 수 있도록 도와주는 라이브러리

 

library(tm) : 텍스트 마이닝(Text Mining)을 위한 라이브러리.

 

library(wordcloud) : 텍스트 데이터를 시각화하는 데 사용되는 워드 클라우드를 생성하는 라이브러리

 

library(RColorBrewer) : 데이터 시각화를 위한 색상 팔레트를 제공하는 라이브러리


 

" min.freq = 1 " => 빈도수가 2보다 작은 단어는 제외.

 

" max.words = 500000 "  =>  최대 50,000개의 단어를 포함할 수 있음을 의미.

 

" random.order = FALSE " =>  빈도수에 따라 중앙에 더 큰 단어들이 위치

 

" rot.per = 0.35 " =>  단어 중 약 35%가 회전된다는 것을 의미

 

" brewer.pal(8, "Dark2") " =>  "Dark2" 팔레트의 8가지 색상을 사용하여 단어들을 색칠

 


아래 사진은 위 URL을 워드 크라우드 한 결과 입니다.

URL 워드 크라우드

가장 빈도수가 높은 단어는 "흥국생명" 인 것을 알 수 있습니다. 

 

그 다음으로 "삼성화재" , "한국도로공사" , "페퍼저축은행" 등이 있는 것을 알 수 있습니다.

 

개인적인 견해로는, 여자배구팀중 상대적으로 인지도가 높기 때문에 기사 제목으로도 많이 인용되는 것 같습니다.

 


https://sports.news.naver.com/volleyball/news/index?page=1&date=20240829&isphoto=N

 

뉴스, 프로배구 : 네이버 스포츠

스포츠의 시작과 끝!

sports.news.naver.com

29일에 작성된 모든 뉴스 기사 워드 클라우딩

쓸데 없는거 제거 

 

단어 수 , 빈도 확인

 

최종 클라우딩 

 

워드 크라우드

 

 

 


정적 크롤링을 사용하여 원활하게 크롤링이 되지 않았던 것 같습니다.


추후에 동적 크롤링을 활용하여 다시 수행한 후 추가적으로 작성해 보도록 하겠습니다.


읽어주셔서 감사합니다.

728x90