안녕하세요.
오늘은 워드 크라우딩을 한번 해보겠습니다.
사용할 URL은 아래와 같습니다.
https://sports.news.naver.com/volleyball/index
배구 : 네이버 스포츠
스포츠의 시작과 끝!
sports.news.naver.com
사용한 library 와 변경한 파라미터들은 아래와 같습니다.
library(rvest) : R에서 웹 스크래핑(Web Scraping)을 쉽게 할 수 있도록 도와주는 라이브러리
library(tm) : 텍스트 마이닝(Text Mining)을 위한 라이브러리.
library(wordcloud) : 텍스트 데이터를 시각화하는 데 사용되는 워드 클라우드를 생성하는 라이브러리
library(RColorBrewer) : 데이터 시각화를 위한 색상 팔레트를 제공하는 라이브러리
" min.freq = 1 " => 빈도수가 2보다 작은 단어는 제외.
" max.words = 500000 " => 최대 50,000개의 단어를 포함할 수 있음을 의미.
" random.order = FALSE " => 빈도수에 따라 중앙에 더 큰 단어들이 위치
" rot.per = 0.35 " => 단어 중 약 35%가 회전된다는 것을 의미
" brewer.pal(8, "Dark2") " => "Dark2" 팔레트의 8가지 색상을 사용하여 단어들을 색칠
아래 사진은 위 URL을 워드 크라우드 한 결과 입니다.
URL 워드 크라우드
가장 빈도수가 높은 단어는 "흥국생명" 인 것을 알 수 있습니다.
그 다음으로 "삼성화재" , "한국도로공사" , "페퍼저축은행" 등이 있는 것을 알 수 있습니다.
개인적인 견해로는, 여자배구팀중 상대적으로 인지도가 높기 때문에 기사 제목으로도 많이 인용되는 것 같습니다.
https://sports.news.naver.com/volleyball/news/index?page=1&date=20240829&isphoto=N
뉴스, 프로배구 : 네이버 스포츠
스포츠의 시작과 끝!
sports.news.naver.com
29일에 작성된 모든 뉴스 기사 워드 클라우딩
쓸데 없는거 제거
단어 수 , 빈도 확인
최종 클라우딩
정적 크롤링을 사용하여 원활하게 크롤링이 되지 않았던 것 같습니다.
추후에 동적 크롤링을 활용하여 다시 수행한 후 추가적으로 작성해 보도록 하겠습니다.
읽어주셔서 감사합니다.
'스포츠 데이터 분석' 카테고리의 다른 글
KBO 준플레이오프 5차전 LG : KT 프리뷰 (13) | 2024.10.10 |
---|---|
네이버 스포츠 (야구) 웹사이트 크롤링 (6) | 2024.08.28 |
2023-24 남자배구 순위표 데이터 시각화 (2) | 2024.06.30 |