requests, BeautifulSoup 모듈을 통해 네이버 평점 순위를 크롤링한다.
특정 날짜를 입력하면 그 날짜의 1위~41위(html상에 표기되어 있는 순위전체)
를 추출한 후, dataframe에 저장, csv로 최종 저장한다.
from bs4 import BeautifulSoup
import requests
import pandas as pd
url_base = 'https://movie.naver.com/movie/sdb/rank/rmovie.nhn?sel=cur&tg=0&date='
url_sub = input('날짜를 입력하세요[ex) 20200112]')
url = url_base + url_sub
res = requests.get(url)
soup = BeautifulSoup(res.text, 'html.parser')
movie_title = []
star = []
list_movie = soup.find_all('div', 'tit5')
list_star = soup.find_all('td', 'point')
for item in list_movie:
movie_title.append(item.find('a').get_text())
for item in list_star:
star.append(item.get_text())
df1 = pd.DataFrame(data = {'영화제목': movie_title, '평점': star},
index = range(1,len(movie_title)+1))
df1.to_csv('aa.csv')
'Data Anaylsis > python basic' 카테고리의 다른 글
웹크롤링 간단 summary (0) | 2020.01.21 |
---|---|
크롤링 (0) | 2020.01.21 |
데이터베이스 기초 (0) | 2020.01.21 |
rss 크롤링 (0) | 2020.01.21 |
웹툰 크롤링 (1) | 2020.01.21 |