requests, BeautifulSoup 모듈을 통해 네이버 평점 순위를 크롤링한다.

특정 날짜를 입력하면 그 날짜의 1위~41위(html상에 표기되어 있는 순위전체)

를 추출한 후, dataframe에 저장, csv로 최종 저장한다.

from bs4 import BeautifulSoup
import requests
import pandas as pd
url_base = 'https://movie.naver.com/movie/sdb/rank/rmovie.nhn?sel=cur&tg=0&date='
url_sub = input('날짜를 입력하세요[ex) 20200112]')
url = url_base + url_sub
res = requests.get(url)
soup = BeautifulSoup(res.text, 'html.parser')


movie_title = []
star = []
list_movie = soup.find_all('div', 'tit5')
list_star = soup.find_all('td', 'point')

for item in list_movie:
    movie_title.append(item.find('a').get_text())

for item in list_star:
    star.append(item.get_text())


df1 = pd.DataFrame(data = {'영화제목': movie_title, '평점': star},
                   index = range(1,len(movie_title)+1))
df1.to_csv('aa.csv')

'Data Anaylsis > python basic' 카테고리의 다른 글

웹크롤링 간단 summary  (0) 2020.01.21
크롤링  (0) 2020.01.21
데이터베이스 기초  (0) 2020.01.21
rss 크롤링  (0) 2020.01.21
웹툰 크롤링  (1) 2020.01.21

+ Recent posts