웹크롤링 간단 summary

난리브루스! 2020. 1. 21. 17:22

2020. 1. 21. 17:22

총정리

1일차

- urllib.request를 활용한 html 추출은 바이트로 들어오기 대문에 encoding 방식을 통해 알아내서 decoding 해주어야 한 다.

- re정규표현식을 통해 html 파싱을 해서 원하는 정보를 추출할 수 잇어야한다.

- Match객체 함수를 활용하여 re.compile에서 정규표현식을 매번 파싱하는게 번거로워서 미리 분석하여서

p.match와 같이 반복 횟수를 줄인다.

책제목 추출하는 예제 했음.

2일차

requests (써드모듈) 사용

lxml을 이용해서 HTML 스크레이핑을 하였음.

Xpath(XML path Language)

CSS(Cascading Style Sheets)

등을 활용하여 적절한 태그, 속성으로 접근하여 원하는 것만 추출한다.

BeautifulSoup

parsing(구문 분석): 이란? 구성 성분으로 분해 -> 관계 분석 -> 구조 결정

chrome 개발자 도구를 이용해서 element로 접근, 내가 원하는 정보를 분석 가능

예시, 시카고 맛집, 네이버 영화 평점 크롤링

3일차

RSS 스크레이핑 자주 변화하는 정보들을 쉽게 파악할 수 있도록 하는 콘텐츠 표현 방식

xml 기반 표준으로 사용된다.

feedparser라는 모듈을 활용하였다.

feed 속성을 가진 것과 entries 속성을 가진 것으로 나누어 진다.

feed.title, entries.title 등으로 접근 하여 사용할수 있었다.

데이터 베이스에 저장하기

sqlite3를 활용하여 데이터베이스를 조작하고, 테이블 생성, 삽입, 삭제, 업데이트 등의 sql을 사용해봄

파이썬에서 db연결 ( connect, cursor)

크롤러 만들기 순서

1. 웹페이지 추출

request

2. lxml 파싱

3. 데이터베이스 저장

상세페이지에는 session을 활용하여 계속들어갈 수 이썽ㅅ음.

4일차

마지막으로 javascript로 작성되어진 웹페이지를 크롤링 하는 방법에 대해서 배움.(동적 웹페이지)

예시로 주유소 정보 가져오기, 샌드위치 집 시각화 하기 해봄

저작자표시

'Data Anaylsis > python basic' 카테고리의 다른 글

크롤링 (0)	2020.01.21
영화 평점 크롤링 (0)	2020.01.21
데이터베이스 기초 (0)	2020.01.21
rss 크롤링 (0)	2020.01.21
웹툰 크롤링 (1)	2020.01.21

공대답게, 음악답게

웹크롤링 간단 summary

1일차

2일차

3일차

4일차

'Data Anaylsis > python basic' 카테고리의 다른 글

+ Recent posts

티스토리툴바