반응형
앞선 requests강의에서 사이트와 기본적인 통신을 하는 방법을 알아보았습니다. 이번 시간부터는 웹 크롤링을 도와주는 모듈인 BeautifulSoup에 대해서 강의해 보도록 하겠습니다.
1. 크롤링
크롤링 또는 스크래핑은 웹 페이지에서 데이터를 추출하는 작업을 말합니다. 일반적인 사용자는 잘 사용하지 않지만, 대부분의 웹 사이트는 크롤링과 비슷한 행위를 합니다.
웹 사이트 중 하나인 NAVER에서는 Yeti라는 검색 로봇을 사용합니다. Yeti는 여러 사이트를 순회하면서 페이지의 정보를 읽습니다. 그 후, 자신의 검색 엔진에 해당 페이지를 등록하게 됩니다. 이러한 방법으로 사이트들이 NAVER의 검색 결과에 등록되게 됩니다.
이런 식으로 사이트의 정보를 수집하는 작업을 크롤링이라고 하며, 이를 도와주는 파이썬의 모듈이 바로 BeautifulSoup입니다.
2. BeautifulSoup
BeautifulSoup는 파이썬의 기본 모듈이 아니기에, 설치를 해야 합니다. BeautifulSoup는 bs4라는 모듈에 포함된 하위 모듈이며, bs4를 설치하면 그 외의 모든 모듈이 설치됩니다.
pip를 통해 bs4를 설치하시면 바로 사용이 가능합니다.
from bs4 import BeautifulSoup |
BeautifulSoup는 위와 같이 import 해 주시면 사용이 가능합니다.
다음 시간부턴 BeautifulSoup를 활용하여 웹사이트를 크롤링하는 것을 직접 배워보도록 하겠습니다. 감사합니다.
반응형
'파이썬 강의 > requests' 카테고리의 다른 글
파이썬 BeautifulSoup 2. 페이지 정보 추출 (0) | 2021.01.25 |
---|---|
파이썬 BeautifulSoup 1. 페이지 크롤링 (0) | 2021.01.24 |
파이썬 rquests 3. header와 cookie (0) | 2021.01.14 |
파이썬 requests 2. text와 content (0) | 2021.01.04 |
파이썬 requests 1. get, post, response (1) | 2020.12.16 |