파이썬 강의/requests

파이썬 BeautifulSoup 0. 파이썬으로 크롤링 하기

마리사라 2021. 1. 23. 14:02
반응형

앞선 requests강의에서 사이트와 기본적인 통신을 하는 방법을 알아보았습니다. 이번 시간부터는 웹 크롤링을 도와주는 모듈인 BeautifulSoup에 대해서 강의해 보도록 하겠습니다.


1. 크롤링

네이버 검색 로봇 Yeti

크롤링 또는 스크래핑은 웹 페이지에서 데이터를 추출하는 작업을 말합니다. 일반적인 사용자는 잘 사용하지 않지만, 대부분의 웹 사이트는 크롤링과 비슷한 행위를 합니다.

NAVER에 등록된 본 블로그

웹 사이트 중 하나인 NAVER에서는 Yeti라는 검색 로봇을 사용합니다. Yeti는 여러 사이트를 순회하면서 페이지의 정보를 읽습니다. 그 후, 자신의 검색 엔진에 해당 페이지를 등록하게 됩니다. 이러한 방법으로 사이트들이 NAVER의 검색 결과에 등록되게 됩니다.

 

이런 식으로 사이트의 정보를 수집하는 작업을 크롤링이라고 하며, 이를 도와주는 파이썬의 모듈이 바로 BeautifulSoup입니다.


2. BeautifulSoup

BeautifulSoup는 파이썬의 기본 모듈이 아니기에, 설치를 해야 합니다. BeautifulSoup는 bs4라는 모듈에 포함된 하위 모듈이며, bs4를 설치하면 그 외의 모든 모듈이 설치됩니다.

 

cmd - pip install bs4

pip를 통해 bs4를 설치하시면 바로 사용이 가능합니다.

from bs4 import BeautifulSoup

BeautifulSoup는 위와 같이 import 해 주시면 사용이 가능합니다.

 

다음 시간부턴 BeautifulSoup를 활용하여 웹사이트를 크롤링하는 것을 직접 배워보도록 하겠습니다. 감사합니다.

반응형