반응형

크롤링 3

파이썬 BeautifulSoup 2. 페이지 정보 추출

파이썬 BeautifulSoup 2번째 강의는 페이지의 정보를 추출하는 방법입니다. 0. 기초 설명 이전 강의에서 페이지를 크롤링을 하는 방법을 알아보았습니다. 하지만 크롤링 만으로는 단순한 문자의 집합에 불과합니다. 이것을 가공하여 실제로 사용할 수 있는 데이터로 만들어 주어야 합니다. 네이버의 뉴스 토픽을 예시로 들어 보겠습니다. 해당 데이터를 가지고 파이썬에서 현재 뉴스 토픽 1위가 무엇인지 확인하고자 한다고 하겠습니다. 단순한 크롤링 데이터에서 뉴스토픽을 찾기 위해선 아래와 같은 작업이 필요할 것입니다. 뉴스 토픽이라고 적힌 부분을 찾는다 1이라고 적힌 부분을 찾아 저장한다 다음에 오는 텍스트를 찾아 저장한다 2 ~ 3의 작업을 10위까지 반복한다 저장된 값들을 적절히 배치한다 하지만 자세히 보면..

파이썬 BeautifulSoup 1. 페이지 크롤링

파이썬 BeautifulSoup 1번째 강의는 페이지 크롤링입니다. 0. 기초 설명 저번 BeautifulSoup의 설명에서 크롤링이 무엇인지는 알아보았습니다. 이번에는 BeautifulSoup에서의 크롤링이 무엇인지 알아보겠습니다. requests모듈에서도 웹 페이지의 html정보는 받아올 수 있음을 알고 있습니다. 잘 모르시는 분은 이전 강의를 참조하시기 바랍니다. 2021/01/04 - [파이썬/requests] - 파이썬 requests 2. text와 content 파이썬 requests 2. text와 content 파이썬 requests 2번째 강의는 text와 content입니다. 0. 기초 설명 여러분들이 사용하고 계신 인터넷은 모두 html(HyperText Mark-up Languag..

파이썬 BeautifulSoup 0. 파이썬으로 크롤링 하기

앞선 requests강의에서 사이트와 기본적인 통신을 하는 방법을 알아보았습니다. 이번 시간부터는 웹 크롤링을 도와주는 모듈인 BeautifulSoup에 대해서 강의해 보도록 하겠습니다. 1. 크롤링 크롤링 또는 스크래핑은 웹 페이지에서 데이터를 추출하는 작업을 말합니다. 일반적인 사용자는 잘 사용하지 않지만, 대부분의 웹 사이트는 크롤링과 비슷한 행위를 합니다. 웹 사이트 중 하나인 NAVER에서는 Yeti라는 검색 로봇을 사용합니다. Yeti는 여러 사이트를 순회하면서 페이지의 정보를 읽습니다. 그 후, 자신의 검색 엔진에 해당 페이지를 등록하게 됩니다. 이러한 방법으로 사이트들이 NAVER의 검색 결과에 등록되게 됩니다. 이런 식으로 사이트의 정보를 수집하는 작업을 크롤링이라고 하며, 이를 도와주는..

반응형