베하~안녕하세요
3대 5000의 man, xoxo 입니다
이번시간에는 Python을 이용한 Crawling에 대해 알아보겠습니다.
Crawling이란?
웹페이지에 있는 내용을 그대로 가져와 필요한 자료나 데이터를 수집하는 행위를 말합니다.
예를 들어 뉴스기사를 가져오고 싶을 때 간단한 코드만을 이용하여 기사를 추출할 수 있습니다.
파이썬에서 크롤링을 하는 방법으로 여러가지가 있습니다.
그 중에 requests와 Beautifulsoup를 이용하는 방법을 알아보겠습니다.
모듈 설치 방법
pip install requestes
pip install beautifulsoup4
사용방법
import requests from bs4
import BeautifulSoup as bs
url = "원하는 URL"
page = requests.get(url)
soup = bs(page.text, "html.parser")
name = soup.find("div", class_="top_summary_title__ViyrM").find("h2").get_text()
row_price = soup.find("em", class_="lowestPrice_num__A5gM9").get_text()
print(name)
print(row_price)
크롤링을 원하는 페이지에 접속하여 f12 를 클릭하면 아래와 같은 화면을 볼 수 있습니다.
원하는 곳에 마우스를 올리면 해당 html 정보를 알 수 있습니다.
필요한 정보의 css selector를 복사하여 코드에서 사용하면 원하는 정보만 추출할 수 있습니다.
위의 예시코드를 잘 활용하여 원하는 페이지의 데이터를 크롤링하면 좋을 것 같습니다~
댓글