본문 바로가기
카테고리 없음

Python Crawling

by BTC_MAN 2024. 1. 19.

베하~안녕하세요 

3대 5000의 man, xoxo 입니다

 

이번시간에는 Python을 이용한 Crawling에 대해 알아보겠습니다. 

Crawling이란? 

웹페이지에 있는 내용을 그대로 가져와 필요한 자료나 데이터를 수집하는 행위를 말합니다. 

 

예를 들어 뉴스기사를 가져오고 싶을 때 간단한 코드만을 이용하여 기사를 추출할 수 있습니다. 

 

파이썬에서 크롤링을 하는 방법으로 여러가지가 있습니다.

그 중에 requests와 Beautifulsoup를 이용하는 방법을 알아보겠습니다. 

 

모듈 설치 방법

pip install requestes

pip install beautifulsoup4

 

사용방법

import requests from bs4
import BeautifulSoup as bs

url = "원하는 URL"
page = requests.get(url)
soup = bs(page.text, "html.parser")
name = soup.find("div", class_="top_summary_title__ViyrM").find("h2").get_text()
row_price = soup.find("em", class_="lowestPrice_num__A5gM9").get_text()
print(name)
print(row_price)

 

크롤링을 원하는 페이지에 접속하여 f12 를 클릭하면 아래와 같은 화면을 볼 수 있습니다. 

원하는 곳에 마우스를 올리면 해당 html 정보를 알 수 있습니다. 

필요한 정보의 css selector를 복사하여 코드에서 사용하면 원하는 정보만 추출할 수 있습니다. 

 

위의 예시코드를 잘 활용하여 원하는 페이지의 데이터를 크롤링하면 좋을 것 같습니다~

 

댓글