Python Crawling

베하~안녕하세요

3대 5000의 man, xoxo 입니다

이번시간에는 Python을 이용한 Crawling에 대해 알아보겠습니다.

Crawling이란?

웹페이지에 있는 내용을 그대로 가져와 필요한 자료나 데이터를 수집하는 행위를 말합니다.

예를 들어 뉴스기사를 가져오고 싶을 때 간단한 코드만을 이용하여 기사를 추출할 수 있습니다.

파이썬에서 크롤링을 하는 방법으로 여러가지가 있습니다.

그 중에 requests와 Beautifulsoup를 이용하는 방법을 알아보겠습니다.

모듈 설치 방법

pip install requestes

pip install beautifulsoup4

사용방법

import requests from bs4
import BeautifulSoup as bs

url = "원하는 URL"
page = requests.get(url)
soup = bs(page.text, "html.parser")
name = soup.find("div", class_="top_summary_title__ViyrM").find("h2").get_text()
row_price = soup.find("em", class_="lowestPrice_num__A5gM9").get_text()
print(name)
print(row_price)

크롤링을 원하는 페이지에 접속하여 f12 를 클릭하면 아래와 같은 화면을 볼 수 있습니다.

원하는 곳에 마우스를 올리면 해당 html 정보를 알 수 있습니다.

필요한 정보의 css selector를 복사하여 코드에서 사용하면 원하는 정보만 추출할 수 있습니다.

위의 예시코드를 잘 활용하여 원하는 페이지의 데이터를 크롤링하면 좋을 것 같습니다~

저작자표시 비영리

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

베스핀글로벌 테크센터 블로그

Python Crawling

Crawling이란?

댓글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역