Python Selenium과 Beautifulsoup 활용 예제 : 동적 크롤링 vs 정적 크롤링?

웹에서 원하는 데이터를 수집하는 과정인 웹 크롤링(Web Crawling)과 웹 스크래핑(Web Scraping)은 다양한 자동화 작업에 활용됩니다. 이를 위해 가장 많이 사용되는 라이브러리가 Selenium과 BeautifulSoup4입니다. 두 가지의 라이브러리는 각각 다른 방식으로 웹 데이터를 수집하며, 활용 목적에 따라 적절한 선택이 필요합니다. 보통 Javscript를 활용하여 동적으로 페이지를 로드하는 경우에는, Selenium을 사용하게 됩니다. 아래에서 차이점 및 활용 예시를 함께 살펴보겠습니다.

1. Selenium과 BeautifulSoup4의 차이점

Selenium과 BeautifulSoup4는 웹 데이터를 가져오는 기능을 제공하지만, 작동 방식과 주요 사용 사례가 다릅니다.

Selenium은 웹 브라우저를 직접 제어할 수 있는 자동화 라이브러리입니다. 웹 페이지의 동적인 요소를 다룰 수 있으며, JavaScript가 포함된 페이지에서도 데이터를 가져올 수 있습니다. 반면에, BeautifulSoup4는 HTML과 XML 문서를 파싱하여 원하는 정보를 쉽게 추출하는 라이브러리로, 정적인 웹 페이지 크롤링에 적합합니다.

두 라이브러리의 주요 특징을 비교하면 다음과 같습니다.

Selenium - 웹 브라우저를 직접 제어할 수 있으며, JavaScript가 렌더링된 페이지도 크롤링할 수 있습니다.
BeautifulSoup4 - HTML을 파싱하여 데이터를 추출하는 데 최적화되어 있으며, 정적인 웹 페이지에서 빠른 크롤링이 가능합니다.

2. BeautifulSoup4를 활용한 정적 웹 페이지 크롤링

BeautifulSoup4는 HTML 문서를 분석하여 원하는 정보를 추출하는 기능을 제공합니다. requests 라이브러리와 함께 사용하면 웹 페이지의 내용을 가져와 원하는 요소를 쉽게 찾을 수 있습니다.

아래의 예제로 함께 살펴보겠습니다.

import requests
from bs4 import BeautifulSoup

# 웹 페이지 요청
url = "https://example.com"
response = requests.get(url)

# HTML 파싱
soup = BeautifulSoup(response.text, "html.parser")

# 특정 태그 내용 추출
title = soup.find("title").text
print("페이지 제목:", title)

# 모든 링크 추출
links = soup.find_all("a")
for link in links:
    print(link.get("href"))

이 방식은 정적인 HTML 페이지에서 데이터를 가져오는 데 적합하며, 속도가 빠르고 간단하게 사용할 수 있습니다.

3. Selenium을 활용한 동적 웹 페이지 크롤링

동적 웹 페이지는 JavaScript로 생성되는 콘텐츠가 포함되어 있어 requests나 BeautifulSoup4만으로 데이터를 가져오는 것이 어렵습니다. Selenium을 사용하면 실제 브라우저를 실행하여 JavaScript가 로드된 이후의 데이터를 크롤링할 수 있습니다.

아래의 예제로 함께 살펴보겠습니다.

from selenium import webdriver
from selenium.webdriver.common.by import By
import time

# 웹 드라이버 실행
driver = webdriver.Chrome()

# 웹 페이지 열기
driver.get("https://example.com")

# 페이지 로딩 대기
time.sleep(3)

# 특정 요소 찾기
title = driver.title
print("페이지 제목:", title)

# 모든 링크 추출
links = driver.find_elements(By.TAG_NAME, "a")
for link in links:
    print(link.get_attribute("href"))

# 브라우저 닫기
driver.quit()

Selenium은 브라우저를 직접 실행하기 때문에 동적인 요소를 다룰 수 있으며, 로그인이나 버튼 클릭과 같은 사용자 동작을 자동화하는 데 유용합니다.

4. Selenium과 BeautifulSoup4를 함께 활용하기

BeautifulSoup4와 Selenium은 꼭 각각 활용해야 하는 것이 아닙니다. 용도에 따라서 두 크롤링 기법을 함께 사용하면, Selenium을 이용해 웹 페이지를 로드한 후, BeautifulSoup4를 활용하여 HTML을 파싱하는 방식으로 크롤링의 효율성을 높일 수 있습니다.

아래의 예제로 함께 살펴보겠습니다.

from selenium import webdriver
from selenium.webdriver.common.by import By
from bs4 import BeautifulSoup
import time

# 웹 드라이버 실행
driver = webdriver.Chrome()

# 웹 페이지 열기
driver.get("https://example.com")

# 페이지 로딩 대기
time.sleep(3)

# 페이지 소스 가져오기
html = driver.page_source

# BeautifulSoup4로 HTML 파싱
soup = BeautifulSoup(html, "html.parser")

# 특정 요소 추출
title = soup.find("title").text
print("페이지 제목:", title)

# 모든 링크 추출
links = soup.find_all("a")
for link in links:
    print(link.get("href"))

# 브라우저 닫기
driver.quit()

이 방식은 JavaScript가 렌더링된 이후의 데이터를 가져온 후, BeautifulSoup4를 활용하여 빠르게 원하는 데이터를 추출할 수 있는 방법입니다.

5. 최종 : Selenium vs BeautifulSoup4 비교

두 라이브러리는 크롤링 방식과 활용 목적이 다르므로, 상황에 맞게 선택하는 것이 중요합니다.

정적인 웹 페이지 크롤링 - HTML이 변하지 않는 경우, BeautifulSoup4를 사용하면 빠르게 데이터를 추출할 수 있습니다.
JavaScript 렌더링이 필요한 경우 - Selenium을 사용하면 동적인 웹 페이지에서도 데이터를 가져올 수 있습니다.
대량의 데이터를 빠르게 크롤링 - BeautifulSoup4는 브라우저를 실행할 필요가 없어 속도가 빠르며, 대량의 데이터를 처리하는 데 적합합니다.
사용자 동작이 필요한 경우 - 로그인, 버튼 클릭, 페이지 스크롤 등 자동화가 필요한 경우 Selenium이 적절합니다.

특정한 요구 사항에 따라 선택 방법을 추천해 보겠습니다.

단순한 HTML 데이터를 빠르게 크롤링하려면 BeautifulSoup4가 적합하고, 로그인이 필요하거나 버튼 클릭을 해야 하는 경우 Selenium이 적합합니다.
또한 JavaScript로 렌더링된 데이터를 가져온 후 빠르게 파싱하려면 Selenium과 BeautifulSoup4를 함께 활용하는 것이 효과적입니다.

각 라이브러리는 특정한 목적에 최적화되어 있으므로, 크롤링하려는 웹 페이지의 특성과 필요에 따라 적절한 방법을 선택하여 원하는 데이터 수집에 문제 없이 활용하기를 바랍니다.

저작자표시 비영리 변경금지 (새창열림)

부기의 IT 공간

Python Selenium과 Beautifulsoup 활용 예제 : 동적 크롤링 vs 정적 크롤링?

1. Selenium과 BeautifulSoup4의 차이점

2. BeautifulSoup4를 활용한 정적 웹 페이지 크롤링

3. Selenium을 활용한 동적 웹 페이지 크롤링

4. Selenium과 BeautifulSoup4를 함께 활용하기

5. 최종 : Selenium vs BeautifulSoup4 비교

티스토리툴바