본문 바로가기

전체 글59

robots.txt : 크롤링 전 꼭 알아야 할 필수 지침 (개념, 정책 및 확인 방법) 웹 크롤링을 할 때 반드시 고려해야 할 요소 중 하나가 바로 robots.txt입니다. 이 파일은 사이트 소유자가 검색 엔진 크롤러나 자동화 프로그램에게 어떤 페이지는 접근해도 되고, 어떤 페이지는 접근하면 안 되는지를 알려주는 표준 규칙입니다. 이번 글에서는 robots.txt의 기본 개념, 정책의 구성 방식, 그리고 실제 확인 방법에 대해 차근차근 알아보겠습니다.1. robots.txt의 개념이란?robots.txt는 웹사이트의 루트 디렉토리에 위치한 텍스트 파일로, 웹 크롤러에게 접근 권한을 안내하는 역할을 합니다. 예를 들어, 검색 엔진이 사이트를 수집할 때 특정 폴더나 URL을 수집하지 않도록 사전에 설정해 놓은 것이라고 생각하면 되겠습니다. robots.txt라는 이 파일은 'Robots Ex.. 2025. 3. 26.
Playwright : Selenium보다 빠르고 안정화된 웹 크롤링 자동화 도구 Playwright는 Selenium과 같이, 동적으로 웹 데이터를 수집 (크롤링)하기 위한 좋은 자동화 도구로 꼽히고 있습니다. 빠르고 안정적인 실행 부분에서 강점을 보이고 있는 도구인 Playwright에 대해 함꼐 알아가 보겠습니다.1. Playwright 개념Playwright는 Microsoft에서 개발한 최신 웹 자동화 도구입니다. 크로미움, 파이어폭스, 웹킷 등 다양한 브라우저를 지원하며, Node.js, Python, Java, .NET 등 여러 언어에서도 사용할 수 있습니다. Selenium과 비슷한 역할을 하지만, 더 빠르고 안정적인 실행이 가능하며 비동기 방식으로 동작하는 특징이 있습니다. 특히 JavaScript로 동작하는 동적 웹페이지의 데이터를 수집할 때 큰 장점을 발휘합니다. .. 2025. 3. 26.
[AWS EC2, Lambda] EC2 인스턴스 자동 시작 및 종료 설정하기 AWS Lambda를 활용하면 EC2 인스턴스를 자동으로 시작하거나 종료할 수 있습니다. EC2 인스턴스를 예약된 시간에 관리할 수 있도록 설정하면 비용을 절감하고, 운영을 효율적으로 관리할 수 있습니다. Lambda 함수와 AWS의 이벤트 브리지를 연계하여 특정 시간에 EC2 인스턴스를 자동으로 시작하거나 종료할 수 있도록 설정하는 방법을 함께 살펴보도록 하겠습니다. 1. Lambda를 위한 IAM 역할 설정Lambda 함수가 EC2 인스턴스를 제어하려면 적절한 IAM 역할을 부여해야 합니다. AWS Management Console 또는 AWS CLI를 사용하여 Lambda에 EC2를 제어할 수 있는 권한을 추가해야 합니다.IAM 역할을 생성하고 필요한 권한을 부여하는 과정은 아래와 같습니다.# IA.. 2025. 3. 24.
[Linux/Unix] Ubuntu vs RedHat vs Rocky Linux 비교 우리가 생활 속에서 사용하는 수많은 서비스, 프로그램들은 많은 비율로, 리눅스 운영체제를 통해 배포되고 운영되고 있습니다. Windows와 같은 운영체제 중 하나인 리눅스 운영체제는 다양한 배포판이 존재하며, 각 배포판은 특정한 목적과 환경에 맞게 최적화되어 있습니다. 대표적으로 Ubuntu, RedHat, Rocky Linux는 서버 환경에서 많이 사용되는 배포판이며, 각 배포판은 패키지 관리 방식, 지원 정책, 보안 업데이트 방식 등에서 차이를 보입니다. 이러한 차이점을 이해하면 목적에 맞는 배포판을 선택하는 데 도움이 될 수 있어, 함께 살펴보도록 하겠습니다.1. Ubuntu: 사용자 친화적인 데비안 기반 리눅스Ubuntu는 데비안(Debian) 기반의 배포판으로, 사용자 친화적인 인터페이스와 광범.. 2025. 3. 24.
Python Selenium과 Beautifulsoup 활용 예제 : 동적 크롤링 vs 정적 크롤링? 웹에서 원하는 데이터를 수집하는 과정인 웹 크롤링(Web Crawling)과 웹 스크래핑(Web Scraping)은 다양한 자동화 작업에 활용됩니다. 이를 위해 가장 많이 사용되는 라이브러리가 Selenium과 BeautifulSoup4입니다. 두 가지의 라이브러리는 각각 다른 방식으로 웹 데이터를 수집하며, 활용 목적에 따라 적절한 선택이 필요합니다. 보통 Javscript를 활용하여 동적으로 페이지를 로드하는 경우에는, Selenium을 사용하게 됩니다. 아래에서 차이점 및 활용 예시를 함께 살펴보겠습니다.1. Selenium과 BeautifulSoup4의 차이점Selenium과 BeautifulSoup4는 웹 데이터를 가져오는 기능을 제공하지만, 작동 방식과 주요 사용 사례가 다릅니다.Seleniu.. 2025. 3. 23.
Python에서 Selenium 크롤링을 위한 Chromedriver 설치 및 Headless 설정 방법 Python에서 Selenium을 활용하여 웹 자동화를 수행하려면 크롬 브라우저와 크롬 드라이버(ChromeDriver)를 설치하고, 이를 올바르게 설정하는 과정이 필요합니다. 크롬 드라이버는 Selenium이 크롬 브라우저를 제어할 수 있도록 도와주는 역할을 하며, 버전에 맞는 드라이버를 설치하고 경로를 설정하는 과정이 중요합니다. 또한, Headless 모드를 활용하면 브라우저 창을 띄우지 않고도 백그라운드에서 크롤링을 수행할 수 있습니다.1. 크롬 브라우저 및 크롬 드라이버 설치크롬 브라우저와 크롬 드라이버를 설치하는 과정은 운영체제에 따라 다소 차이가 있지만, 기본적으로 최신 버전의 크롬 브라우저를 설치한 후, 해당 버전에 맞는 크롬 드라이버를 다운로드하여 사용하면 됩니다.아래의 예제로 함께 살펴.. 2025. 3. 23.