강력한 웹 크롤러 구축하기: VPS에 Crawl4AI 설치하기
1분 미만
강력한 웹 크롤러 구축하기: VPS에 Crawl4AI 설치하기
Crawl4AI는 고급 크롤링과 AI 기반 콘텐츠 추출을 결합하여 웹 스크래핑의 혁신을 가져옵니다. VPS에 배포하면 미션 크리티컬 데이터 파이프라인을 위한 확장성, 제어 및 비용 효율성을 보장합니다. 설정 방법은 다음과 같습니다.
1부: VPS 설정 필수 사항
인프라 선택하기
- 입문 수준: 2 vCPUs/4GB RAM으로 시작하기 (예: LightNode $15/월 VPS)
- 프로덕션 수준: SSD 스토리지와 함께 4 vCPUs/16GB RAM ($79/월) 선택하기
최소 요구 사항:
- Ubuntu 22.04 LTS 또는 Debian 11
- Python 3.11+
- Docker (선택 사항이지만 권장됨)
# Debian 기반 시스템의 초기 설정
sudo apt update && sudo apt upgrade -y
sudo apt install python3.11 python3-pip -y
2부: 설치 옵션
A. 표준 설치 (AI 기능 없이)
- 기본 패키지 설치:
pip install crawl4ai
- 핵심 종속성 구성:
crawl4ai-setup # 브라우저 및 SSL 설정 자동화
playwright install chromium # 필요 시 수동 브라우저 설치
- 설치 확인:
crawl4ai-doctor
B. AI 기반 설치 (LLM 통합 포함)
- 확장된 설정:
pip install crawl4ai[all] # transformers, PyTorch 포함
- API 키를
.env
에 추가:
OPENAI_API_KEY="sk-..."
GEMINI_API_KEY="..."
C. Docker 배포
docker run -d -p 8001:8001 \
-e OPENAI_API_KEY="sk-..." \
-v ./data:/app/data \
crawl4ai/crawl4ai:latest
구성 체크리스트
구성 요소 | 최적화 팁 |
---|---|
브라우저 관리 | 동시 Chrome 인스턴스를 3개로 제한하기 |
메모리 사용량 | .env 에 MAX_RAM_USAGE=4GB 설정하기 |
프록시 회전 | PROXY_LIST=http://proxy1:port,... 추가하기 |
샘플 스크래핑 스크립트:
from crawl4ai import AsyncWebCrawler
async def scrape():
crawler = AsyncWebCrawler()
return await crawler.arun(
url="https://target-site.com",
filters=["text/markdown"],
strategy="focused_crawl"
)
운영 통찰
- 비용 분석: 자가 호스팅 설정은 월 10만 페이지 기준으로 클라우드 API 공급자보다 72% 절감
- 준수 사항: 웹사이트 정책을 존중하기 위해
ROBOTS_TXT_STRICT_MODE=True
구현 - 성능: Docker 배포는 4vCPU VPS에서 초당 42페이지 처리
유지 관리 필수 사항:
- 주간 보안 스캔:
crawl4ai-doctor --security-check
- 브라우저 버전 업데이트:
playwright install --force
- 긴급 롤백:
pip install crawl4ai==0.4.238
자동 확장 및 SLA 보장이 필요한 기업 배포의 경우, 사전 구성된 보안 그룹과 24/7 모니터링을 제공하는 LightNode의 VPS 호스팅 솔루션을 고려하세요.
전문 팁: API 노출을 위해 Let's Encrypt TLS와 함께 Nginx 리버스 프록시 사용하기:
location /crawl/ {
proxy_pass http://localhost:8001;
proxy_set_header X-Real-IP $remote_addr;
}
이 아키텍처는 스트레스 테스트에서 하루 140만 요청을 성공적으로 처리합니다.