Sağlam Bir Web Tarayıcı Oluşturma: Crawl4AI'yi VPS Üzerine Kurma
Yaklaşık 1 dakika
Sağlam Bir Web Tarayıcı Oluşturma: Crawl4AI'yi VPS Üzerine Kurma
Crawl4AI, gelişmiş tarama ile AI destekli içerik çıkarımını birleştirerek web scraping'i devrim niteliğinde değiştiriyor. Bir VPS üzerinde dağıtmak, kritik veri boru hatları için ölçeklenebilirlik, kontrol ve maliyet etkinliği sağlar. İşte nasıl kuracağınız.
Bölüm 1: VPS Kurulum Temelleri
Altyapı Seçimi
- Giriş Seviyesi: 2 vCPU/4GB RAM ile başlayın (örneğin, LightNode $15/ay VPS)
- Üretim Seviyesi: SSD depolama ile 4 vCPU/16GB RAM ($79/ay) tercih edin
Asgari Gereksinimler:
- Ubuntu 22.04 LTS veya Debian 11
- Python 3.11+
- Docker (isteğe bağlı ama önerilir)
# Debian tabanlı sistemler için başlangıç kurulumu
sudo apt update && sudo apt upgrade -y
sudo apt install python3.11 python3-pip -y
Bölüm 2: Kurulum Seçenekleri
A. Standart Kurulum (AI Özellikleri Olmadan)
- Temel paketi kurun:
pip install crawl4ai
- Temel bağımlılıkları yapılandırın:
crawl4ai-setup # Tarayıcı ve SSL kurulumunu otomatikleştirir
playwright install chromium # Gerekirse manuel tarayıcı kurulumu
- Kurulumu doğrulayın:
crawl4ai-doctor
B. AI Destekli Kurulum (LLM Entegrasyonu ile)
- Genişletilmiş kurulum:
pip install crawl4ai[all] # Transformers, PyTorch dahil
- API anahtarlarını
.env
dosyasına ekleyin:
OPENAI_API_KEY="sk-..."
GEMINI_API_KEY="..."
C. Docker Dağıtımı
docker run -d -p 8001:8001 \
-e OPENAI_API_KEY="sk-..." \
-v ./data:/app/data \
crawl4ai/crawl4ai:latest
Yapılandırma Kontrol Listesi
Bileşen | Optimizasyon İpucu |
---|---|
Tarayıcı Yönetimi | 3 eşzamanlı Chrome örneği ile sınırlayın |
Bellek Kullanımı | .env dosyasında MAX_RAM_USAGE=4GB ayarlayın |
Proxy Rotasyonu | PROXY_LIST=http://proxy1:port,... ekleyin |
Örnek Scraping Scripti:
from crawl4ai import AsyncWebCrawler
async def scrape():
crawler = AsyncWebCrawler()
return await crawler.arun(
url="https://target-site.com",
filters=["text/markdown"],
strategy="focused_crawl"
)
Operasyonel İçgörüler
- Maliyet Analizi: Kendinize ait kurulum, 100k sayfa/ayda bulut API sağlayıcılarına göre %72 tasarruf sağlar
- Uyumluluk: Web sitesi politikalarına saygı göstermek için
ROBOTS_TXT_STRICT_MODE=True
uygulayın - Performans: Docker dağıtımları, 4vCPU VPS üzerinde saniyede 42 sayfa işler
Bakım Temelleri:
- Haftalık güvenlik taramaları:
crawl4ai-doctor --security-check
- Tarayıcı sürümü güncellemeleri:
playwright install --force
- Acil geri alma:
pip install crawl4ai==0.4.238
Otomatik ölçeklenebilirlik ve SLA garantileri gerektiren kurumsal dağıtımlar için, önceden yapılandırılmış güvenlik grupları ve 7/24 izleme ile LightNode'un VPS barındırma çözümlerini değerlendirin.
Pro İpucu: API erişimi için Let's Encrypt TLS ile Nginx ters proxy kullanın:
location /crawl/ {
proxy_pass http://localhost:8001;
proxy_set_header X-Real-IP $remote_addr;
}
Bu mimari, stres testlerinde günde 1.4M isteği başarıyla işler.