Membangun Web Crawler yang Kuat: Menginstal Crawl4AI di VPS
Membangun Web Crawler yang Kuat: Menginstal Crawl4AI di VPS
Crawl4AI merevolusi pengambilan data web dengan menggabungkan crawling canggih dengan ekstraksi konten berbasis AI. Menerapkannya di VPS memastikan skalabilitas, kontrol, dan efisiensi biaya untuk saluran data yang sangat penting. Berikut adalah cara untuk mengaturnya.
Bagian 1: Dasar-Dasar Pengaturan VPS
Memilih Infrastruktur
- Tingkat Pemula: Mulai dengan 2 vCPU/4GB RAM (misalnya, LightNode $15/bulan VPS)
- Tingkat Produksi: Pilih 4 vCPU/16GB RAM ($79/bulan) dengan penyimpanan SSD
Persyaratan Minimum:
- Ubuntu 22.04 LTS atau Debian 11
- Python 3.11+
- Docker (opsional tetapi disarankan)
# Pengaturan awal untuk sistem berbasis Debian
sudo apt update && sudo apt upgrade -y
sudo apt install python3.11 python3-pip -y
Bagian 2: Opsi Instalasi
A. Instalasi Standar (Tanpa Fitur AI)
- Instal paket dasar:
pip install crawl4ai
- Konfigurasi ketergantungan inti:
crawl4ai-setup # Mengotomatiskan pengaturan browser & SSL
playwright install chromium # Instalasi browser manual jika diperlukan
- Verifikasi instalasi:
crawl4ai-doctor
B. Instalasi Berbasis AI (Dengan Integrasi LLM)
- Pengaturan yang diperluas:
pip install crawl4ai[all] # Termasuk transformers, PyTorch
- Tambahkan kunci API ke
.env
:
OPENAI_API_KEY="sk-..."
GEMINI_API_KEY="..."
C. Penyebaran Docker
docker run -d -p 8001:8001 \
-e OPENAI_API_KEY="sk-..." \
-v ./data:/app/data \
crawl4ai/crawl4ai:latest
Daftar Periksa Konfigurasi
Komponen | Tip Optimasi |
---|---|
Manajemen Browser | Batasi hingga 3 instance Chrome bersamaan |
Penggunaan Memori | Atur MAX_RAM_USAGE=4GB di .env |
Rotasi Proxy | Tambahkan PROXY_LIST=http://proxy1:port,... |
Contoh Skrip Pengambilan Data:
from crawl4ai import AsyncWebCrawler
async def scrape():
crawler = AsyncWebCrawler()
return await crawler.arun(
url="https://target-site.com",
filters=["text/markdown"],
strategy="focused_crawl"
)
Wawasan Operasional
- Analisis Biaya: Pengaturan yang dihosting sendiri menghemat 72% dibandingkan vendor API cloud pada 100k halaman/bulan
- Kepatuhan: Terapkan
ROBOTS_TXT_STRICT_MODE=True
untuk menghormati kebijakan situs web - Kinerja: Penyebaran Docker memproses 42 halaman/detik di VPS 4vCPU
Dasar-Dasar Pemeliharaan:
- Pemindaian keamanan mingguan:
crawl4ai-doctor --security-check
- Pembaruan versi browser:
playwright install --force
- Pemulihan darurat:
pip install crawl4ai==0.4.238
Untuk penyebaran perusahaan yang memerlukan auto-scaling dan jaminan SLA, pertimbangkan solusi hosting VPS LightNode dengan grup keamanan yang telah dikonfigurasi sebelumnya dan pemantauan 24/7.
Tip Pro: Gunakan Nginx reverse proxy dengan Let's Encrypt TLS untuk eksposur API:
location /crawl/ {
proxy_pass http://localhost:8001;
proxy_set_header X-Real-IP $remote_addr;
}
Arsitektur ini berhasil menangani 1.4M permintaan/hari dalam pengujian stres.