Cara Menginstal vLLM: Panduan Lengkap

Sekitar 3 menit

Cara Menginstal vLLM: Panduan Lengkap

Apakah Anda penasaran tentang cara menginstal vLLM, sebuah pustaka Python mutakhir yang dirancang untuk membuka kemampuan LLM yang kuat? Panduan ini akan memandu Anda melalui prosesnya, memastikan Anda memanfaatkan potensi vLLM untuk mengubah proyek berbasis AI Anda.

Pengenalan vLLM

vLLM lebih dari sekadar alat lain; ini adalah gerbang untuk memanfaatkan kekuatan model bahasa besar (LLM) secara efisien. Ini mendukung berbagai GPU NVIDIA, seperti V100, T4, dan seri RTX20xx, menjadikannya sempurna untuk tugas-tugas yang memerlukan komputasi intensif. Dengan kompatibilitasnya di berbagai versi CUDA, vLLM beradaptasi dengan mulus ke infrastruktur yang ada, baik Anda menggunakan CUDA 11.8 atau CUDA 12.1 yang terbaru.

Manfaat Utama vLLM

Penanganan Model Bahasa Besar yang Efisien: vLLM dioptimalkan untuk kinerja dengan GPU NVIDIA, menawarkan peningkatan kecepatan yang signifikan dibandingkan implementasi lainnya.
Dapat Disesuaikan: Ini memungkinkan pembangunan dari sumber, memudahkan integrasi dengan proyek yang ada atau modifikasi untuk kasus penggunaan tertentu.
Kompatibel dengan OpenAPI: vLLM dapat diterapkan sebagai server yang kompatibel dengan API OpenAI, menjadikannya solusi yang serbaguna untuk aplikasi AI.

Menginstal vLLM: Panduan Langkah demi Langkah

Prasyarat

Sebelum terjun ke instalasi, pastikan sistem Anda memenuhi persyaratan berikut:

Sistem Operasi: Linux
Versi Python: Antara 3.8 dan 3.12
GPU: GPU NVIDIA yang kompatibel dengan kemampuan komputasi 7.0 atau lebih tinggi

Langkah 1: Siapkan Lingkungan Python Anda

Membuat lingkungan baru sangat penting untuk menghindari konflik dengan paket yang ada.

Menggunakan Conda untuk Lingkungan Python

Buat Lingkungan Conda:
```
conda create -n myenv python=3.10 -y
```
Aktifkan Lingkungan:
```
conda activate myenv
```

Langkah 2: Instal vLLM Menggunakan pip

Setelah lingkungan Anda siap, menginstal vLLM sangatlah mudah.

pip install --upgrade pip # Pastikan Anda memiliki versi pip terbaru
pip install vllm

vLLM sudah dikompilasi sebelumnya dengan CUDA 12.1 secara default, tetapi Anda juga dapat menginstal versi yang dikompilasi dengan CUDA 11.8 jika diperlukan.

Langkah 3: Opsional - Instal dari Sumber

Jika Anda lebih suka membangun vLLM dari sumber, mungkin untuk menyesuaikannya atau menggunakan versi CUDA yang berbeda, ikuti langkah-langkah ini:

Klon Repositori vLLM:

git clone https://github.com/vllm-project/vllm.git
cd vllm

Instal Dependensi:
Anda perlu menginstal neuronx-cc dan transformers-neuronx. Kemudian, lanjutkan dengan:
```
pip install -U -r requirements-neuron.txt
pip install .
```

Langkah 4: Verifikasi Instalasi Anda

Untuk memastikan vLLM telah terinstal dengan benar, jalankan perintah ini di lingkungan Python Anda:

import vllm
print(vllm.__version__)

Ini akan menampilkan versi vLLM yang telah Anda instal.

Aplikasi Dunia Nyata dari vLLM

vLLM bukan hanya sebuah pustaka; ia dapat menjadi bagian dari jalur pemrosesan data atau aplikasi Anda. Berikut adalah skenario dunia nyata:

Studi Kasus: Membangun AI Percakapan

Bayangkan mengembangkan chatbot AI percakapan untuk bisnis e-commerce Anda. vLLM dapat digunakan sebagai backend untuk memberdayakan chatbot ini, memanfaatkan penanganan LLM yang efisien. Dengan mengintegrasikan vLLM dengan webhook atau API, Anda dapat menciptakan pengalaman pengguna yang mulus.

Menyiapkan Server vLLM:
vLLM dapat diterapkan sebagai server yang kompatibel dengan API OpenAI, memudahkan integrasi dengan aplikasi yang dirancang untuk model OpenAI. Mulai server dengan model seperti ini:
```
vllm serve Qwen/Qwen2.5-1.5B-Instruct
```

Mengajukan Permintaan ke vLLM melalui API:

Setelah server berjalan, Anda dapat mengajukannya dengan cara yang mirip dengan API OpenAI. Berikut adalah contoh permintaan:

curl http://localhost:8000/v1/completions \
-H "Content-Type: application/json" \
-d '{
  "model": "Qwen/Qwen2.5-1.5B-Instruct",
  "prompt": "Apa saja keuntungan dari menghosting aplikasi data secara mandiri?",
  "max_tokens": 50,
  "temperature": 0
}'

Server ini dapat dengan mulus menggantikan API OpenAI dalam aplikasi Anda.

Pemecahan Masalah dan Kustomisasi

Masalah Umum

Ketidakcocokan Versi CUDA: Pastikan Anda memiliki versi CUDA yang benar untuk mencocokkan biner vLLM yang Anda gunakan. Jika Anda menggunakan versi CUDA yang berbeda, pertimbangkan untuk membangun dari sumber.
Konflik Dependensi: Jika Anda mengalami konflik paket, coba reset lingkungan Anda atau instal dependensi secara manual dengan versi tertentu.

Optimasi Kinerja

Untuk mendapatkan hasil maksimal dari vLLM, pertimbangkan tips optimasi kinerja berikut:

Menyimpan Hasil Kompilasi dalam Cache: Saat membangun dari sumber beberapa kali, gunakan alat seperti ccache untuk mempercepat kompilasi berikutnya.
Membatasi Pekerjaan Kompilasi: Atur MAX_JOBS untuk mengontrol jumlah pekerjaan yang berjalan secara bersamaan agar tidak membebani sistem Anda.

Kesimpulan

vLLM menawarkan fleksibilitas dan kinerja yang tiada tara dalam menangani model bahasa besar. Dengan mengikuti panduan ini, Anda dapat mengintegrasikan vLLM dengan mulus ke dalam proyek AI Anda, baik yang melibatkan antarmuka percakapan atau tugas analisis data yang kompleks.

Jika Anda ingin meningkatkan kinerja dan skalabilitas aplikasi Anda, pertimbangkan untuk menghostingnya di server cloud seperti LightNode, yang menawarkan fleksibilitas untuk mendukung aplikasi yang menuntut seperti vLLM. Anda dapat mendaftar untuk layanan mereka di https://go.lightnode.com?ref=115e0d2e&id=58.

Saat Anda menjelajahi potensi vLLM untuk proyek Anda berikutnya, ingatlah bahwa kekuatannya terletak pada kemampuan adaptasi dan kinerja. Baik Anda berada di ranah chatbot bertenaga AI atau penambangan data, vLLM siap untuk mengubah alur kerja Anda dengan fitur dan skalabilitasnya yang kuat.