Cara Menjalankan Model Qwen2.5-Omni-7B: Panduan Langkah demi Langkah

Sekitar 1 menit

Apakah Anda mencari cara untuk menjalankan model Qwen2.5-Omni-7B? Mari kita jelajahi prosesnya langkah demi langkah.

Pengenalan Model Qwen2.5-Omni

Qwen2.5-Omni adalah model bahasa besar multimodal end-to-end yang dikembangkan oleh tim Alibaba Cloud. Model ini dapat memahami dan memproses berbagai modalitas termasuk teks, gambar, audio, dan video, serta menghasilkan teks dan respons suara alami secara streaming.

Dua Puluh

Untuk menjalankan model Qwen2.5-Omni-7B secara lokal, Anda perlu menyiapkan lingkungan berikut:

Dukungan GPU: Model ini memerlukan GPU untuk operasi yang lancar. Disarankan untuk menggunakan GPU NVIDIA.
Python dan Perpustakaan yang Diperlukan: Anda perlu menginstal Python, serta perpustakaan penting seperti transformers, accelerate, dan qwen-omni-utils.

Langkah Instalasi dan Eksekusi

Langkah 1: Siapkan Lingkungan

Pastikan GPU Anda dikonfigurasi dengan benar dan tersedia. Disarankan untuk menggunakan GPU dengan memori video tinggi seperti H100 SXM atau RTX A6000.

Instal perpustakaan Python yang diperlukan:

# Perintah pip install mungkin berubah; silakan merujuk ke dokumentasi repositori GitHub terbaru
pip install git+https://github.com/huggingface/transformers
pip install accelerate
pip install qwen-omni-utils[decord]

Langkah 2: Unduh dan Muat Model

Unduh model Qwen2.5-Omni-7B dari platform seperti Hugging Face, atau gunakan gambar Docker resmi.

Muat model:

from transformers import Qwen2_5OmniProcessor, AutoModelForSeq2SeqLM
from qwen_omni_utils import process_mm_info
MODEL_PATH = "Qwen/Qwen2.5-Omni-7B"
processor = Qwen2_5OmniProcessor.from_pretrained(MODEL_PATH)
model = AutoModelForSeq2SeqLM.from_pretrained(MODEL_PATH)

Langkah 3: Persiapan Data LOPT

Siapkan data input, yang dapat mencakup teks, gambar, audio, atau video.

Struktur input contoh:

messages = [
    {"role": "system", "content": "..."},
    {"role": "user", "content": [{"type": "image", "image": "..."}]},
]

Langkah 4: Inferensi Model

Bangun parameter input dan panggil model untuk menghasilkan output:

inputs = processor.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
outputs = model.generate(**inputs, max_new_tokens=128)

Tips dan Kesimpulan

Tip 1: Penyebaran Docker - Anda juga dapat menggunakan gambar Docker yang disediakan oleh Qwen untuk menyederhanakan proses penyebaran, memastikan konsistensi dalam lingkungan.
Tip 2: Dukungan vLLM - Dengan menggunakan kerangka vLLM, inferensi offline lokal dapat dicapai, terutama untuk output teks.

Menjalankan model Qwen2.5-Omni-7B adalah usaha menarik bagi pengembang yang ingin menjelajahi interaksi multimodal dan aplikasi AI terobosan. Namun, proses ini mungkin menghadapi tantangan seperti konfigurasi lingkungan dan batasan ukuran model. Pastikan Anda memiliki sumber daya GPU yang cukup dan ikuti dokumentasi resmi. Akhirnya, jika Anda ingin bereksperimen dengan teknik ini, pertimbangkan untuk mengunjungi LightNode untuk dukungan sumber daya GPU yang sesuai.