Як запустити модель Qwen2.5-Omni-7B: покрокова інструкція

Приблизно 1 хв

Шукаєте спосіб запустити модель Qwen2.5-Omni-7B? Давайте розглянемо процес покроково.

Вступ до моделі Qwen2.5-Omni

Qwen2.5-Omni — це кінцевий мультимодальний великий мовний модель, розроблений командою Alibaba Cloud. Вона може розуміти та обробляти різні модальності, включаючи текст, зображення, аудіо та відео, а також генерувати текстові та природні мовні відповіді в режимі потокової передачі.

Двадцять

Щоб запустити модель Qwen2.5-Omni-7B локально, вам потрібно підготувати наступне середовище:

Підтримка GPU: Ця модель вимагає GPU для плавної роботи. Рекомендується використовувати GPU NVIDIA.
Python та необхідні бібліотеки: Вам потрібно встановити Python, а також основні бібліотеки, такі як transformers, accelerate та qwen-omni-utils.

Кроки установки та виконання

Крок 1: Підготовка середовища

Переконайтеся, що ваш GPU правильно налаштований і доступний. Рекомендується використовувати GPU з великою відеопам'яттю, такі як H100 SXM або RTX A6000.

Встановіть необхідні бібліотеки Python:

# Команда pip install може змінюватися; будь ласка, зверніться до останньої документації репозиторію GitHub
pip install git+https://github.com/huggingface/transformers
pip install accelerate
pip install qwen-omni-utils[decord]

Крок 2: Завантаження та завантаження моделі

Завантажте модель Qwen2.5-Omni-7B з платформ, таких як Hugging Face, або використовуйте офіційний образ Docker.

Завантажте модель:

from transformers import Qwen2_5OmniProcessor, AutoModelForSeq2SeqLM
from qwen_omni_utils import process_mm_info
MODEL_PATH = "Qwen/Qwen2.5-Omni-7B"
processor = Qwen2_5OmniProcessor.from_pretrained(MODEL_PATH)
model = AutoModelForSeq2SeqLM.from_pretrained(MODEL_PATH)

Крок 3: Підготовка даних LOPT

Підготуйте вхідні дані, які можуть включати текст, зображення, аудіо або відео.

Приклад структури вхідних даних:

messages = [
    {"role": "system", "content": "..."},
    {"role": "user", "content": [{"type": "image", "image": "..."}]},
]

Крок 4: Інференція моделі

Сформуйте вхідні параметри та викличте модель для генерації виходу:

inputs = processor.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
outputs = model.generate(**inputs, max_new_tokens=128)

Поради та висновок

Порада 1: Розгортання Docker - Ви також можете використовувати образ Docker, наданий Qwen, щоб спростити процес розгортання, забезпечуючи узгодженість у середовищі.
Порада 2: Підтримка vLLM - Використовуючи фреймворк vLLM, можна досягти локальної офлайн-інференції, особливо для текстових виходів.

Запуск моделі Qwen2.5-Omni-7B є цікавим завданням для розробників, які прагнуть дослідити мультимодальні взаємодії та новаторські AI-додатки. Однак цей процес може представляти виклики, такі як налаштування середовища та обмеження розміру моделі. Переконайтеся, що у вас достатньо ресурсів GPU та дотримуйтесь офіційної документації. Нарешті, якщо ви хочете експериментувати з цими техніками, розгляньте можливість відвідати LightNode для підтримки відповідних ресурсів GPU.