Comment exécuter le modèle Qwen2.5-Omni-7B : Un guide étape par étape

Environ 2 min

Vous cherchez un moyen d'exécuter le modèle Qwen2.5-Omni-7B ? Explorons le processus étape par étape.

Introduction au modèle Qwen2.5-Omni

Qwen2.5-Omni est un modèle de langage multimodal de bout en bout développé par l'équipe d'Alibaba Cloud. Il peut comprendre et traiter diverses modalités, y compris le texte, les images, l'audio et la vidéo, et générer des réponses textuelles et des discours naturels de manière continue.

Vingt

Pour exécuter le modèle Qwen2.5-Omni-7B localement, vous devez préparer l'environnement suivant :

Support GPU : Ce modèle nécessite un GPU pour un fonctionnement fluide. Il est recommandé d'utiliser un GPU NVIDIA.
Python et bibliothèques requises : Vous devez installer Python, ainsi que des bibliothèques essentielles telles que transformers, accelerate et qwen-omni-utils.

Étapes d'installation et d'exécution

Étape 1 : Préparer l'environnement

Assurez-vous que votre GPU est correctement configuré et disponible. Il est recommandé d'utiliser des GPU avec une grande mémoire vidéo, tels que le H100 SXM ou le RTX A6000.

Installez les bibliothèques Python nécessaires :

# La commande pip install peut changer ; veuillez vous référer à la documentation du dernier dépôt GitHub
pip install git+https://github.com/huggingface/transformers
pip install accelerate
pip install qwen-omni-utils[decord]

Étape 2 : Télécharger et charger le modèle

Téléchargez le modèle Qwen2.5-Omni-7B depuis des plateformes comme Hugging Face, ou utilisez l'image Docker officielle.

Chargez le modèle :

from transformers import Qwen2_5OmniProcessor, AutoModelForSeq2SeqLM
from qwen_omni_utils import process_mm_info
MODEL_PATH = "Qwen/Qwen2.5-Omni-7B"
processor = Qwen2_5OmniProcessor.from_pretrained(MODEL_PATH)
model = AutoModelForSeq2SeqLM.from_pretrained(MODEL_PATH)

Étape 3 : Préparation des données LOPT

Préparez les données d'entrée, qui peuvent inclure du texte, des images, de l'audio ou de la vidéo.

Structure d'entrée exemple :

messages = [
    {"role": "system", "content": "..."},
    {"role": "user", "content": [{"type": "image", "image": "..."}]},
]

Étape 4 : Inférence du modèle

Construisez les paramètres d'entrée et appelez le modèle pour générer la sortie :

inputs = processor.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
outputs = model.generate(**inputs, max_new_tokens=128)

Conseils et conclusion

Conseil 1 : Déploiement Docker - Vous pouvez également utiliser l'image Docker fournie par Qwen pour simplifier le processus de déploiement, garantissant ainsi la cohérence de l'environnement.
Conseil 2 : Support vLLM - En utilisant le cadre vLLM, une inférence locale hors ligne peut être réalisée, en particulier pour les sorties textuelles.

Exécuter le modèle Qwen2.5-Omni-7B est une entreprise intéressante pour les développeurs désireux d'explorer les interactions multimodales et les applications d'IA révolutionnaires. Cependant, ce processus peut présenter des défis tels que la configuration de l'environnement et les limitations de taille du modèle. Assurez-vous d'avoir des ressources GPU suffisantes et suivez la documentation officielle. Enfin, si vous souhaitez expérimenter ces techniques, envisagez de visiter LightNode pour un support adéquat en ressources GPU.