Как запустить OpenAI GPT-OSS-120B локально: подробное руководство
Как запустить OpenAI GPT-OSS-120B локально: подробное руководство
GPT-OSS-120B от OpenAI — это революционная большая языковая модель с открытыми весами, содержащая примерно 117 миллиардов параметров (5,1 миллиарда активных), разработанная для обеспечения мощных возможностей рассуждения и агентных функций, включая выполнение кода и структурированные выходные данные. В отличие от огромных моделей, требующих нескольких GPU, GPT-OSS-120B может эффективно работать на одном Nvidia H100 GPU, что делает локальное развертывание более доступным для организаций и продвинутых пользователей, стремящихся к конфиденциальности, низкой задержке и контролю.
В этой статье собраны последние знания и практические шаги по состоянию на август 2025 года, которые помогут вам запустить GPT-OSS-120B локально, включая требования к оборудованию, варианты установки, контейнерное развертывание и методы оптимизации.
Зачем запускать GPT-OSS-120B локально?
- Полный суверенитет данных: данные никогда не покидают вашу локальную среду, что критично для чувствительных приложений.
- Контроль затрат: избегаете постоянных расходов на облачные API и ограничений по скорости.
- Высокая производительность: оптимизированная архитектура обеспечивает высокое качество рассуждений на одном GPU уровня дата-центра.
- Кастомизация: возможность тонкой настройки модели или создания продвинутых автономных агентов с полным контролем.
Требования к оборудованию и программному обеспечению
Компонент | Минимум | Рекомендуется |
---|---|---|
GPU | Nvidia H100 GPU (40GB+) | Nvidia H100 (желательно 1 или более GPU) |
Системная ОЗУ | ≥ 32GB RAM | 64GB+ для плавной многозадачности |
Хранилище | ≥ 200GB NVMe SSD | Быстрый NVMe для кэширования весов модели |
CPU | Современный многоядерный | Рекомендуется 8+ ядер |
ОС | Linux (предпочтительно) | Linux для лучшей поддержки драйверов и Docker |
Из-за большого размера модели потребительские GPU с <40GB VRAM (например, RTX 3090 или 4090) обычно не могут запускать GPT-OSS-120B локально без значительного разгрузки или параллелизма модели. Модель специально разработана для GPU класса H100.
Официальные характеристики модели
- Размер модели: 117 миллиардов параметров, из которых 5,1 миллиарда активны благодаря разреженности Mixture-of-Experts (MoE).
- Квантизация: обучена с точностью MXFP4, нативной для слоев MoE, для экономии памяти и вычислительных ресурсов.
- Совместимость ПО: совместима с Hugging Face Transformers, vLLM и форматом OpenAI Harmony API.
- Лицензия: разрешительная Apache 2.0 — подходит для экспериментов, кастомизации и коммерческих проектов.
Пошаговое руководство по запуску GPT-OSS-120B локально
1. Развертывание с помощью Northflank Cloud GPU Containers
Northflank предлагает надежный способ самостоятельного хостинга GPT-OSS-120B в контейнерах с поддержкой GPU, особенно если у вас есть доступ к Nvidia H100 GPU.
Процедура:
- Создайте аккаунт Northflank и начните проект с поддержкой GPU, выбрав H100 GPU в поддерживаемом регионе.
- Создайте новый сервис, используя внешний Docker-образ
vllm/vllm-openai:gptoss
. - Установите переменную окружения
OPENAI_API_KEY
с безопасной случайной строкой (длина ≥128). - Откройте порт 8000 с протоколом HTTP для доступа к API.
- Выберите тарифный план с 2 Nvidia H100 GPU для оптимального вывода.
- Подключите постоянный том хранения объемом ≥200GB, смонтированный в
/root/.cache/huggingface
для кэширования загрузок модели и избежания повторных скачиваний при повторном развертывании. - Разверните сервис; изначально запустите команду сна (
sleep 1d
), чтобы поднять контейнер без немедленной загрузки модели.
Эта конфигурация поддерживает совместимые с OpenAI конечные точки и обрабатывает тяжелую загрузку модели на оптимизированных GPU.
2. Локальный запуск на сервере с GPU корпоративного класса
Если у вас есть физический сервер или рабочая станция с Nvidia H100 GPU(ами), вы можете запустить GPT-OSS-120B с использованием официальных кодовых баз OpenAI и инструментов Hugging Face.
- Установите зависимости:
pip install torch transformers vllm accelerate
- Скачайте или кэшируйте веса модели:
git lfs install
git clone https://huggingface.co/openai/gpt-oss-120b
- Запустите вывод через vLLM или собственный код:
vllm serve openai/gpt-oss-120b
ИЛИ на Python:
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
tokenizer = AutoTokenizer.from_pretrained("openai/gpt-oss-120b")
model = AutoModelForCausalLM.from_pretrained("openai/gpt-oss-120b").cuda()
prompt = "Explain how to run GPT-OSS-120B locally"
inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_new_tokens=150)
print(tokenizer.decode(outputs, skip_special_tokens=True))
- Используйте
torchrun
или утилитуaccelerate
для параллелизма на нескольких GPU при необходимости.
3. Запуск через Azure AI Foundry
Microsoft Azure AI Foundry поддерживает GPT-OSS-120B на своей управляемой платформе с корпоративными GPU.
- Предоставляет CLI-инструменты и UI для создания конечных точек с поддержкой GPU.
- Позволяет запускать GPT-OSS-120B на одном корпоративном GPU с низкой задержкой и оптимизированным по пропускной способности развертыванием.
- Поддерживает устройства Windows и вскоре предложит поддержку MacOS с Foundry Local.
Это хороший гибридный вариант для организаций, которым нужна управляемая инфраструктура вместе с локальным использованием на площадке.
Лучшие практики оптимизации
- Используйте AMP смешанную точность (FP16) на GPU, таких как Nvidia H100, чтобы снизить потребление памяти и увеличить пропускную способность.
- Используйте постоянные тома хранения для кэширования моделей и избежания повторных загрузок при работе с контейнерами.
- Настраивайте параметры вывода, такие как конфигурируемая степень рассуждения (низкая, средняя, высокая), чтобы сбалансировать задержку и качество результата.
- Используйте пакетный вывод и совместимые с API конечные точки для эффективной обработки нескольких одновременных запросов.
- Поддерживайте драйверы (например, Nvidia CUDA 12.8+) и библиотеки в актуальном состоянии для совместимости и производительности.
Заключение
Запуск OpenAI GPT-OSS-120B локально сегодня возможен — преимущественно на одном Nvidia H100 GPU или эквивалентном корпоративном оборудовании — и поддерживается зрелыми программными экосистемами, такими как vLLM, Hugging Face Transformers и контейнерными платформами вроде Northflank. Для организаций или энтузиастов с доступом к таким ресурсам GPT-OSS-120B обеспечивает непревзойденные возможности рассуждения и функционал в саморазмещаемой среде.
Если у вас нет GPU класса H100, меньшая модель GPT-OSS-20B может быть более практичным вариантом для локального запуска на потребительских GPU.
Для облачных или гибридных рабочих процессов Azure AI Foundry предлагает отличную управляемую платформу для простого развертывания GPT-OSS-120B.
Для тех, кто заинтересован в API и инфраструктурных решениях, дополняющих локальное развертывание, сервисы вроде LightNode предлагают масштабируемые облачные интерфейсы к открытым моделям.