Как запустить OpenAI GPT-OSS-120B локально: подробное руководство

Около 3 мин

Как запустить OpenAI GPT-OSS-120B локально: подробное руководство

GPT-OSS-120B от OpenAI — это революционная большая языковая модель с открытыми весами, содержащая примерно 117 миллиардов параметров (5,1 миллиарда активных), разработанная для обеспечения мощных возможностей рассуждения и агентных функций, включая выполнение кода и структурированные выходные данные. В отличие от огромных моделей, требующих нескольких GPU, GPT-OSS-120B может эффективно работать на одном Nvidia H100 GPU, что делает локальное развертывание более доступным для организаций и продвинутых пользователей, стремящихся к конфиденциальности, низкой задержке и контролю.

В этой статье собраны последние знания и практические шаги по состоянию на август 2025 года, которые помогут вам запустить GPT-OSS-120B локально, включая требования к оборудованию, варианты установки, контейнерное развертывание и методы оптимизации.

Зачем запускать GPT-OSS-120B локально?

Полный суверенитет данных: данные никогда не покидают вашу локальную среду, что критично для чувствительных приложений.
Контроль затрат: избегаете постоянных расходов на облачные API и ограничений по скорости.
Высокая производительность: оптимизированная архитектура обеспечивает высокое качество рассуждений на одном GPU уровня дата-центра.
Кастомизация: возможность тонкой настройки модели или создания продвинутых автономных агентов с полным контролем.

Требования к оборудованию и программному обеспечению

Компонент	Минимум	Рекомендуется
GPU	Nvidia H100 GPU (40GB+)	Nvidia H100 (желательно 1 или более GPU)
Системная ОЗУ	≥ 32GB RAM	64GB+ для плавной многозадачности
Хранилище	≥ 200GB NVMe SSD	Быстрый NVMe для кэширования весов модели
CPU	Современный многоядерный	Рекомендуется 8+ ядер
ОС	Linux (предпочтительно)	Linux для лучшей поддержки драйверов и Docker

Из-за большого размера модели потребительские GPU с <40GB VRAM (например, RTX 3090 или 4090) обычно не могут запускать GPT-OSS-120B локально без значительного разгрузки или параллелизма модели. Модель специально разработана для GPU класса H100.

Официальные характеристики модели

Размер модели: 117 миллиардов параметров, из которых 5,1 миллиарда активны благодаря разреженности Mixture-of-Experts (MoE).
Квантизация: обучена с точностью MXFP4, нативной для слоев MoE, для экономии памяти и вычислительных ресурсов.
Совместимость ПО: совместима с Hugging Face Transformers, vLLM и форматом OpenAI Harmony API.
Лицензия: разрешительная Apache 2.0 — подходит для экспериментов, кастомизации и коммерческих проектов.

Пошаговое руководство по запуску GPT-OSS-120B локально

1. Развертывание с помощью Northflank Cloud GPU Containers

Northflank предлагает надежный способ самостоятельного хостинга GPT-OSS-120B в контейнерах с поддержкой GPU, особенно если у вас есть доступ к Nvidia H100 GPU.

Процедура:

Создайте аккаунт Northflank и начните проект с поддержкой GPU, выбрав H100 GPU в поддерживаемом регионе.
Создайте новый сервис, используя внешний Docker-образ vllm/vllm-openai:gptoss.
Установите переменную окружения OPENAI_API_KEY с безопасной случайной строкой (длина ≥128).
Откройте порт 8000 с протоколом HTTP для доступа к API.
Выберите тарифный план с 2 Nvidia H100 GPU для оптимального вывода.
Подключите постоянный том хранения объемом ≥200GB, смонтированный в /root/.cache/huggingface для кэширования загрузок модели и избежания повторных скачиваний при повторном развертывании.
Разверните сервис; изначально запустите команду сна (sleep 1d), чтобы поднять контейнер без немедленной загрузки модели.

Эта конфигурация поддерживает совместимые с OpenAI конечные точки и обрабатывает тяжелую загрузку модели на оптимизированных GPU.

2. Локальный запуск на сервере с GPU корпоративного класса

Если у вас есть физический сервер или рабочая станция с Nvidia H100 GPU(ами), вы можете запустить GPT-OSS-120B с использованием официальных кодовых баз OpenAI и инструментов Hugging Face.

Установите зависимости:

pip install torch transformers vllm accelerate

Скачайте или кэшируйте веса модели:

git lfs install
git clone https://huggingface.co/openai/gpt-oss-120b

Запустите вывод через vLLM или собственный код:

vllm serve openai/gpt-oss-120b

ИЛИ на Python:

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

tokenizer = AutoTokenizer.from_pretrained("openai/gpt-oss-120b")
model = AutoModelForCausalLM.from_pretrained("openai/gpt-oss-120b").cuda()

prompt = "Explain how to run GPT-OSS-120B locally"
inputs = tokenizer(prompt, return_tensors="pt").to("cuda")

outputs = model.generate(**inputs, max_new_tokens=150)
print(tokenizer.decode(outputs, skip_special_tokens=True))

Используйте torchrun или утилиту accelerate для параллелизма на нескольких GPU при необходимости.

3. Запуск через Azure AI Foundry

Microsoft Azure AI Foundry поддерживает GPT-OSS-120B на своей управляемой платформе с корпоративными GPU.

Предоставляет CLI-инструменты и UI для создания конечных точек с поддержкой GPU.
Позволяет запускать GPT-OSS-120B на одном корпоративном GPU с низкой задержкой и оптимизированным по пропускной способности развертыванием.
Поддерживает устройства Windows и вскоре предложит поддержку MacOS с Foundry Local.

Это хороший гибридный вариант для организаций, которым нужна управляемая инфраструктура вместе с локальным использованием на площадке.

Лучшие практики оптимизации

Используйте AMP смешанную точность (FP16) на GPU, таких как Nvidia H100, чтобы снизить потребление памяти и увеличить пропускную способность.
Используйте постоянные тома хранения для кэширования моделей и избежания повторных загрузок при работе с контейнерами.
Настраивайте параметры вывода, такие как конфигурируемая степень рассуждения (низкая, средняя, высокая), чтобы сбалансировать задержку и качество результата.
Используйте пакетный вывод и совместимые с API конечные точки для эффективной обработки нескольких одновременных запросов.
Поддерживайте драйверы (например, Nvidia CUDA 12.8+) и библиотеки в актуальном состоянии для совместимости и производительности.

Заключение

Запуск OpenAI GPT-OSS-120B локально сегодня возможен — преимущественно на одном Nvidia H100 GPU или эквивалентном корпоративном оборудовании — и поддерживается зрелыми программными экосистемами, такими как vLLM, Hugging Face Transformers и контейнерными платформами вроде Northflank. Для организаций или энтузиастов с доступом к таким ресурсам GPT-OSS-120B обеспечивает непревзойденные возможности рассуждения и функционал в саморазмещаемой среде.

Если у вас нет GPU класса H100, меньшая модель GPT-OSS-20B может быть более практичным вариантом для локального запуска на потребительских GPU.

Для облачных или гибридных рабочих процессов Azure AI Foundry предлагает отличную управляемую платформу для простого развертывания GPT-OSS-120B.

Для тех, кто заинтересован в API и инфраструктурных решениях, дополняющих локальное развертывание, сервисы вроде LightNode предлагают масштабируемые облачные интерфейсы к открытым моделям.