如何本地运行 OpenAI GPT-OSS-120B：详细指南

大约 5 分钟

如何本地运行 OpenAI GPT-OSS-120B：详细指南

OpenAI 的 GPT-OSS-120B 是一款开源权重的大型语言模型，拥有约1170亿参数（其中活跃参数为51亿），旨在提供强大的推理和自主能力，包括代码执行和结构化输出。与需要多块 GPU 的超大模型不同，GPT-OSS-120B 可以高效运行于单块 Nvidia H100 GPU 上，使得本地部署对追求隐私、低延迟和控制权的组织和高级用户更加可行。

本文汇总了截至2025年8月的最新知识和实操步骤，帮助您本地运行 GPT-OSS-120B，包括硬件需求、安装选项、容器化部署及优化技巧。

为什么要本地运行 GPT-OSS-120B？

完全数据主权： 数据始终留在本地环境，关键于敏感应用。
成本控制： 避免持续的云端 API 费用和调用限制。
高性能： 优化架构使单块数据中心级 GPU 即可实现高质量推理。
定制化： 可微调模型或构建高级自主代理，完全掌控。

硬件和软件需求

组件	最低要求	推荐配置
GPU	Nvidia H100 GPU（40GB+）	Nvidia H100（1块或多块最佳）
系统内存	≥ 32GB RAM	64GB+，以支持流畅多任务处理
存储	≥ 200GB NVMe SSD	快速 NVMe 用于缓存模型权重
CPU	现代多核处理器	推荐 8 核及以上
操作系统	Linux（优选）	Linux，获得最佳驱动和 Docker 支持

由于模型体积庞大，显存低于40GB的消费级 GPU（如 RTX 3090 或 4090）通常无法在本地运行 GPT-OSS-120B，除非进行大量卸载或模型并行。该模型专为 H100 级 GPU 设计。

官方模型特性

模型规模： 1170亿参数，采用 Mixture-of-Experts（MoE）稀疏技术激活51亿参数。
量化方式： 使用 MXFP4 精度训练，针对 MoE 层优化内存和计算效率。
软件兼容性： 兼容 Hugging Face Transformers、vLLM 及 OpenAI Harmony API 格式。
许可协议： 宽松的 Apache 2.0 许可，适合实验、定制和商业项目。

本地运行 GPT-OSS-120B 的分步指南

1. 使用 Northflank 云 GPU 容器部署

Northflank 提供了一个可靠的方式，在支持 Nvidia H100 GPU 的容器中自托管 GPT-OSS-120B。

操作步骤：

注册 Northflank 账号，创建一个GPU 启用项目，选择支持区域的 H100 GPU。
新建一个服务，使用外部 Docker 镜像 vllm/vllm-openai:gptoss。
设置运行时环境变量 OPENAI_API_KEY，值为安全随机字符串（长度≥128）。
开放端口 8000，使用 HTTP 协议以供 API 访问。
选择包含 2 块 Nvidia H100 GPU 的硬件方案以获得最佳推理性能。
挂载容量≥200GB 的持久存储卷至 /root/.cache/huggingface，用于缓存模型下载，避免重复拉取。
部署服务；初始运行时可执行 sleep 1d 命令，使容器启动但暂不加载模型。

该方案支持 OpenAI 兼容端点，并在优化的 GPU 上处理模型加载。

2. 在企业级 GPU 机器上本地运行

如果您拥有配备 Nvidia H100 GPU 的物理服务器或工作站，可使用官方 OpenAI 代码库和 Hugging Face 工具链运行 GPT-OSS-120B。

安装依赖：

pip install torch transformers vllm accelerate

下载或缓存模型权重：

git lfs install
git clone https://huggingface.co/openai/gpt-oss-120b

通过 vLLM 或自定义代码运行推理：

vllm serve openai/gpt-oss-120b

或者使用 Python：

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

tokenizer = AutoTokenizer.from_pretrained("openai/gpt-oss-120b")
model = AutoModelForCausalLM.from_pretrained("openai/gpt-oss-120b").cuda()

prompt = "Explain how to run GPT-OSS-120B locally"
inputs = tokenizer(prompt, return_tensors="pt").to("cuda")

outputs = model.generate(**inputs, max_new_tokens=150)
print(tokenizer.decode(outputs, skip_special_tokens=True))

如需多 GPU 并行，可使用 torchrun 或 accelerate 工具。

3. 通过 Azure AI Foundry 运行

微软 Azure AI Foundry 支持在其托管的企业 GPU 平台上运行 GPT-OSS-120B。

提供命令行工具和 UI，方便实例化 GPU 支持的端点。
支持单块企业级 GPU 运行 GPT-OSS-120B，实现低延迟和带宽优化部署。
支持 Windows 设备，且即将通过 Foundry Local 支持 MacOS。

这是对需要托管基础设施同时兼顾本地使用的组织的良好混合方案。

优化最佳实践

在 Nvidia H100 等 GPU 上使用 AMP 混合精度（FP16），降低内存占用并提升吞吐量。
使用 持久存储卷 缓存模型，避免容器重复下载。
调整推理参数，如 可配置推理强度（低、中、高），平衡延迟与输出质量。
利用 批量推理 和兼容 API 的端点，高效处理多并发请求。
保持驱动（如 Nvidia CUDA 12.8+）和库的最新，确保兼容性和性能。

结论

如今，在单块 Nvidia H100 GPU 或同等级企业硬件上本地运行 OpenAI GPT-OSS-120B 已成为可能，并得到成熟软件生态支持，如 vLLM、Hugging Face Transformers 及 Northflank 等容器平台。对于拥有此类资源的组织或爱好者，GPT-OSS-120B 在自托管环境中提供了无与伦比的推理能力和功能。

如果没有 H100 级 GPU，较小的 GPT-OSS-20B 可能是更适合消费级 GPU 本地运行的实用替代方案。

对于云辅助或混合工作流，Azure AI Foundry 提供了一个优秀的托管平台，方便部署 GPT-OSS-120B。

对于希望结合本地部署的 API 和基础设施解决方案的用户，诸如 LightNode 之类的服务提供了可扩展的云端接口，支持开放模型。