如何本地運行 OpenAI GPT-OSS-120B：詳細指南

大约 5 分鐘

如何本地運行 OpenAI GPT-OSS-120B：詳細指南

OpenAI 的 GPT-OSS-120B 是一款突破性的開放權重大型語言模型，擁有約 1170 億參數（其中 51 億為活躍參數），設計用於提供強大的推理和代理能力，包括程式碼執行與結構化輸出。與需要多張 GPU 的龐大模型不同，GPT-OSS-120B 能夠在單張 Nvidia H100 GPU 上高效運行，使得本地部署對於追求隱私、低延遲和掌控權的組織與高階用戶更加可行。

本文綜合了截至 2025 年 8 月的最新知識與實務步驟，幫助您本地運行 GPT-OSS-120B，包括硬體需求、安裝選項、容器化部署與優化技巧。

為什麼要本地運行 GPT-OSS-120B？

完整資料主權： 資料永遠不會離開您的本地環境，對於敏感應用至關重要。
成本控制： 避免持續的雲端 API 費用與速率限制。
高效能： 優化架構使單張資料中心級 GPU 也能達成高品質推理。
客製化： 可微調模型或建立進階自主代理，完全掌控。

硬體與軟體需求

元件	最低需求	推薦配置
GPU	Nvidia H100 GPU（40GB 以上）	Nvidia H100（1 張或多張 GPU 最佳）
系統記憶體	≥ 32GB RAM	64GB 以上以順暢多工處理
儲存空間	≥ 200GB NVMe SSD	快速 NVMe 用於快取模型權重
CPU	現代多核心	建議 8 核以上
作業系統	Linux（首選）	Linux 以獲得最佳驅動與 Docker 支援

由於模型體積龐大，消費級 GPU（如 RTX 3090 或 4090）若 VRAM 小於 40GB，通常無法在本地運行 GPT-OSS-120B，除非進行大量卸載或模型並行。該模型明確設計為適用於 H100 級 GPU。

官方模型特性

模型大小： 1170 億參數，其中 51 億活躍參數由 Mixture-of-Experts (MoE) 稀疏機制啟用。
量化方式： 使用 MXFP4 精度訓練，為 MoE 層原生設計，提升記憶體與計算效率。
軟體相容性： 相容於 Hugging Face Transformers、vLLM 及 OpenAI Harmony API 格式。
授權： 寬鬆的 Apache 2.0 授權，適合實驗、客製化及商業專案。

本地運行 GPT-OSS-120B 的逐步指南

1. 使用 Northflank 雲端 GPU 容器部署

Northflank 提供可靠的方式，在支援 Nvidia H100 GPU 的容器中自我托管 GPT-OSS-120B。

操作步驟：

建立 Northflank 帳號並啟動一個 GPU 啟用專案，選擇支援區域中的 H100 GPU。
使用外部 Docker 映像 vllm/vllm-openai:gptoss 創建新服務。
設定執行環境變數 OPENAI_API_KEY，使用安全隨機字串（長度 ≥128）。
開放 8000 埠口，使用 HTTP 協議供 API 存取。
選擇包含 2 張 Nvidia H100 GPU 的硬體方案以達最佳推理效能。
附加 ≥200GB 的持久化儲存卷，掛載於 /root/.cache/huggingface，用於快取模型下載，避免重新部署時重複抓取。
部署服務；初期可先執行睡眠指令（sleep 1d）讓容器啟動，但不立即載入模型。

此配置支援 OpenAI 相容端點，並在優化 GPU 上處理龐大模型載入。

2. 在企業級 GPU 機器上本地運行

若您擁有配備 Nvidia H100 GPU 的實體伺服器或工作站，可使用官方 OpenAI 程式碼庫與 Hugging Face 工具運行 GPT-OSS-120B。

安裝依賴套件：

pip install torch transformers vllm accelerate

下載或快取模型權重：

git lfs install
git clone https://huggingface.co/openai/gpt-oss-120b

透過 vLLM 或自訂程式碼執行推理：

vllm serve openai/gpt-oss-120b

或使用 Python：

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

tokenizer = AutoTokenizer.from_pretrained("openai/gpt-oss-120b")
model = AutoModelForCausalLM.from_pretrained("openai/gpt-oss-120b").cuda()

prompt = "Explain how to run GPT-OSS-120B locally"
inputs = tokenizer(prompt, return_tensors="pt").to("cuda")

outputs = model.generate(**inputs, max_new_tokens=150)
print(tokenizer.decode(outputs, skip_special_tokens=True))

如需多 GPU 並行，可使用 torchrun 或 accelerate 工具。

3. 透過 Azure AI Foundry 運行

Microsoft Azure AI Foundry 支援在其管理的企業 GPU 平台上運行 GPT-OSS-120B。

提供 CLI 工具與 UI 介面，快速建立 GPU 支援的端點。
可在單張企業級 GPU 上低延遲且頻寬優化地運行 GPT-OSS-120B。
支援 Windows 裝置，並將很快推出支援 MacOS 的 Foundry Local。

對於需要管理基礎設施且同時希望本地部署的組織，這是一個良好的混合方案。

優化最佳實踐

在 Nvidia H100 等 GPU 上使用 AMP 混合精度（FP16），降低記憶體使用並提升吞吐量。
使用 持久化儲存卷 快取模型，避免容器重啟時重複下載。
調整推理參數，如 可配置的推理努力程度（低、中、高），平衡延遲與輸出品質。
利用 批次推理 及 API 相容端點，有效整合多重並發請求。
保持驅動程式（如 Nvidia CUDA 12.8+）與函式庫更新，以確保相容性與效能。

結論

目前在單張 Nvidia H100 GPU 或等效企業硬體上本地運行 OpenAI GPT-OSS-120B 是可行的，並且受到成熟軟體生態系統如 vLLM、Hugging Face Transformers 及 Northflank 容器平台的支持。對於擁有此類資源的組織或愛好者，GPT-OSS-120B 在自我托管環境中提供無與倫比的推理能力與功能。

若您沒有 H100 級 GPU，較小的 GPT-OSS-20B 可能是更適合在消費級 GPU 上本地運行的實用替代方案。

對於雲端輔助或混合工作流程，Azure AI Foundry 提供了優秀的管理平台，輕鬆部署 GPT-OSS-120B。

對於有興趣結合本地部署的 API 與基礎設施解決方案者，像是 LightNode 這類服務提供可擴展的雲端介面，連接開放模型。