Cách Chạy OpenAI GPT-OSS-120B Tại Chỗ: Hướng Dẫn Chi Tiết

Khoảng 6 phút

Cách Chạy OpenAI GPT-OSS-120B Tại Chỗ: Hướng Dẫn Chi Tiết

GPT-OSS-120B của OpenAI là một mô hình ngôn ngữ lớn mở trọng số đột phá với khoảng 117 tỷ tham số (5,1 tỷ tham số hoạt động), được thiết kế để cung cấp khả năng suy luận mạnh mẽ và tính năng tác nhân, bao gồm thực thi mã và đầu ra có cấu trúc. Khác với các mô hình khổng lồ cần nhiều GPU, GPT-OSS-120B có thể chạy hiệu quả trên một GPU Nvidia H100 duy nhất, giúp việc triển khai tại chỗ trở nên dễ tiếp cận hơn cho các tổ chức và người dùng nâng cao muốn bảo mật, độ trễ thấp và kiểm soát.

Bài viết này tổng hợp kiến thức mới nhất và các bước thực tiễn tính đến tháng 8 năm 2025 để giúp bạn chạy GPT-OSS-120B tại chỗ, bao gồm yêu cầu phần cứng, tùy chọn cài đặt, triển khai container và kỹ thuật tối ưu hóa.

Tại Sao Nên Chạy GPT-OSS-120B Tại Chỗ?

Toàn quyền kiểm soát dữ liệu: Dữ liệu không bao giờ rời khỏi môi trường nội bộ, rất quan trọng cho các ứng dụng nhạy cảm.
Kiểm soát chi phí: Tránh chi phí API đám mây liên tục và giới hạn tần suất.
Hiệu năng cao: Kiến trúc tối ưu cho phép suy luận chất lượng cao trên một GPU cấp trung tâm dữ liệu.
Tùy chỉnh: Tinh chỉnh mô hình hoặc xây dựng các tác nhân tự động nâng cao với quyền kiểm soát hoàn toàn.

Yêu Cầu Phần Cứng và Phần Mềm

Thành phần	Tối thiểu	Khuyến nghị
GPU	Nvidia H100 GPU (40GB+)	Nvidia H100 (1 hoặc nhiều GPU lý tưởng)
RAM hệ thống	≥ 32GB RAM	64GB+ để đa nhiệm mượt mà
Lưu trữ	≥ 200GB NVMe SSD	NVMe nhanh để cache trọng số mô hình
CPU	Đa nhân hiện đại	Khuyến nghị 8+ nhân
Hệ điều hành	Linux (ưu tiên)	Linux để hỗ trợ driver & Docker tốt nhất

Do kích thước mô hình lớn, các GPU tiêu dùng có VRAM <40GB (ví dụ RTX 3090 hoặc 4090) thường không thể chạy GPT-OSS-120B tại chỗ mà không có offloading đáng kể hoặc phân tán mô hình. Mô hình được thiết kế rõ ràng cho GPU lớp H100.

Đặc Điểm Chính Thức Của Mô Hình

Kích thước mô hình: 117 tỷ tham số, trong đó 5,1 tỷ tham số hoạt động được kích hoạt bởi Mixture-of-Experts (MoE) sparsity.
Lượng tử hóa: Được huấn luyện với độ chính xác MXFP4 đặc trưng cho các lớp MoE nhằm tối ưu bộ nhớ và tính toán.
Tương thích phần mềm: Tương thích với Hugging Face Transformers, vLLM và định dạng API OpenAI Harmony.
Giấy phép: Apache 2.0 cho phép — phù hợp cho thử nghiệm, tùy chỉnh và dự án thương mại.

Hướng Dẫn Từng Bước Chạy GPT-OSS-120B Tại Chỗ

1. Triển Khai Qua Northflank Cloud GPU Containers

Northflank cung cấp cách đáng tin cậy để tự lưu trữ GPT-OSS-120B trong các container hỗ trợ GPU, đặc biệt nếu bạn có quyền truy cập GPU Nvidia H100.

Quy trình:

Tạo tài khoản Northflank và bắt đầu một dự án bật GPU, chọn GPU H100 ở khu vực được hỗ trợ.
Tạo một dịch vụ mới sử dụng image Docker bên ngoài vllm/vllm-openai:gptoss.
Thiết lập biến môi trường runtime OPENAI_API_KEY với chuỗi ngẫu nhiên bảo mật (độ dài ≥128).
Mở cổng 8000 với giao thức HTTP để truy cập API.
Chọn gói phần cứng với 2 GPU Nvidia H100 để suy luận tối ưu.
Gắn ổ lưu trữ bền vững ≥200GB gắn tại /root/.cache/huggingface để cache tải mô hình và tránh tải lại khi triển khai lại.
Triển khai dịch vụ; ban đầu chạy lệnh ngủ (sleep 1d) để khởi động container mà không tải mô hình ngay lập tức.

Cấu hình này hỗ trợ các endpoint tương thích OpenAI và xử lý tải mô hình nặng trên GPU tối ưu.

2. Chạy Tại Chỗ Trên Máy GPU Lớp Doanh Nghiệp

Nếu bạn có máy chủ vật lý hoặc workstation trang bị GPU Nvidia H100, bạn có thể chạy GPT-OSS-120B bằng mã nguồn chính thức của OpenAI và công cụ Hugging Face.

Cài đặt các phụ thuộc:

pip install torch transformers vllm accelerate

Tải hoặc cache trọng số mô hình:

git lfs install
git clone https://huggingface.co/openai/gpt-oss-120b

Chạy suy luận qua vLLM hoặc mã tùy chỉnh:

vllm serve openai/gpt-oss-120b

HOẶC trong Python:

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

tokenizer = AutoTokenizer.from_pretrained("openai/gpt-oss-120b")
model = AutoModelForCausalLM.from_pretrained("openai/gpt-oss-120b").cuda()

prompt = "Explain how to run GPT-OSS-120B locally"
inputs = tokenizer(prompt, return_tensors="pt").to("cuda")

outputs = model.generate(**inputs, max_new_tokens=150)
print(tokenizer.decode(outputs, skip_special_tokens=True))

Sử dụng torchrun hoặc tiện ích accelerate để chạy đa GPU nếu cần.

3. Chạy Qua Azure AI Foundry

Microsoft Azure AI Foundry hỗ trợ GPT-OSS-120B trên nền tảng GPU doanh nghiệp được quản lý.

Cung cấp công cụ CLI và giao diện UI để khởi tạo các endpoint hỗ trợ GPU.
Cho phép chạy GPT-OSS-120B trên một GPU doanh nghiệp với độ trễ thấp và triển khai tối ưu băng thông.
Hỗ trợ thiết bị Windows và sắp tới sẽ hỗ trợ MacOS với Foundry Local.

Đây là giải pháp kết hợp tốt cho các tổ chức cần hạ tầng được quản lý cùng với sử dụng tại chỗ.

Các Thực Hành Tối Ưu

Sử dụng AMP mixed precision (FP16) trên GPU như Nvidia H100 để giảm tiêu thụ bộ nhớ và tăng thông lượng.
Dùng ổ lưu trữ bền vững để cache mô hình, tránh tải lại nhiều lần khi dùng container.
Điều chỉnh tham số suy luận như mức độ suy luận cấu hình được (thấp, trung bình, cao) để cân bằng độ trễ và chất lượng đầu ra.
Tận dụng suy luận theo lô và các endpoint tương thích API để tích hợp nhiều yêu cầu đồng thời hiệu quả.
Luôn cập nhật driver (ví dụ Nvidia CUDA 12.8+) và thư viện để đảm bảo tương thích và hiệu suất.

Kết Luận

Chạy OpenAI GPT-OSS-120B tại chỗ hiện nay là khả thi — chủ yếu trên GPU Nvidia H100 đơn hoặc phần cứng doanh nghiệp tương đương — và được hỗ trợ bởi hệ sinh thái phần mềm trưởng thành như vLLM, Hugging Face Transformers và nền tảng container như Northflank. Đối với các tổ chức hoặc người đam mê có quyền truy cập tài nguyên này, GPT-OSS-120B cung cấp khả năng suy luận và tính năng vượt trội trong môi trường tự lưu trữ.

Nếu bạn không có GPU lớp H100, GPT-OSS-20B nhỏ hơn có thể là lựa chọn thực tế hơn cho chạy tại chỗ trên GPU tiêu dùng.

Đối với các luồng công việc hỗ trợ đám mây hoặc kết hợp, Azure AI Foundry cung cấp nền tảng quản lý tuyệt vời để triển khai GPT-OSS-120B dễ dàng.

Đối với những ai quan tâm đến giải pháp API và hạ tầng bổ trợ cho triển khai tại chỗ, các dịch vụ như LightNode cung cấp giao diện đám mây có thể mở rộng cho các mô hình mở.