Cara Menjalankan OpenAI GPT-OSS-120B Secara Lokal: Panduan Lengkap

Sekitar 3 menit

Cara Menjalankan OpenAI GPT-OSS-120B Secara Lokal: Panduan Lengkap

OpenAI GPT-OSS-120B adalah model bahasa besar open-weight yang revolusioner dengan sekitar 117 miliar parameter (5,1 miliar parameter aktif), dirancang untuk memberikan kemampuan penalaran dan agen yang kuat, termasuk eksekusi kode dan output terstruktur. Berbeda dengan model besar yang membutuhkan banyak GPU, GPT-OSS-120B dapat berjalan secara efisien pada satu GPU Nvidia H100, sehingga deployment lokal menjadi lebih mudah diakses oleh organisasi dan pengguna tingkat lanjut yang menginginkan privasi, latensi rendah, dan kontrol.

Artikel ini merangkum pengetahuan terbaru dan langkah praktis per Agustus 2025 untuk membantu Anda menjalankan GPT-OSS-120B secara lokal, termasuk persyaratan perangkat keras, opsi instalasi, deployment containerized, dan teknik optimasi.

Mengapa Menjalankan GPT-OSS-120B Secara Lokal?

Kedaulatan data penuh: Data tidak pernah keluar dari lingkungan lokal Anda, penting untuk aplikasi sensitif.
Kontrol biaya: Menghindari biaya API cloud yang berkelanjutan dan batasan rate limit.
Performa tinggi: Arsitektur yang dioptimalkan memungkinkan kualitas penalaran tinggi pada satu GPU kelas datacenter.
Kustomisasi: Melakukan fine-tune model atau membangun agen otonom canggih dengan kontrol penuh.

Persyaratan Perangkat Keras dan Perangkat Lunak

Komponen	Minimum	Direkomendasikan
GPU	Nvidia H100 GPU (40GB+)	Nvidia H100 (1 atau lebih GPU ideal)
RAM Sistem	≥ 32GB RAM	64GB+ untuk multitasking lancar
Storage	≥ 200GB NVMe SSD	NVMe cepat untuk cache bobot model
CPU	Multi-core modern	8+ core direkomendasikan
OS	Linux (direkomendasikan)	Linux untuk dukungan driver & Docker terbaik

Karena ukuran model yang besar, GPU konsumen dengan VRAM <40GB (misalnya RTX 3090 atau 4090) umumnya tidak dapat menjalankan GPT-OSS-120B secara lokal tanpa offloading signifikan atau paralelisme model. Model ini secara eksplisit dirancang untuk GPU kelas H100.

Karakteristik Resmi Model

Ukuran model: 117 miliar parameter, dengan 5,1 miliar parameter aktif yang diaktifkan oleh Mixture-of-Experts (MoE) sparsity.
Kuantisasi: Dilatih dengan presisi MXFP4 native pada lapisan MoE untuk efisiensi memori dan komputasi.
Kompatibilitas perangkat lunak: Kompatibel dengan Hugging Face Transformers, vLLM, dan format OpenAI Harmony API.
Lisensi: Apache 2.0 yang permisif — cocok untuk eksperimen, kustomisasi, dan proyek komersial.

Panduan Langkah demi Langkah Menjalankan GPT-OSS-120B Secara Lokal

1. Deploy Menggunakan Northflank Cloud GPU Containers

Northflank menawarkan cara andal untuk self-host GPT-OSS-120B dalam container yang mendukung GPU, terutama jika Anda memiliki akses ke GPU Nvidia H100.

Prosedur:

Buat akun Northflank dan mulai proyek dengan GPU-enabled, pilih GPU H100 di region yang didukung.
Buat service baru menggunakan image Docker eksternal vllm/vllm-openai:gptoss.
Set variabel lingkungan runtime OPENAI_API_KEY dengan string acak aman (panjang ≥128).
Ekspos port 8000 dengan protokol HTTP untuk akses API.
Pilih paket hardware dengan 2 GPU Nvidia H100 untuk inferensi optimal.
Lampirkan volume penyimpanan persisten ≥200GB yang dipasang di /root/.cache/huggingface untuk cache unduhan model dan menghindari pengunduhan ulang saat redeploy.
Deploy service; jalankan perintah sleep (sleep 1d) awalnya untuk menghidupkan container tanpa langsung memuat model.

Setup ini mendukung endpoint kompatibel OpenAI dan menangani pemuatan model berat pada GPU yang dioptimalkan.

2. Menjalankan Secara Lokal di Mesin GPU Kelas Enterprise

Jika Anda memiliki server fisik atau workstation yang dilengkapi GPU Nvidia H100, Anda dapat menjalankan GPT-OSS-120B menggunakan kode resmi OpenAI dan tooling Hugging Face.

Instal dependensi:

pip install torch transformers vllm accelerate

Unduh atau cache bobot model:

git lfs install
git clone https://huggingface.co/openai/gpt-oss-120b

Jalankan inferensi melalui vLLM atau kode kustom:

vllm serve openai/gpt-oss-120b

ATAU dalam Python:

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

tokenizer = AutoTokenizer.from_pretrained("openai/gpt-oss-120b")
model = AutoModelForCausalLM.from_pretrained("openai/gpt-oss-120b").cuda()

prompt = "Explain how to run GPT-OSS-120B locally"
inputs = tokenizer(prompt, return_tensors="pt").to("cuda")

outputs = model.generate(**inputs, max_new_tokens=150)
print(tokenizer.decode(outputs, skip_special_tokens=True))

Gunakan utilitas torchrun atau accelerate untuk paralelisme multi-GPU jika diperlukan.

3. Menjalankan melalui Azure AI Foundry

Microsoft Azure AI Foundry mendukung GPT-OSS-120B pada platform GPU enterprise yang dikelola.

Menyediakan alat CLI dan UI untuk membuat endpoint berbasis GPU.
Memungkinkan menjalankan GPT-OSS-120B pada satu GPU enterprise dengan latensi rendah dan deployment yang dioptimalkan bandwidth.
Mendukung perangkat Windows dan segera menawarkan dukungan MacOS dengan Foundry Local.

Ini adalah pendekatan hybrid yang baik untuk organisasi yang membutuhkan infrastruktur terkelola sekaligus penggunaan lokal on-prem.

Praktik Terbaik Optimasi

Gunakan AMP mixed precision (FP16) pada GPU seperti Nvidia H100 untuk mengurangi konsumsi memori dan meningkatkan throughput.
Gunakan volume penyimpanan persisten untuk cache model dan menghindari pengunduhan berulang saat menggunakan container.
Sesuaikan parameter inferensi seperti configurable reasoning effort (rendah, sedang, tinggi) untuk menyeimbangkan latensi dan kualitas output.
Manfaatkan batch inference dan endpoint kompatibel API untuk mengintegrasikan banyak permintaan secara efisien.
Perbarui driver (misalnya Nvidia CUDA 12.8+) dan pustaka agar kompatibilitas dan performa tetap optimal.

Kesimpulan

Menjalankan OpenAI GPT-OSS-120B secara lokal kini memungkinkan—terutama pada GPU Nvidia H100 tunggal atau perangkat keras enterprise setara—dan didukung oleh ekosistem perangkat lunak matang seperti vLLM, Hugging Face Transformers, dan platform container seperti Northflank. Bagi organisasi atau penggemar yang memiliki akses ke sumber daya tersebut, GPT-OSS-120B menawarkan kemampuan penalaran dan fitur yang tak tertandingi dalam lingkungan self-hosted.

Jika Anda tidak memiliki GPU kelas H100, GPT-OSS-20B yang lebih kecil mungkin menjadi alternatif yang lebih praktis untuk dijalankan secara lokal pada GPU konsumen.

Untuk alur kerja berbasis cloud atau hybrid, Azure AI Foundry menyediakan platform terkelola yang sangat baik untuk deployment GPT-OSS-120B dengan mudah.

Bagi yang tertarik pada solusi API dan infrastruktur yang melengkapi deployment lokal, layanan seperti LightNode menawarkan antarmuka cloud yang skalabel untuk model terbuka.