OpenAI GPT-OSS-120B'yi Yerelde Nasıl Çalıştırılır: Detaylı Rehber

Yaklaşık 3 dakika

OpenAI GPT-OSS-120B'yi Yerelde Nasıl Çalıştırılır: Detaylı Rehber

OpenAI'nin GPT-OSS-120B modeli, yaklaşık 117 milyar parametreye (5.1 milyar aktif) sahip devrim niteliğinde açık ağırlıklı büyük bir dil modelidir ve güçlü muhakeme ve ajan yetenekleri, kod yürütme ve yapılandırılmış çıktılar sunmak üzere tasarlanmıştır. Çoklu GPU gerektiren devasa modellerin aksine, GPT-OSS-120B tek bir Nvidia H100 GPU üzerinde verimli şekilde çalışabilir; bu da gizlilik, düşük gecikme ve kontrol arayan kuruluşlar ve ileri düzey kullanıcılar için yerel dağıtımı daha erişilebilir kılar.

Bu makale, Ağustos 2025 itibarıyla en güncel bilgi ve pratik adımları sentezleyerek GPT-OSS-120B'yi yerelde çalıştırmanıza yardımcı olacak; donanım gereksinimleri, kurulum seçenekleri, konteyner tabanlı dağıtım ve optimizasyon tekniklerini içermektedir.

Neden GPT-OSS-120B'yi Yerelde Çalıştırmalısınız?

Tam veri egemenliği: Veriler asla yerel ortamınızdan çıkmaz, hassas uygulamalar için kritik önemdedir.
Maliyet kontrolü: Sürekli bulut API maliyetleri ve hız sınırlarından kaçınır.
Yüksek performans: Optimize edilmiş mimari, tek bir veri merkezi sınıfı GPU üzerinde yüksek muhakeme kalitesi sağlar.
Özelleştirme: Modeli ince ayar yapabilir veya tam kontrol ile gelişmiş otonom ajanlar oluşturabilirsiniz.

Donanım ve Yazılım Gereksinimleri

Bileşen	Minimum	Tavsiye Edilen
GPU	Nvidia H100 GPU (40GB+)	Nvidia H100 (tercihen 1 veya daha fazla GPU)
Sistem RAM	≥ 32GB RAM	64GB+ sorunsuz çoklu görev için
Depolama	≥ 200GB NVMe SSD	Model ağırlıklarını önbelleğe almak için hızlı NVMe
CPU	Modern çok çekirdekli	8+ çekirdek önerilir
İşletim Sistemi	Linux (tercih edilir)	En iyi sürücü ve Docker desteği için Linux

Modelin büyük boyutu nedeniyle, <40GB VRAM'e sahip tüketici GPU'ları (örneğin RTX 3090 veya 4090) genellikle önemli offloading veya model paralelliği olmadan GPT-OSS-120B'yi yerelde çalıştıramaz. Model özellikle H100 sınıfı GPU'lar için tasarlanmıştır.

Resmi Model Özellikleri

Model boyutu: 117 milyar parametre, Mixture-of-Experts (MoE) seyrekliği sayesinde 5.1 milyar aktif parametre.
Kuantizasyon: Bellek ve hesaplama verimliliği için MoE katmanlarına özgü MXFP4 hassasiyeti ile eğitildi.
Yazılım uyumluluğu: Hugging Face Transformers, vLLM ve OpenAI Harmony API formatı ile uyumlu.
Lisans: Deney, özelleştirme ve ticari projeler için uygun, izin verici Apache 2.0.

GPT-OSS-120B'yi Yerelde Çalıştırmak İçin Adım Adım Rehber

1. Northflank Bulut GPU Konteynerleri ile Dağıtım

Northflank, özellikle Nvidia H100 GPU erişiminiz varsa, GPU destekli konteynerlerde GPT-OSS-120B'yi kendi kendinize barındırmak için güvenilir bir yol sunar.

İşlem:

Bir Northflank hesabı oluşturun ve desteklenen bir bölgede H100 GPU'ları seçerek GPU destekli bir proje başlatın.
Dış Docker imajı vllm/vllm-openai:gptoss kullanarak yeni bir servis oluşturun.
Güvenli rastgele bir dize (uzunluk ≥128) ile OPENAI_API_KEY çalışma zamanı ortam değişkenini ayarlayın.
API erişimi için HTTP protokolü ile 8000 portunu açın.
Optimum çıkarım için 2 Nvidia H100 GPU içeren donanım planını seçin.
Model indirmelerini önbelleğe almak ve yeniden dağıtımda tekrar indirmeyi önlemek için /root/.cache/huggingface konumunda monte edilmiş ≥200GB kalıcı depolama alanı ekleyin.
Servisi dağıtın; başlangıçta modeli hemen yüklemeden konteyneri ayağa kaldırmak için sleep 1d komutunu çalıştırın.

Bu kurulum, OpenAI uyumlu uç noktaları destekler ve optimize edilmiş GPU'larda ağır model yüklemeyi yönetir.

2. Kurumsal Sınıf GPU Makinesinde Yerelde Çalıştırma

Fiziksel bir sunucu veya Nvidia H100 GPU'lu iş istasyonunuz varsa, resmi OpenAI kod tabanları ve Hugging Face araçları ile GPT-OSS-120B'yi çalıştırabilirsiniz.

Bağımlılıkları yükleyin:

pip install torch transformers vllm accelerate

Model ağırlıklarını indirin veya önbelleğe alın:

git lfs install
git clone https://huggingface.co/openai/gpt-oss-120b

vLLM veya özel kod ile çıkarım yapın:

vllm serve openai/gpt-oss-120b

YA da Python'da:

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

tokenizer = AutoTokenizer.from_pretrained("openai/gpt-oss-120b")
model = AutoModelForCausalLM.from_pretrained("openai/gpt-oss-120b").cuda()

prompt = "GPT-OSS-120B'nin yerelde nasıl çalıştırılacağını açıklayın"
inputs = tokenizer(prompt, return_tensors="pt").to("cuda")

outputs = model.generate(**inputs, max_new_tokens=150)
print(tokenizer.decode(outputs, skip_special_tokens=True))

Gerekirse çoklu GPU paralelliği için torchrun veya accelerate araçlarını kullanın.

3. Azure AI Foundry Üzerinden Çalıştırma

Microsoft Azure AI Foundry, yönetilen kurumsal GPU platformlarında GPT-OSS-120B'yi destekler.

GPU destekli uç noktalar oluşturmak için CLI araçları ve kullanıcı arayüzü sağlar.
Tek bir kurumsal GPU üzerinde düşük gecikmeli ve bant genişliği optimize edilmiş dağıtım imkanı sunar.
Windows cihazlarını destekler ve yakında Foundry Local ile MacOS desteği sunacaktır.

Bu, yönetilen altyapı ile yerel kurum içi kullanım gereksinimi olan kuruluşlar için iyi bir hibrit yaklaşımdır.

Optimizasyon İçin En İyi Uygulamalar

Nvidia H100 gibi GPU'larda AMP karışık hassasiyet (FP16) kullanarak bellek tüketimini azaltın ve verimi artırın.
Konteyner kullanırken modelleri önbelleğe almak ve tekrar indirmeyi önlemek için kalıcı depolama alanları kullanın.
Gecikme ile çıktı kalitesi arasında denge kurmak için ayar yapılabilir muhakeme çabası (düşük, orta, yüksek) gibi çıkarım parametrelerini ayarlayın.
Çoklu eşzamanlı istekleri verimli entegre etmek için toplu çıkarım ve API uyumlu uç noktaları kullanın.
Uyumluluk ve performans için sürücüleri (örneğin Nvidia CUDA 12.8+) ve kütüphaneleri güncel tutun.

Sonuç

OpenAI GPT-OSS-120B'yi yerelde çalıştırmak bugün mümkündür—özellikle tek Nvidia H100 GPU veya eşdeğer kurumsal donanım üzerinde—ve vLLM, Hugging Face Transformers ve Northflank gibi olgun yazılım ekosistemleri tarafından desteklenmektedir. Bu tür kaynaklara erişimi olan kuruluşlar veya meraklılar için GPT-OSS-120B, kendi kendine barındırılan ortamda eşsiz muhakeme ve yetenekler sunar.

H100 sınıfı GPU'larınız yoksa, daha küçük olan GPT-OSS-20B, tüketici düzeyindeki GPU'larda yerel çalıştırmalar için daha pratik bir alternatif olabilir.

Bulut destekli veya hibrit iş akışları için Azure AI Foundry, GPT-OSS-120B'yi kolayca dağıtmak için mükemmel yönetilen bir platform sunar.

Yerel dağıtımı tamamlayan API ve altyapı çözümleriyle ilgilenenler için, LightNode gibi hizmetler, açık modeller için ölçeklenebilir bulut tabanlı arayüzler sunmaktadır.