OpenAI GPT-OSS-120B'yi Yerelde Nasıl Çalıştırılır: Detaylı Rehber
OpenAI GPT-OSS-120B'yi Yerelde Nasıl Çalıştırılır: Detaylı Rehber
OpenAI'nin GPT-OSS-120B modeli, yaklaşık 117 milyar parametreye (5.1 milyar aktif) sahip devrim niteliğinde açık ağırlıklı büyük bir dil modelidir ve güçlü muhakeme ve ajan yetenekleri, kod yürütme ve yapılandırılmış çıktılar sunmak üzere tasarlanmıştır. Çoklu GPU gerektiren devasa modellerin aksine, GPT-OSS-120B tek bir Nvidia H100 GPU üzerinde verimli şekilde çalışabilir; bu da gizlilik, düşük gecikme ve kontrol arayan kuruluşlar ve ileri düzey kullanıcılar için yerel dağıtımı daha erişilebilir kılar.
Bu makale, Ağustos 2025 itibarıyla en güncel bilgi ve pratik adımları sentezleyerek GPT-OSS-120B'yi yerelde çalıştırmanıza yardımcı olacak; donanım gereksinimleri, kurulum seçenekleri, konteyner tabanlı dağıtım ve optimizasyon tekniklerini içermektedir.
Neden GPT-OSS-120B'yi Yerelde Çalıştırmalısınız?
- Tam veri egemenliği: Veriler asla yerel ortamınızdan çıkmaz, hassas uygulamalar için kritik önemdedir.
- Maliyet kontrolü: Sürekli bulut API maliyetleri ve hız sınırlarından kaçınır.
- Yüksek performans: Optimize edilmiş mimari, tek bir veri merkezi sınıfı GPU üzerinde yüksek muhakeme kalitesi sağlar.
- Özelleştirme: Modeli ince ayar yapabilir veya tam kontrol ile gelişmiş otonom ajanlar oluşturabilirsiniz.
Donanım ve Yazılım Gereksinimleri
Bileşen | Minimum | Tavsiye Edilen |
---|---|---|
GPU | Nvidia H100 GPU (40GB+) | Nvidia H100 (tercihen 1 veya daha fazla GPU) |
Sistem RAM | ≥ 32GB RAM | 64GB+ sorunsuz çoklu görev için |
Depolama | ≥ 200GB NVMe SSD | Model ağırlıklarını önbelleğe almak için hızlı NVMe |
CPU | Modern çok çekirdekli | 8+ çekirdek önerilir |
İşletim Sistemi | Linux (tercih edilir) | En iyi sürücü ve Docker desteği için Linux |
Modelin büyük boyutu nedeniyle, <40GB VRAM'e sahip tüketici GPU'ları (örneğin RTX 3090 veya 4090) genellikle önemli offloading veya model paralelliği olmadan GPT-OSS-120B'yi yerelde çalıştıramaz. Model özellikle H100 sınıfı GPU'lar için tasarlanmıştır.
Resmi Model Özellikleri
- Model boyutu: 117 milyar parametre, Mixture-of-Experts (MoE) seyrekliği sayesinde 5.1 milyar aktif parametre.
- Kuantizasyon: Bellek ve hesaplama verimliliği için MoE katmanlarına özgü MXFP4 hassasiyeti ile eğitildi.
- Yazılım uyumluluğu: Hugging Face Transformers, vLLM ve OpenAI Harmony API formatı ile uyumlu.
- Lisans: Deney, özelleştirme ve ticari projeler için uygun, izin verici Apache 2.0.
GPT-OSS-120B'yi Yerelde Çalıştırmak İçin Adım Adım Rehber
1. Northflank Bulut GPU Konteynerleri ile Dağıtım
Northflank, özellikle Nvidia H100 GPU erişiminiz varsa, GPU destekli konteynerlerde GPT-OSS-120B'yi kendi kendinize barındırmak için güvenilir bir yol sunar.
İşlem:
- Bir Northflank hesabı oluşturun ve desteklenen bir bölgede H100 GPU'ları seçerek GPU destekli bir proje başlatın.
- Dış Docker imajı
vllm/vllm-openai:gptoss
kullanarak yeni bir servis oluşturun. - Güvenli rastgele bir dize (uzunluk ≥128) ile
OPENAI_API_KEY
çalışma zamanı ortam değişkenini ayarlayın. - API erişimi için HTTP protokolü ile 8000 portunu açın.
- Optimum çıkarım için 2 Nvidia H100 GPU içeren donanım planını seçin.
- Model indirmelerini önbelleğe almak ve yeniden dağıtımda tekrar indirmeyi önlemek için
/root/.cache/huggingface
konumunda monte edilmiş ≥200GB kalıcı depolama alanı ekleyin. - Servisi dağıtın; başlangıçta modeli hemen yüklemeden konteyneri ayağa kaldırmak için
sleep 1d
komutunu çalıştırın.
Bu kurulum, OpenAI uyumlu uç noktaları destekler ve optimize edilmiş GPU'larda ağır model yüklemeyi yönetir.
2. Kurumsal Sınıf GPU Makinesinde Yerelde Çalıştırma
Fiziksel bir sunucu veya Nvidia H100 GPU'lu iş istasyonunuz varsa, resmi OpenAI kod tabanları ve Hugging Face araçları ile GPT-OSS-120B'yi çalıştırabilirsiniz.
- Bağımlılıkları yükleyin:
pip install torch transformers vllm accelerate
- Model ağırlıklarını indirin veya önbelleğe alın:
git lfs install
git clone https://huggingface.co/openai/gpt-oss-120b
- vLLM veya özel kod ile çıkarım yapın:
vllm serve openai/gpt-oss-120b
YA da Python'da:
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
tokenizer = AutoTokenizer.from_pretrained("openai/gpt-oss-120b")
model = AutoModelForCausalLM.from_pretrained("openai/gpt-oss-120b").cuda()
prompt = "GPT-OSS-120B'nin yerelde nasıl çalıştırılacağını açıklayın"
inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_new_tokens=150)
print(tokenizer.decode(outputs, skip_special_tokens=True))
- Gerekirse çoklu GPU paralelliği için
torchrun
veyaaccelerate
araçlarını kullanın.
3. Azure AI Foundry Üzerinden Çalıştırma
Microsoft Azure AI Foundry, yönetilen kurumsal GPU platformlarında GPT-OSS-120B'yi destekler.
- GPU destekli uç noktalar oluşturmak için CLI araçları ve kullanıcı arayüzü sağlar.
- Tek bir kurumsal GPU üzerinde düşük gecikmeli ve bant genişliği optimize edilmiş dağıtım imkanı sunar.
- Windows cihazlarını destekler ve yakında Foundry Local ile MacOS desteği sunacaktır.
Bu, yönetilen altyapı ile yerel kurum içi kullanım gereksinimi olan kuruluşlar için iyi bir hibrit yaklaşımdır.
Optimizasyon İçin En İyi Uygulamalar
- Nvidia H100 gibi GPU'larda AMP karışık hassasiyet (FP16) kullanarak bellek tüketimini azaltın ve verimi artırın.
- Konteyner kullanırken modelleri önbelleğe almak ve tekrar indirmeyi önlemek için kalıcı depolama alanları kullanın.
- Gecikme ile çıktı kalitesi arasında denge kurmak için ayar yapılabilir muhakeme çabası (düşük, orta, yüksek) gibi çıkarım parametrelerini ayarlayın.
- Çoklu eşzamanlı istekleri verimli entegre etmek için toplu çıkarım ve API uyumlu uç noktaları kullanın.
- Uyumluluk ve performans için sürücüleri (örneğin Nvidia CUDA 12.8+) ve kütüphaneleri güncel tutun.
Sonuç
OpenAI GPT-OSS-120B'yi yerelde çalıştırmak bugün mümkündür—özellikle tek Nvidia H100 GPU veya eşdeğer kurumsal donanım üzerinde—ve vLLM, Hugging Face Transformers ve Northflank gibi olgun yazılım ekosistemleri tarafından desteklenmektedir. Bu tür kaynaklara erişimi olan kuruluşlar veya meraklılar için GPT-OSS-120B, kendi kendine barındırılan ortamda eşsiz muhakeme ve yetenekler sunar.
H100 sınıfı GPU'larınız yoksa, daha küçük olan GPT-OSS-20B, tüketici düzeyindeki GPU'larda yerel çalıştırmalar için daha pratik bir alternatif olabilir.
Bulut destekli veya hibrit iş akışları için Azure AI Foundry, GPT-OSS-120B'yi kolayca dağıtmak için mükemmel yönetilen bir platform sunar.
Yerel dağıtımı tamamlayan API ve altyapı çözümleriyle ilgilenenler için, LightNode gibi hizmetler, açık modeller için ölçeklenebilir bulut tabanlı arayüzler sunmaktadır.