Jak uruchomic Gemma 4 31B lokalnie: Unsloth, Ollama, llama.cpp i HuggingFace
Jak uruchomic Gemma 4 31B lokalnie: Unsloth, Ollama, llama.cpp i HuggingFace
Google DeepMind wypuscilo Gemma 4 na poczatku 2026 roku, a 31-miliardowa wersja z instrukcjami trafia w sam punkt: wystarczajaco duza, zeby konkurowac z modelami komercyjnymi w testach rozumowania, i wystarczajaco mala, zeby chodzic na przyzwoitej konsumenckiej karcie graficznej. Osiaga 85,2% na MMLU Pro i 89,2% na AIME 2026 bez narzedzi, co stawia ja w jednym rzadku z modelami dwa razy wiekszymi od niej.
Od zawsze jednak pytanie brzmialo: "Jak to wlasciwie uruchomic?" Model 30,7B parametrow w pelnej precyzji potrzebuje okolo 62 GB VRAM. Nikt nie ma tyle na jednej karcie. Ale z odpowiednia kwantyzacja i odpowiednimi narzedziami mozesz go uruchomic na 24-gigabajtowej RTX 4090, albo czesciowo zrzucic na procesor przy karcie 16 GB. Polecamy LightNode jako dostawce VPS, jesli potrzebujesz instancji GPU bez dlugoterminowych zobowiazan.
Ten poradnik omawia cztery metody, przy czym Unsloth to glowna rekomendacja dla wiekszosci osob.
Spis tresci
- Przeglad rodziny modeli Gemma 4
- Wymagania sprzetowe
- Metoda 1: Unsloth Studio (Rekomendowane)
- Metoda 2: Ollama
- Metoda 3: llama.cpp
- Metoda 4: HuggingFace Transformers
- Zrozumienie formatow kwantyzacji GGUF
- Porady o wydajnosci
- Rozwiazywanie problemow
- Ktora metode wybrac?
Przeglad rodziny modeli Gemma 4
Gemma 4 wystepuje w czterech rozmiarach. Wybor odpowiedniego ma znaczenie, bo skok w wymaganiach sprzetowych miedzy nimi jest spory.
| Wariant | Lacznie parametrow | Aktywne parametry | Kontekst | Modalnosci | Najlepsze do |
|---|---|---|---|---|---|
| E2B | 5,1B | 2,3B efektywnie | 128K | Tekst, Obraz, Audio | Telefony, Raspberry Pi |
| E4B | 8B | 4,5B efektywnie | 128K | Tekst, Obraz, Audio | Laptopy, tylko CPU |
| 26B A4B (MoE) | 25,2B | 3,8B aktywnie | 256K | Tekst, Obraz | Szybki inference, mniej VRAM |
| 31B (Dense) | 30,7B | 30,7B | 256K | Tekst, Obraz | Maksymalna jakosc |
26B A4B to ta sprytna: 25,2B lacznie parametrow, ale tylko 3,8B jest aktywnych podczas inference dzieki architekturze Mixture-of-Experts (8 aktywnych ekspertow ze 128 plus 1 wspoldzielony). Dziala prawie tak samo szybko jak model 4B, a oddaje jakosc bliska pelnej 31B. Jesli twoja GPU ma 12-16 GB VRAM, 26B A4B w kwantyzacji Q4 to chyba najlepszy wybor.
31B Dense to ta, na ktorej skupia sie ten poradnik. To pelny model ze wszystkimi parametrami aktywnymi przy kazdym przebiegu forward. Najlepsza jakosc, najwyzsze wymagania sprzetowe.
Wszystkie cztery warianty obsluguja konfigurowalny tryb myslenia (chain-of-thought reasoning), natywne prompty systemowe, wywolywanie funkcji i ponad 140 jezykow.
Wymagania sprzetowe
Zanim wybierzesz metode, sprawdz, z jakim sprzetem pracujesz.
Dla Gemma 4 31B-it
| Kwantyzacja | Potrzebne VRAM | Utrata jakosci | Typowy sprzet |
|---|---|---|---|
| FP16 (pelna precyzja) | ~62 GB | Brak | A100, kilka GPU |
| Q8_0 (8-bit) | ~32 GB | Nieznaczna | RTX 4090 (24 GB) + offload na CPU |
| Q5_K_M (5-bit) | ~22 GB | Minimalna | RTX 4090, RTX 3090 |
| Q4_K_M (4-bit) | ~18 GB | Mala | RTX 4080, RTX 3090 |
| Q3_K_M (3-bit) | ~14 GB | Zauwazalna | RTX 4070, czesciowy offload |
Dla Gemma 4 26B A4B (MoE)
| Kwantyzacja | Potrzebne VRAM | Utrata jakosci | Typowy sprzet |
|---|---|---|---|
| Q5_K_M | ~14 GB | Minimalna | RTX 4070 Ti |
| Q4_K_M | ~10 GB | Mala | RTX 4070, RTX 3080 |
| Q3_K_M | ~8 GB | Zauwazalna | RTX 4060 Ti 8 GB |
Jesli masz tylko procesor, warianty E4B lub E2B beda dzialac bez problemu. 31B na procesorze jest technicznie mozliwa, ale bolesnie wolna (spodziewaj sie 1-3 tokenow na sekunde na nowoczesnym CPU).
Wymaganie RAM: Dolicz 8-16 GB RAM systemowej na VRAM dla narzutu srodowiska uruchomieniowego, wiecej jesli zrzucasz warstwy na procesor.
Metoda 1: Unsloth Studio (Rekomendowane)
Unsloth to najprostszy sposob na uruchomienie Gemma 4 lokalnie. To webowy interfejs, ktory ogarnia pobieranie modelu, wybor kwantyzacji i inference w jednym pakiecie. Dziala na Windows, Linux, macOS i WSL.
Dlaczego Unsloth
- Wyszukiwanie i pobieranie modeli z HuggingFace jednym kliknieciem
- Automatycznie dobiera odpowiednia kwantyzacje GGUF do twojego sprzetu
- Wbudowany interfejs czatu z obsluga obrazow, PDF i dokumentow
- Wbudowane wywolywanie narzedzi i wyszukiwanie w sieci
- Sandbox do uruchamiania kodu
- Zadnych bojow z konsola
Instalacja
macOS, Linux, WSL:
curl -fsSL https://unsloth.ai/install.sh | shWindows (PowerShell):
irm https://unsloth.ai/install.ps1 | iexDocker:
docker run -d -e JUPYTER_PASSWORD="mypassword" \
-p 8888:8888 -p 8000:8000 -p 2222:22 \
-v $(pwd)/work:/workspace/work \
--gpus all \
unsloth/unslothUruchomienie
unsloth studio -H 0.0.0.0 -p 8888Otworz http://localhost:8888 w przegladarce. Zobaczysz interfejs Unsloth Studio.
Uruchamianie Gemma 4 31B
- Wyszukaj model: W pasku wyszukiwania wpisz
gemma-4-31B - Wybierz kwantyzacje: Unsloth hostuje wstepnie skwantyzowane pliki GGUF. Dla 24-gigabajtowej GPU wybierz
Q4_K_MlubQ5_K_M. Dla 16 GB bierzQ3_K_M - Pobierz: Kliknij pobierz. Wariant Q4_K_M wazy okolo 18 GB
- Zacznij czatowac: Po pobraniu model automatycznie laduje do interfejsu czatu
Unsloth oferuje te warianty GGUF dla Gemma 4 31B-it:
| Plik | Rozmiar | Kwantyzacja |
|---|---|---|
gemma-4-31B-it-Q3_K_M.gguf | ~14 GB | 3-bit (zrownowazona) |
gemma-4-31B-it-Q4_K_M.gguf | ~18 GB | 4-bit (rekomendowana) |
gemma-4-31B-it-Q5_K_M.gguf | ~22 GB | 5-bit (wysoka jakosc) |
gemma-4-31B-it-Q6_K.gguf | ~26 GB | 6-bit (prawie bezstratna) |
gemma-4-31B-it-Q8_0.gguf | ~32 GB | 8-bit (praktycznie bezstratna) |
Repozytorium na HuggingFace: unsloth/gemma-4-31B-it-GGUF.
Korzystanie z interfejsu czatu
Czat Unsloth Studio obsluguje:
- Konwersacje tekstowe z przelacznikiem trybu myslenia
- Upload obrazow: Przeciagnij i upusc obrazy do odpowiedzi na pytania wizualne
- Upload PDF/DOCX: Wyciaganie i omawianie tresci dokumentow
- Uruchamianie kodu: Model moze pisac i testowac kod w sandboxie
- Wlasne prompty systemowe: Ustawienia zachowania i persony
Aby wlaczyc tryb myslenia Gemma 4, przelacz opcje "Thinking" w ustawieniach czatu. To aktywuje lancuch rozumowania, gdzie model przechodzi przez problemy krok po kroku przed podaniem ostatecznej odpowiedzi.
Fine-tuning z Unsloth
Jesli chcesz wyjsc poza zwykly inference, Unsloth obsluguje tez trening:
- Fine-tuning LoRA: Trenuj adaptery z az do 70% mniejszym zapotrzebowaniem na VRAM
- GRPO uczenie ze wzmocnieniem: Najbardziej wydajna biblioteka RL
- Data Recipes: Automatyczne tworzenie zbiorow treningowych z PDF, CSV, plikow DOCX
- Obsluga wielu GPU: Dostepna juz teraz, ulepszenia w drodze
Do fine-tuningu Gemma 4 31B potrzebujesz przynajmniej jednej 24-gigabajtowej GPU z QLoRA (trening z 4-bitowa kwantyzacja).
Aktualizacja Unsloth
Po prostu uruchom ta sama komende instalacyjna ponownie:
# macOS/Linux/WSL
curl -fsSL https://unsloth.ai/install.sh | sh
# Windows
irm https://unsloth.ai/install.ps1 | iexMetoda 2: Ollama
Ollama to najszybszy sposob na start, jesli wolisz linie komend. Automatycznie ogarnia pobieranie modeli, wykrywanie GPU i serwowanie.
Instalacja
# macOS
brew install ollama
# Linux
curl -fsSL https://ollama.com/install.sh | sh
# Windows
# Pobierz z https://ollama.com/downloadUruchamianie Gemma 4
# Pobierz i uruchom model 31B
ollama run gemma4:31b-it
# Lub mniejszy wariant MoE dla mniejszego VRAM
ollama run gemma4:26b-a4b-it
# Lub mniejsze modele dense
ollama run gemma4:e4b-it
ollama run gemma4:e2b-itOllama domyslnie kwantyzuje do Q4_K_M. Jesli chcesz inna kwantyzacje:
# Uruchom z okreslona kwantyzacja
ollama run gemma4:31b-it-q5_K_MKorzystanie z API
Ollama wystawia lokalne API na porcie 11434:
import requests
response = requests.post('http://localhost:11434/api/chat', json={
"model": "gemma4:31b-it",
"messages": [
{"role": "system", "content": "You are a helpful coding assistant."},
{"role": "user", "content": "Write a Python function to merge two sorted lists."}
],
"stream": False
})
print(response.json()['message']['content'])Ollama zalety i wady
Zalety: Brak konfiguracji, automatyczne wykrywanie GPU, czysty CLI, serwer API w zestawie, proste zarzadzanie modelami.
Wady: Mniej opcji kwantyzacji niz llama.cpp, brak wbudowanej obslugi obrazow dla wszystkich modeli (sprawdz aktualna kompatybilnosc), mniejsza kontrola nad parametrami inference.
Metoda 3: llama.cpp
Do maksymalnej kontroli nad kwantyzacja, uzyciem pamieci i parametrami inference, llama.cpp to droga. To wlasnie to, co pod maska napedza Ollama i Unsloth do inference GGUF.
Budowanie ze zrodel
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
# Z obsluga CUDA (NVIDIA)
cmake -B build -DGGML_CUDA=ON
cmake --build build --config Release -j$(nproc)
# Z obsluga Metal (macOS Apple Silicon)
cmake -B build -DGGML_METAL=ON
cmake --build build --config Release -j$(nproc)
# Tylko CPU
cmake -B build
cmake --build build --config Release -j$(nproc)Pobieranie modelu GGUF
Sciagnij skwantyzowany model z repozytorium Unsloth na HuggingFace:
# Zainstaluj huggingface-cli
pip install huggingface-hub
# Pobierz Q4_K_M (rekomendowane dla 24-gigabajtowych GPU)
huggingface-cli download unsloth/gemma-4-31B-it-GGUF \
gemma-4-31B-it-Q4_K_M.gguf \
--local-dir ./models
# Lub Q5_K_M dla lepszej jakosci
huggingface-cli download unsloth/gemma-4-31B-it-GGUF \
gemma-4-31B-it-Q5_K_M.gguf \
--local-dir ./modelsUruchamianie modelu
# Podstawowy czat
./build/bin/llama-cli \
-m ./models/gemma-4-31B-it-Q4_K_M.gguf \
-ngl 99 \
-c 8192 \
--temp 1.0 \
--top-p 0.95 \
--top-k 64 \
-p "You are a helpful assistant.\nUser: Explain quantum computing in simple terms.\nAssistant:"Kluczowe flagi:
-ngl 99: Zrzuc wszystkie warstwy na GPU. Zmniejsz te liczbe, jesli nie masz wystarczajaco VRAM (np.-ngl 40zrzuca okolo dwoch trzecich warstw)-c 8192: Dlugosc kontekstu w tokenach. Zwieksz do 256K dla dlugich dokumentow, ale wiecej kontekstu zjada wiecej VRAM--temp 1.0: Google rekomenduje temperature=1.0 dla Gemma 4--top-p 0.95i--top-k 64: Rekomendowane parametry samplowania
Uruchamianie serwera
./build/bin/llama-server \
-m ./models/gemma-4-31B-it-Q4_K_M.gguf \
-ngl 99 \
-c 8192 \
--host 0.0.0.0 \
--port 8080 \
--temp 1.0 \
--top-p 0.95 \
--top-k 64Nastepnie otworz webowy interfejs na http://localhost:8080 albo wywolaj API kompatybilne z OpenAI:
from openai import OpenAI
client = OpenAI(base_url="http://localhost:8080/v1", api_key="unused")
response = client.chat.completions.create(
model="gemma-4-31b",
messages=[
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "Write a Rust function to reverse a linked list."}
]
)
print(response.choices[0].message.content)Strategia offloadu na GPU
Jesli twoja GPU nie ma wystarczajaco VRAM na caly model, mozesz podzielic warstwy miedzy GPU a procesor:
# Dla 16-gigabajtowej GPU z modelem Q4 (~18 GB lacznie)
# Zrzuc okolo 40 warstw na GPU, reszta na procesor
./build/bin/llama-cli \
-m ./models/gemma-4-31B-it-Q4_K_M.gguf \
-ngl 40 \
-c 4096To dziala wolniej niz pelny offload na GPU, ale miesci sie na mniejszych kartach. Spodziewaj sie mniej wiecej 5-15 tokenow na sekunde w zaleznosci od procesora i tego, ile warstw zrzucisz.
Metoda 4: HuggingFace Transformers
Jesli budujesz aplikacje i potrzebujesz programatycznej kontroli, HuggingFace Transformers daje bezposredni dostep do modelu z pelna precyzja lub wlasna kwantyzacja.
Instalacja
pip install -U transformers torch accelerateDla obslugi obrazow:
pip install -U transformers torch torchvision accelerateUruchamianie w pelnej precyzji (62+ GB VRAM)
from transformers import AutoProcessor, AutoModelForCausalLM
MODEL_ID = "google/gemma-4-31B-it"
processor = AutoProcessor.from_pretrained(MODEL_ID)
model = AutoModelForCausalLM.from_pretrained(
MODEL_ID,
dtype="auto",
device_map="auto"
)
messages = [
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "Explain the difference between TCP and UDP."},
]
text = processor.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True,
enable_thinking=False
)
inputs = processor(text=text, return_tensors="pt").to(model.device)
input_len = inputs["input_ids"].shape[-1]
outputs = model.generate(**inputs, max_new_tokens=1024)
response = processor.decode(outputs[0][input_len:], skip_special_tokens=False)
result = processor.parse_response(response)
print(result)Uruchamianie z 4-bitowa kwantyzacja (18 GB VRAM)
from transformers import AutoProcessor, AutoModelForCausalLM, BitsAndBytesConfig
MODEL_ID = "google/gemma-4-31B-it"
# Konfiguracja 4-bitowej kwantyzacji
quantization_config = BitsAndBytesConfig(
load_in_4bit=True,
bnb_4bit_compute_dtype=torch.float16
)
processor = AutoProcessor.from_pretrained(MODEL_ID)
model = AutoModelForCausalLM.from_pretrained(
MODEL_ID,
quantization_config=quantization_config,
device_map="auto"
)Przetwarzanie obrazow
Model 31B obsluguje wejscie tekstowe i obrazowe:
from transformers import AutoProcessor, AutoModelForMultimodalLM
MODEL_ID = "google/gemma-4-31B-it"
processor = AutoProcessor.from_pretrained(MODEL_ID)
model = AutoModelForMultimodalLM.from_pretrained(
MODEL_ID,
dtype="auto",
device_map="auto"
)
messages = [
{
"role": "user",
"content": [
{"type": "image", "url": "https://example.com/photo.jpg"},
{"type": "text", "text": "Describe what you see in this image."}
]
}
]
inputs = processor.apply_chat_template(
messages,
tokenize=True,
return_dict=True,
return_tensors="pt",
add_generation_prompt=True,
).to(model.device)
input_len = inputs["input_ids"].shape[-1]
outputs = model.generate(**inputs, max_new_tokens=512)
response = processor.decode(outputs[0][input_len:], skip_special_tokens=False)
result = processor.parse_response(response)
print(result)Wlaczanie trybu myslenia
Gemma 4 obsluguje lancuch rozumowania. Wlacz go przez enable_thinking=True:
text = processor.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True,
enable_thinking=True # Aktywuje tryb rozumowania
)Gdy tryb myslenia jest wlaczony, model generuje swoje wewnetrzne rozumowanie, a nastepnie ostateczna odpowiedz. Uzyj processor.parse_response(response), zeby oddzielic myslenie od odpowiedzi.
Zrozumienie formatow kwantyzacji GGUF
Sciagajac pliki GGUF, zobaczysz mnostwo sufiksow. Oto co oznaczaja w praktyce.
| Format | Bity | Rozmiar (31B) | Kiedy uzyc |
|---|---|---|---|
| Q8_0 | 8-bit | ~32 GB | Najlepsza jakosc, potrzeba 32+ GB VRAM |
| Q6_K | 6-bit | ~26 GB | Prawie bezstratna, 24+ GB VRAM |
| Q5_K_M | 5-bit | ~22 GB | Zloty srodek jakosci/rozmiaru |
| Q4_K_M | 4-bit | ~18 GB | Najlepszy balans, miesci sie w 24 GB GPU |
| Q3_K_M | 3-bit | ~14 GB | Mniejsza GPU, pewna utrata jakosci |
| Q2_K | 2-bit | ~10 GB | Ostatecznosc, zauwazalna degradacja |
Moja rekomendacja: Q4_K_M dla 24-gigabajtowych GPU, Q5_K_M jesli mozesz pozwolic sobie na dodatkowe 4 GB. Roznica w jakosci miedzy Q4_K_M a Q5_K_M jest mierzalna w benchmarkach, ale trudna do zauwazenia w codziennym uzyciu. Schodzenie ponizej Q3_K_M oplaca sie tylko, gdy nie masz innego wyjscia.
Sufiks _K_M oznacza "K-kwantyzacja, srednia." Istnieja tez warianty _K_S (mala, wiecej kompresji) i _K_L (duza, mniej kompresji). _K_M to domyslna rekomendacja.
Porady o wydajnosci
Zarzadzanie dlugoscia kontekstu
Gemma 4 31B obsluguje do 256K tokenow kontekstu, ale kazdy token w kontekscie kosztuje VRAM. Kilka praktycznych wskazowek:
- 4K tokenow: Komfortowo na kazdej GPU, ktora miesci model
- 8K tokenow: Standard dla wiekszosci rozmow, nadal komfortowo
- 32K tokenow: Potrzebuje okolo 4-6 GB dodatkowego VRAM w zaleznosci od kwantyzacji
- 128K+ tokenow: Wymaga duzo VRAM lub agresywnego offloadu
Zacznij od -c 8192 i zwiekszaj tylko, gdy potrzebujesz.
Parametry samplowania
Google rekomenduje te ustawienia dla Gemma 4:
temperature = 1.0
top_p = 0.95
top_k = 64Roznia sie od tego, co uzywa wiekszosc modeli. Nie uzywaj temperature=0.7 z Gemma 4; jest trenowana na temperature=1.0 i daje lepsze wyniki przy tym ustawieniu.
Flash Attention
Jesli uzywasz HuggingFace Transformers, wlacz Flash Attention dla szybszego inference i mniejszego uzycia pamieci:
model = AutoModelForCausalLM.from_pretrained(
MODEL_ID,
attn_implementation="flash_attention_2",
device_map="auto"
)Wymaga pip install flash-attn i kompatybilnej GPU (dziala z wiekszoscia kart NVIDIA RTX).
Konfiguracja wielu GPU
Jesli masz kilka GPU, device_map="auto" w Transformers automatycznie zajmuje sie podzialem. Dla llama.cpp:
./build/bin/llama-cli \
-m ./models/gemma-4-31B-it-Q4_K_M.gguf \
-ngl 99 \
-ts 1,1 \ # Podzial rowno miedzy 2 GPU
-c 8192Rozwiazywanie problemow
Brak pamieci (CUDA OOM)
Najczestszy problem. Rozwiazania w kolejnosci rosnacej desperacji:
- Uzyj mniejszej kwantyzacji: Przelacz z Q5 na Q4 albo z Q4 na Q3
- Zmniejsz dlugosc kontekstu: Obniz
-cz 8192 do 4096 lub 2048 - Zrzuc na procesor: Zmniejsz
-ngl, zeby zrzucic czesc warstw - Uzyj wariantu 26B A4B MoE: Ten sam poziom jakosci, ulamek VRAM
- Uzyj wariantu E4B: Dziala na czymskolwiek
Wolny inference na procesorze
Na CPU spodziewaj sie 1-3 tokenow na sekunde dla modelu 31B. Opcje:
- Przelacz sie na model E4B lub E2B (10-20 tok/s na CPU)
- Uzyj instancji chmurowej z GPU (LightNode oferuje GPU VPS)
- Zbuduj llama.cpp z wlaczonymi zestawami instrukcji procesora (AVX2, AVX-512)
Bledy pobierania modelu
Plik Q4_K_M wazy okolo 18 GB. Jesli pobieranie ciagle sie nie udaje:
# Uzyj huggingface-cli z obsluga wznowienia
huggingface-cli download unsloth/gemma-4-31B-it-GGUF \
gemma-4-31B-it-Q4_K_M.gguf \
--local-dir ./models \
--local-dir-use-symlinks FalseAlbo uzyj menedzera pobierania z obsluga wznowienia. CDN HuggingFace potrafi byc niestabilny przy duzych plikach.
Bledy "Model not supported"
Upewnij sie, ze uzywasz najnowszej wersji narzedzi. Gemma 4 jest nowa i starsze wersje llama.cpp, Ollama i Transformers jej nie obsluguja:
# Zaktualizuj llama.cpp
cd llama.cpp && git pull && cmake --build build --config Release -j$(nproc)
# Zaktualizuj Ollama
ollama pull gemma4:31b-it # Automatycznie aktualizuje jesli trzeba
# Zaktualizuj Transformers
pip install -U transformersKtora metode wybrac?
| Scenariusz | Najlepsza metoda |
|---|---|
| Chcesz GUI, nie chcesz dotykac terminala | Unsloth Studio |
| Chcesz najszybsza konfiguracje, CLI jest ok | Ollama |
| Potrzebujesz maksymalnej kontroli nad inference | llama.cpp |
| Budujesz aplikacje | HuggingFace Transformers |
| Masz ograniczony VRAM (8-16 GB) | Unsloth lub Ollama z Q3/Q4 |
| Masz 24+ GB VRAM | Dowolna metoda, uzyj Q4_K_M lub Q5_K_M |
| Potrzebujesz rozumienia obrazow | Unsloth Studio lub HuggingFace Transformers |
| Chcesz fine-tuning | Unsloth (trening LoRA/GRPO wbudowany) |
Dla wiekszosci osob dopiero zaczynajacych, Unsloth Studio to droga najmniejszego oporu. Zainstaluj, wyszukaj Gemma 4, wybierz kwantyzacje pasujaca do twojej GPU i zacznij czatowac. Caly proces zajmuje okolo 15 minut od instalacji do pierwszej rozmowy.
Jesli czujesz sie komfortowo w terminalu i po prostu chcesz uruchomic model, Ollama zalatwi to w dwie komendy. A jesli potrzebujesz programatycznego dostepu albo budujesz cos na bazie modelu, HuggingFace Transformers z 4-bitowa kwantyzacja da ci pelne API w Pythonie.
Podsumowanie
Uruchamianie Gemma 4 31B lokalnie stalo sie zaskakujaco praktyczne. Rok temu model 30B na tym poziomie jakosci bylby projektem badawczym. Teraz to 15-minutowa konfiguracja przez Unsloth lub Ollama, dzialajaca na konsumenckim sprzecie, ktory mozna kupic dzisiaj.
Sam model spokojnie konkuruje z komercyjnymi alternatywami w rozumowaniu, programowaniu i zadaniach multimodalnych. 256K kontekstu, wbudowany tryb myslenia, rozumienie obrazow i wywolywanie funkcji sprawiaja, ze jest naprawde uzyteczny do prawdziwej pracy, a nie tylko do eksperymentow.
Do hostowania modelu na zdalnej GPU, LightNode oferuje instancje GPU VPS z rozliczeniem godzinowym, wiec mozesz ja odpalic, gdy potrzebujesz, i wylaczyc, gdy nie.
Karta modelu Gemma 4 na HuggingFace zawiera pelne dane techniczne, a repozytorium Unsloth GGUF ma wszystkie skwantyzowane warianty gotowe do pobrania.