Jak uruchomic Gemma 4 31B lokalnie: Unsloth, Ollama, llama.cpp i HuggingFace

Około 10 minut

Jak uruchomic Gemma 4 31B lokalnie: Unsloth, Ollama, llama.cpp i HuggingFace

Google DeepMind wypuscilo Gemma 4 na poczatku 2026 roku, a 31-miliardowa wersja z instrukcjami trafia w sam punkt: wystarczajaco duza, zeby konkurowac z modelami komercyjnymi w testach rozumowania, i wystarczajaco mala, zeby chodzic na przyzwoitej konsumenckiej karcie graficznej. Osiaga 85,2% na MMLU Pro i 89,2% na AIME 2026 bez narzedzi, co stawia ja w jednym rzadku z modelami dwa razy wiekszymi od niej.

Od zawsze jednak pytanie brzmialo: "Jak to wlasciwie uruchomic?" Model 30,7B parametrow w pelnej precyzji potrzebuje okolo 62 GB VRAM. Nikt nie ma tyle na jednej karcie. Ale z odpowiednia kwantyzacja i odpowiednimi narzedziami mozesz go uruchomic na 24-gigabajtowej RTX 4090, albo czesciowo zrzucic na procesor przy karcie 16 GB. Polecamy LightNode jako dostawce VPS, jesli potrzebujesz instancji GPU bez dlugoterminowych zobowiazan.

Ten poradnik omawia cztery metody, przy czym Unsloth to glowna rekomendacja dla wiekszosci osob.

Przeglad rodziny modeli Gemma 4

Gemma 4 wystepuje w czterech rozmiarach. Wybor odpowiedniego ma znaczenie, bo skok w wymaganiach sprzetowych miedzy nimi jest spory.

Wariant	Lacznie parametrow	Aktywne parametry	Kontekst	Modalnosci	Najlepsze do
E2B	5,1B	2,3B efektywnie	128K	Tekst, Obraz, Audio	Telefony, Raspberry Pi
E4B	8B	4,5B efektywnie	128K	Tekst, Obraz, Audio	Laptopy, tylko CPU
26B A4B (MoE)	25,2B	3,8B aktywnie	256K	Tekst, Obraz	Szybki inference, mniej VRAM
31B (Dense)	30,7B	30,7B	256K	Tekst, Obraz	Maksymalna jakosc

26B A4B to ta sprytna: 25,2B lacznie parametrow, ale tylko 3,8B jest aktywnych podczas inference dzieki architekturze Mixture-of-Experts (8 aktywnych ekspertow ze 128 plus 1 wspoldzielony). Dziala prawie tak samo szybko jak model 4B, a oddaje jakosc bliska pelnej 31B. Jesli twoja GPU ma 12-16 GB VRAM, 26B A4B w kwantyzacji Q4 to chyba najlepszy wybor.

31B Dense to ta, na ktorej skupia sie ten poradnik. To pelny model ze wszystkimi parametrami aktywnymi przy kazdym przebiegu forward. Najlepsza jakosc, najwyzsze wymagania sprzetowe.

Wszystkie cztery warianty obsluguja konfigurowalny tryb myslenia (chain-of-thought reasoning), natywne prompty systemowe, wywolywanie funkcji i ponad 140 jezykow.

Wymagania sprzetowe

Zanim wybierzesz metode, sprawdz, z jakim sprzetem pracujesz.

Dla Gemma 4 31B-it

Kwantyzacja	Potrzebne VRAM	Utrata jakosci	Typowy sprzet
FP16 (pelna precyzja)	~62 GB	Brak	A100, kilka GPU
Q8_0 (8-bit)	~32 GB	Nieznaczna	RTX 4090 (24 GB) + offload na CPU
Q5_K_M (5-bit)	~22 GB	Minimalna	RTX 4090, RTX 3090
Q4_K_M (4-bit)	~18 GB	Mala	RTX 4080, RTX 3090
Q3_K_M (3-bit)	~14 GB	Zauwazalna	RTX 4070, czesciowy offload

Dla Gemma 4 26B A4B (MoE)

Kwantyzacja	Potrzebne VRAM	Utrata jakosci	Typowy sprzet
Q5_K_M	~14 GB	Minimalna	RTX 4070 Ti
Q4_K_M	~10 GB	Mala	RTX 4070, RTX 3080
Q3_K_M	~8 GB	Zauwazalna	RTX 4060 Ti 8 GB

Jesli masz tylko procesor, warianty E4B lub E2B beda dzialac bez problemu. 31B na procesorze jest technicznie mozliwa, ale bolesnie wolna (spodziewaj sie 1-3 tokenow na sekunde na nowoczesnym CPU).

Wymaganie RAM: Dolicz 8-16 GB RAM systemowej na VRAM dla narzutu srodowiska uruchomieniowego, wiecej jesli zrzucasz warstwy na procesor.

Metoda 1: Unsloth Studio (Rekomendowane)

Unsloth to najprostszy sposob na uruchomienie Gemma 4 lokalnie. To webowy interfejs, ktory ogarnia pobieranie modelu, wybor kwantyzacji i inference w jednym pakiecie. Dziala na Windows, Linux, macOS i WSL.

Dlaczego Unsloth

Wyszukiwanie i pobieranie modeli z HuggingFace jednym kliknieciem
Automatycznie dobiera odpowiednia kwantyzacje GGUF do twojego sprzetu
Wbudowany interfejs czatu z obsluga obrazow, PDF i dokumentow
Wbudowane wywolywanie narzedzi i wyszukiwanie w sieci
Sandbox do uruchamiania kodu
Zadnych bojow z konsola

Instalacja

macOS, Linux, WSL:

curl -fsSL https://unsloth.ai/install.sh | sh

Windows (PowerShell):

irm https://unsloth.ai/install.ps1 | iex

Docker:

docker run -d -e JUPYTER_PASSWORD="mypassword" \
  -p 8888:8888 -p 8000:8000 -p 2222:22 \
  -v $(pwd)/work:/workspace/work \
  --gpus all \
  unsloth/unsloth

Uruchomienie

unsloth studio -H 0.0.0.0 -p 8888

Otworz http://localhost:8888 w przegladarce. Zobaczysz interfejs Unsloth Studio.

Uruchamianie Gemma 4 31B

Wyszukaj model: W pasku wyszukiwania wpisz gemma-4-31B
Wybierz kwantyzacje: Unsloth hostuje wstepnie skwantyzowane pliki GGUF. Dla 24-gigabajtowej GPU wybierz Q4_K_M lub Q5_K_M. Dla 16 GB bierz Q3_K_M
Pobierz: Kliknij pobierz. Wariant Q4_K_M wazy okolo 18 GB
Zacznij czatowac: Po pobraniu model automatycznie laduje do interfejsu czatu

Unsloth oferuje te warianty GGUF dla Gemma 4 31B-it:

Plik	Rozmiar	Kwantyzacja
`gemma-4-31B-it-Q3_K_M.gguf`	~14 GB	3-bit (zrownowazona)
`gemma-4-31B-it-Q4_K_M.gguf`	~18 GB	4-bit (rekomendowana)
`gemma-4-31B-it-Q5_K_M.gguf`	~22 GB	5-bit (wysoka jakosc)
`gemma-4-31B-it-Q6_K.gguf`	~26 GB	6-bit (prawie bezstratna)
`gemma-4-31B-it-Q8_0.gguf`	~32 GB	8-bit (praktycznie bezstratna)

Repozytorium na HuggingFace: unsloth/gemma-4-31B-it-GGUF.

Korzystanie z interfejsu czatu

Czat Unsloth Studio obsluguje:

Konwersacje tekstowe z przelacznikiem trybu myslenia
Upload obrazow: Przeciagnij i upusc obrazy do odpowiedzi na pytania wizualne
Upload PDF/DOCX: Wyciaganie i omawianie tresci dokumentow
Uruchamianie kodu: Model moze pisac i testowac kod w sandboxie
Wlasne prompty systemowe: Ustawienia zachowania i persony

Aby wlaczyc tryb myslenia Gemma 4, przelacz opcje "Thinking" w ustawieniach czatu. To aktywuje lancuch rozumowania, gdzie model przechodzi przez problemy krok po kroku przed podaniem ostatecznej odpowiedzi.

Fine-tuning z Unsloth

Jesli chcesz wyjsc poza zwykly inference, Unsloth obsluguje tez trening:

Fine-tuning LoRA: Trenuj adaptery z az do 70% mniejszym zapotrzebowaniem na VRAM
GRPO uczenie ze wzmocnieniem: Najbardziej wydajna biblioteka RL
Data Recipes: Automatyczne tworzenie zbiorow treningowych z PDF, CSV, plikow DOCX
Obsluga wielu GPU: Dostepna juz teraz, ulepszenia w drodze

Do fine-tuningu Gemma 4 31B potrzebujesz przynajmniej jednej 24-gigabajtowej GPU z QLoRA (trening z 4-bitowa kwantyzacja).

Aktualizacja Unsloth

Po prostu uruchom ta sama komende instalacyjna ponownie:

# macOS/Linux/WSL
curl -fsSL https://unsloth.ai/install.sh | sh

# Windows
irm https://unsloth.ai/install.ps1 | iex

Metoda 2: Ollama

Ollama to najszybszy sposob na start, jesli wolisz linie komend. Automatycznie ogarnia pobieranie modeli, wykrywanie GPU i serwowanie.

Instalacja

# macOS
brew install ollama

# Linux
curl -fsSL https://ollama.com/install.sh | sh

# Windows
# Pobierz z https://ollama.com/download

Uruchamianie Gemma 4

# Pobierz i uruchom model 31B
ollama run gemma4:31b-it

# Lub mniejszy wariant MoE dla mniejszego VRAM
ollama run gemma4:26b-a4b-it

# Lub mniejsze modele dense
ollama run gemma4:e4b-it
ollama run gemma4:e2b-it

Ollama domyslnie kwantyzuje do Q4_K_M. Jesli chcesz inna kwantyzacje:

# Uruchom z okreslona kwantyzacja
ollama run gemma4:31b-it-q5_K_M

Korzystanie z API

Ollama wystawia lokalne API na porcie 11434:

import requests

response = requests.post('http://localhost:11434/api/chat', json={
    "model": "gemma4:31b-it",
    "messages": [
        {"role": "system", "content": "You are a helpful coding assistant."},
        {"role": "user", "content": "Write a Python function to merge two sorted lists."}
    ],
    "stream": False
})

print(response.json()['message']['content'])

Ollama zalety i wady

Zalety: Brak konfiguracji, automatyczne wykrywanie GPU, czysty CLI, serwer API w zestawie, proste zarzadzanie modelami.

Wady: Mniej opcji kwantyzacji niz llama.cpp, brak wbudowanej obslugi obrazow dla wszystkich modeli (sprawdz aktualna kompatybilnosc), mniejsza kontrola nad parametrami inference.

Metoda 3: llama.cpp

Do maksymalnej kontroli nad kwantyzacja, uzyciem pamieci i parametrami inference, llama.cpp to droga. To wlasnie to, co pod maska napedza Ollama i Unsloth do inference GGUF.

Budowanie ze zrodel

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp

# Z obsluga CUDA (NVIDIA)
cmake -B build -DGGML_CUDA=ON
cmake --build build --config Release -j$(nproc)

# Z obsluga Metal (macOS Apple Silicon)
cmake -B build -DGGML_METAL=ON
cmake --build build --config Release -j$(nproc)

# Tylko CPU
cmake -B build
cmake --build build --config Release -j$(nproc)

Pobieranie modelu GGUF

Sciagnij skwantyzowany model z repozytorium Unsloth na HuggingFace:

# Zainstaluj huggingface-cli
pip install huggingface-hub

# Pobierz Q4_K_M (rekomendowane dla 24-gigabajtowych GPU)
huggingface-cli download unsloth/gemma-4-31B-it-GGUF \
  gemma-4-31B-it-Q4_K_M.gguf \
  --local-dir ./models

# Lub Q5_K_M dla lepszej jakosci
huggingface-cli download unsloth/gemma-4-31B-it-GGUF \
  gemma-4-31B-it-Q5_K_M.gguf \
  --local-dir ./models

Uruchamianie modelu

# Podstawowy czat
./build/bin/llama-cli \
  -m ./models/gemma-4-31B-it-Q4_K_M.gguf \
  -ngl 99 \
  -c 8192 \
  --temp 1.0 \
  --top-p 0.95 \
  --top-k 64 \
  -p "You are a helpful assistant.\nUser: Explain quantum computing in simple terms.\nAssistant:"

Kluczowe flagi:

-ngl 99: Zrzuc wszystkie warstwy na GPU. Zmniejsz te liczbe, jesli nie masz wystarczajaco VRAM (np. -ngl 40 zrzuca okolo dwoch trzecich warstw)
-c 8192: Dlugosc kontekstu w tokenach. Zwieksz do 256K dla dlugich dokumentow, ale wiecej kontekstu zjada wiecej VRAM
--temp 1.0: Google rekomenduje temperature=1.0 dla Gemma 4
--top-p 0.95 i --top-k 64: Rekomendowane parametry samplowania

Uruchamianie serwera

./build/bin/llama-server \
  -m ./models/gemma-4-31B-it-Q4_K_M.gguf \
  -ngl 99 \
  -c 8192 \
  --host 0.0.0.0 \
  --port 8080 \
  --temp 1.0 \
  --top-p 0.95 \
  --top-k 64

Nastepnie otworz webowy interfejs na http://localhost:8080 albo wywolaj API kompatybilne z OpenAI:

from openai import OpenAI

client = OpenAI(base_url="http://localhost:8080/v1", api_key="unused")

response = client.chat.completions.create(
    model="gemma-4-31b",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Write a Rust function to reverse a linked list."}
    ]
)

print(response.choices[0].message.content)

Strategia offloadu na GPU

Jesli twoja GPU nie ma wystarczajaco VRAM na caly model, mozesz podzielic warstwy miedzy GPU a procesor:

# Dla 16-gigabajtowej GPU z modelem Q4 (~18 GB lacznie)
# Zrzuc okolo 40 warstw na GPU, reszta na procesor
./build/bin/llama-cli \
  -m ./models/gemma-4-31B-it-Q4_K_M.gguf \
  -ngl 40 \
  -c 4096

To dziala wolniej niz pelny offload na GPU, ale miesci sie na mniejszych kartach. Spodziewaj sie mniej wiecej 5-15 tokenow na sekunde w zaleznosci od procesora i tego, ile warstw zrzucisz.

Metoda 4: HuggingFace Transformers

Jesli budujesz aplikacje i potrzebujesz programatycznej kontroli, HuggingFace Transformers daje bezposredni dostep do modelu z pelna precyzja lub wlasna kwantyzacja.

Instalacja

pip install -U transformers torch accelerate

Dla obslugi obrazow:

pip install -U transformers torch torchvision accelerate

Uruchamianie w pelnej precyzji (62+ GB VRAM)

from transformers import AutoProcessor, AutoModelForCausalLM

MODEL_ID = "google/gemma-4-31B-it"

processor = AutoProcessor.from_pretrained(MODEL_ID)
model = AutoModelForCausalLM.from_pretrained(
    MODEL_ID,
    dtype="auto",
    device_map="auto"
)

messages = [
    {"role": "system", "content": "You are a helpful assistant."},
    {"role": "user", "content": "Explain the difference between TCP and UDP."},
]

text = processor.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
    enable_thinking=False
)

inputs = processor(text=text, return_tensors="pt").to(model.device)
input_len = inputs["input_ids"].shape[-1]

outputs = model.generate(**inputs, max_new_tokens=1024)
response = processor.decode(outputs[0][input_len:], skip_special_tokens=False)
result = processor.parse_response(response)
print(result)

Uruchamianie z 4-bitowa kwantyzacja (18 GB VRAM)

from transformers import AutoProcessor, AutoModelForCausalLM, BitsAndBytesConfig

MODEL_ID = "google/gemma-4-31B-it"

# Konfiguracja 4-bitowej kwantyzacji
quantization_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_compute_dtype=torch.float16
)

processor = AutoProcessor.from_pretrained(MODEL_ID)
model = AutoModelForCausalLM.from_pretrained(
    MODEL_ID,
    quantization_config=quantization_config,
    device_map="auto"
)

Przetwarzanie obrazow

Model 31B obsluguje wejscie tekstowe i obrazowe:

from transformers import AutoProcessor, AutoModelForMultimodalLM

MODEL_ID = "google/gemma-4-31B-it"

processor = AutoProcessor.from_pretrained(MODEL_ID)
model = AutoModelForMultimodalLM.from_pretrained(
    MODEL_ID,
    dtype="auto",
    device_map="auto"
)

messages = [
    {
        "role": "user",
        "content": [
            {"type": "image", "url": "https://example.com/photo.jpg"},
            {"type": "text", "text": "Describe what you see in this image."}
        ]
    }
]

inputs = processor.apply_chat_template(
    messages,
    tokenize=True,
    return_dict=True,
    return_tensors="pt",
    add_generation_prompt=True,
).to(model.device)

input_len = inputs["input_ids"].shape[-1]
outputs = model.generate(**inputs, max_new_tokens=512)
response = processor.decode(outputs[0][input_len:], skip_special_tokens=False)
result = processor.parse_response(response)
print(result)

Wlaczanie trybu myslenia

Gemma 4 obsluguje lancuch rozumowania. Wlacz go przez enable_thinking=True:

text = processor.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
    enable_thinking=True  # Aktywuje tryb rozumowania
)

Gdy tryb myslenia jest wlaczony, model generuje swoje wewnetrzne rozumowanie, a nastepnie ostateczna odpowiedz. Uzyj processor.parse_response(response), zeby oddzielic myslenie od odpowiedzi.

Zrozumienie formatow kwantyzacji GGUF

Sciagajac pliki GGUF, zobaczysz mnostwo sufiksow. Oto co oznaczaja w praktyce.

Format	Bity	Rozmiar (31B)	Kiedy uzyc
Q8_0	8-bit	~32 GB	Najlepsza jakosc, potrzeba 32+ GB VRAM
Q6_K	6-bit	~26 GB	Prawie bezstratna, 24+ GB VRAM
Q5_K_M	5-bit	~22 GB	Zloty srodek jakosci/rozmiaru
Q4_K_M	4-bit	~18 GB	Najlepszy balans, miesci sie w 24 GB GPU
Q3_K_M	3-bit	~14 GB	Mniejsza GPU, pewna utrata jakosci
Q2_K	2-bit	~10 GB	Ostatecznosc, zauwazalna degradacja

Moja rekomendacja: Q4_K_M dla 24-gigabajtowych GPU, Q5_K_M jesli mozesz pozwolic sobie na dodatkowe 4 GB. Roznica w jakosci miedzy Q4_K_M a Q5_K_M jest mierzalna w benchmarkach, ale trudna do zauwazenia w codziennym uzyciu. Schodzenie ponizej Q3_K_M oplaca sie tylko, gdy nie masz innego wyjscia.

Sufiks _K_M oznacza "K-kwantyzacja, srednia." Istnieja tez warianty _K_S (mala, wiecej kompresji) i _K_L (duza, mniej kompresji). _K_M to domyslna rekomendacja.

Porady o wydajnosci

Zarzadzanie dlugoscia kontekstu

Gemma 4 31B obsluguje do 256K tokenow kontekstu, ale kazdy token w kontekscie kosztuje VRAM. Kilka praktycznych wskazowek:

4K tokenow: Komfortowo na kazdej GPU, ktora miesci model
8K tokenow: Standard dla wiekszosci rozmow, nadal komfortowo
32K tokenow: Potrzebuje okolo 4-6 GB dodatkowego VRAM w zaleznosci od kwantyzacji
128K+ tokenow: Wymaga duzo VRAM lub agresywnego offloadu

Zacznij od -c 8192 i zwiekszaj tylko, gdy potrzebujesz.

Parametry samplowania

Google rekomenduje te ustawienia dla Gemma 4:

temperature = 1.0
top_p = 0.95
top_k = 64

Roznia sie od tego, co uzywa wiekszosc modeli. Nie uzywaj temperature=0.7 z Gemma 4; jest trenowana na temperature=1.0 i daje lepsze wyniki przy tym ustawieniu.

Flash Attention

Jesli uzywasz HuggingFace Transformers, wlacz Flash Attention dla szybszego inference i mniejszego uzycia pamieci:

model = AutoModelForCausalLM.from_pretrained(
    MODEL_ID,
    attn_implementation="flash_attention_2",
    device_map="auto"
)

Wymaga pip install flash-attn i kompatybilnej GPU (dziala z wiekszoscia kart NVIDIA RTX).

Konfiguracja wielu GPU

Jesli masz kilka GPU, device_map="auto" w Transformers automatycznie zajmuje sie podzialem. Dla llama.cpp:

./build/bin/llama-cli \
  -m ./models/gemma-4-31B-it-Q4_K_M.gguf \
  -ngl 99 \
  -ts 1,1 \  # Podzial rowno miedzy 2 GPU
  -c 8192

Rozwiazywanie problemow

Brak pamieci (CUDA OOM)

Najczestszy problem. Rozwiazania w kolejnosci rosnacej desperacji:

Uzyj mniejszej kwantyzacji: Przelacz z Q5 na Q4 albo z Q4 na Q3
Zmniejsz dlugosc kontekstu: Obniz -c z 8192 do 4096 lub 2048
Zrzuc na procesor: Zmniejsz -ngl, zeby zrzucic czesc warstw
Uzyj wariantu 26B A4B MoE: Ten sam poziom jakosci, ulamek VRAM
Uzyj wariantu E4B: Dziala na czymskolwiek

Wolny inference na procesorze

Na CPU spodziewaj sie 1-3 tokenow na sekunde dla modelu 31B. Opcje:

Przelacz sie na model E4B lub E2B (10-20 tok/s na CPU)
Uzyj instancji chmurowej z GPU (LightNode oferuje GPU VPS)
Zbuduj llama.cpp z wlaczonymi zestawami instrukcji procesora (AVX2, AVX-512)

Bledy pobierania modelu

Plik Q4_K_M wazy okolo 18 GB. Jesli pobieranie ciagle sie nie udaje:

# Uzyj huggingface-cli z obsluga wznowienia
huggingface-cli download unsloth/gemma-4-31B-it-GGUF \
  gemma-4-31B-it-Q4_K_M.gguf \
  --local-dir ./models \
  --local-dir-use-symlinks False

Albo uzyj menedzera pobierania z obsluga wznowienia. CDN HuggingFace potrafi byc niestabilny przy duzych plikach.

Bledy "Model not supported"

Upewnij sie, ze uzywasz najnowszej wersji narzedzi. Gemma 4 jest nowa i starsze wersje llama.cpp, Ollama i Transformers jej nie obsluguja:

# Zaktualizuj llama.cpp
cd llama.cpp && git pull && cmake --build build --config Release -j$(nproc)

# Zaktualizuj Ollama
ollama pull gemma4:31b-it  # Automatycznie aktualizuje jesli trzeba

# Zaktualizuj Transformers
pip install -U transformers

Ktora metode wybrac?

Scenariusz	Najlepsza metoda
Chcesz GUI, nie chcesz dotykac terminala	Unsloth Studio
Chcesz najszybsza konfiguracje, CLI jest ok	Ollama
Potrzebujesz maksymalnej kontroli nad inference	llama.cpp
Budujesz aplikacje	HuggingFace Transformers
Masz ograniczony VRAM (8-16 GB)	Unsloth lub Ollama z Q3/Q4
Masz 24+ GB VRAM	Dowolna metoda, uzyj Q4_K_M lub Q5_K_M
Potrzebujesz rozumienia obrazow	Unsloth Studio lub HuggingFace Transformers
Chcesz fine-tuning	Unsloth (trening LoRA/GRPO wbudowany)

Dla wiekszosci osob dopiero zaczynajacych, Unsloth Studio to droga najmniejszego oporu. Zainstaluj, wyszukaj Gemma 4, wybierz kwantyzacje pasujaca do twojej GPU i zacznij czatowac. Caly proces zajmuje okolo 15 minut od instalacji do pierwszej rozmowy.

Jesli czujesz sie komfortowo w terminalu i po prostu chcesz uruchomic model, Ollama zalatwi to w dwie komendy. A jesli potrzebujesz programatycznego dostepu albo budujesz cos na bazie modelu, HuggingFace Transformers z 4-bitowa kwantyzacja da ci pelne API w Pythonie.

Podsumowanie

Uruchamianie Gemma 4 31B lokalnie stalo sie zaskakujaco praktyczne. Rok temu model 30B na tym poziomie jakosci bylby projektem badawczym. Teraz to 15-minutowa konfiguracja przez Unsloth lub Ollama, dzialajaca na konsumenckim sprzecie, ktory mozna kupic dzisiaj.

Sam model spokojnie konkuruje z komercyjnymi alternatywami w rozumowaniu, programowaniu i zadaniach multimodalnych. 256K kontekstu, wbudowany tryb myslenia, rozumienie obrazow i wywolywanie funkcji sprawiaja, ze jest naprawde uzyteczny do prawdziwej pracy, a nie tylko do eksperymentow.

Do hostowania modelu na zdalnej GPU, LightNode oferuje instancje GPU VPS z rozliczeniem godzinowym, wiec mozesz ja odpalic, gdy potrzebujesz, i wylaczyc, gdy nie.

Karta modelu Gemma 4 na HuggingFace zawiera pelne dane techniczne, a repozytorium Unsloth GGUF ma wszystkie skwantyzowane warianty gotowe do pobrania.