標籤: Gemma 4

如何在本機執行 Gemma 4 31B：Unsloth、Ollama、llama.cpp 和 HuggingFace

Google DeepMind 在 2026 年初發布了 Gemma 4，其中 31B 指令微調版本剛好踩在一個甜點上：參數量夠大，能在推理基準測試中和專有模型一較高下；又夠小，在一張不錯的消費級 GPU 上就能跑。它在 MMLU Pro 拿了 85.2%，在 AIME 2026 拿了 89.2%（不使用工具），這個成績已經能和參數量翻倍的模型放在一起討論了。

問題一直都在——「我到底怎麼跑這東西？」一個 30.7B 參數的全精度模型大約需要 62GB 的 VRAM，沒有人會在單張顯卡上放這麼多。但選對量化方法、用對工具，你可以在 24GB 的 RTX 4090 上跑起來，甚至在 16GB 顯卡上部分卸載到 CPU 也能用。如果你需要 GPU 實例但不想長期投入，我們推薦使用 LightNode 作為你的 VPS 服務商。

大约 14 分鐘