Google DeepMind 在 2026 年初發布了 Gemma 4,其中 31B 指令微調版本剛好踩在一個甜點上:參數量夠大,能在推理基準測試中和專有模型一較高下;又夠小,在一張不錯的消費級 GPU 上就能跑。它在 MMLU Pro 拿了 85.2%,在 AIME 2026 拿了 89.2%(不使用工具),這個成績已經能和參數量翻倍的模型放在一起討論了。
問題一直都在——「我到底怎麼跑這東西?」一個 30.7B 參數的全精度模型大約需要 62GB 的 VRAM,沒有人會在單張顯卡上放這麼多。但選對量化方法、用對工具,你可以在 24GB 的 RTX 4090 上跑起來,甚至在 16GB 顯卡上部分卸載到 CPU 也能用。如果你需要 GPU 實例但不想長期投入,我們推薦使用 LightNode 作為你的 VPS 服務商。
大约 14 分鐘