Google DeepMind 在 2026 年初发布了 Gemma 4,其中 31B 指令微调版本刚好踩在一个甜点上:参数量够大,能在推理基准测试中和专有模型掰手腕;又够小,在一块不错的消费级 GPU 上就能跑。它在 MMLU Pro 上拿了 85.2%,在 AIME 2026 上拿了 89.2%(不用工具),这个成绩已经能和参数量翻倍的模型放在一起聊了。
问题一直都在——"我到底怎么跑这玩意儿?" 一个 30.7B 参数的全精度模型大概需要 62GB 的 VRAM,没人会在单张显卡上放这么多。但选对量化方法、用对工具,你可以在 24GB 的 RTX 4090 上跑起来,甚至在 16GB 显卡上部分卸载到 CPU 也能用。如果你需要 GPU 实例但不想长期投入,我们推荐用 LightNode 作为你的 VPS 服务商。
大约 14 分钟