Google DeepMind が 2026 年初頭に Gemma 4 をリリースしました。その 31B インストラクションチューニング版は絶妙なバランスです。プロプライエタリモデルと推論ベンチマークで競えるほど十分大きくて、でもまともなコンシューマー GPU で動くくらいコンパクト。MMLU Pro で 85.2%、AIME 2026 で 89.2%(ツールなし)を叩き出していて、パラメータ数が倍のモデルと肩を並べるレベルです。
でもずっと課題だったのが「で、どうやって実際に動かすの?」ということ。30.7B パラメータのフル精度モデルは約 62GB の VRAM が必要。そんなもの、1枚のグラボで持ってる人はいません。でも、適切な量子化とツールを使えば、24GB の RTX 4090 で動かせるし、16GB のグラボでも部分的に CPU にオフロードすればいけます。GPU インスタンスが必要だけど長期契約は避けたいなら、LightNode を VPS プロバイダーとしておすすめします。
約8分