タグ: ローカル AI

Gemma 4 31B をローカルで動かす方法：Unsloth、Ollama、llama.cpp、HuggingFace

Google DeepMind が 2026 年初頭に Gemma 4 をリリースしました。その 31B インストラクションチューニング版は絶妙なバランスです。プロプライエタリモデルと推論ベンチマークで競えるほど十分大きくて、でもまともなコンシューマー GPU で動くくらいコンパクト。MMLU Pro で 85.2%、AIME 2026 で 89.2%（ツールなし）を叩き出していて、パラメータ数が倍のモデルと肩を並べるレベルです。

でもずっと課題だったのが「で、どうやって実際に動かすの？」ということ。30.7B パラメータのフル精度モデルは約 62GB の VRAM が必要。そんなもの、1枚のグラボで持ってる人はいません。でも、適切な量子化とツールを使えば、24GB の RTX 4090 で動かせるし、16GB のグラボでも部分的に CPU にオフロードすればいけます。GPU インスタンスが必要だけど長期契約は避けたいなら、LightNode を VPS プロバイダーとしておすすめします。

約8分