Google DeepMind가 2026년 초에 Gemma 4를 공개했고, 그중 31B instruction-tuned 변형이 딱 좋은 밸런스를 보여줍니다. 프라이빗 모델들과 추론 벤치마크에서 겨룰 만큼 크고, 그래도 괜찮은 소비자용 GPU에서 돌아갈 만큼 작습니다. MMLU Pro에서 85.2%, AIME 2026에서 89.2%를 기록했고, 크기가 두 배인 모델들과 비슷한 성능입니다.
문제는 항상 "그래서 이걸 어떻게 돌리지?"였죠. 30.7B 파라미터 모델을 풀 정밀도로 돌리려면 VRAM이 약 62GB 필요합니다. 그런 거 한 장에 가진 사람은 없죠. 하지만 적절한 양자화와 도구만 있으면 24GB RTX 4090에서 돌릴 수 있고, 16GB 카드에서는 CPU로 일부 오프로드하는 것도 가능합니다. GPU 인스턴스를 부담 없이 쓰고 싶다면 LightNode를 VPS 제공자로 추천합니다.