Google DeepMind phát hành Gemma 4 vào đầu năm 2026, và phiên bản instruction-tuned 31B nằm đúng điểm ngọt: đủ lớn để cạnh tranh với các model độc quyền trên benchmark reasoning, đủ nhỏ để chạy trên một GPU tiêu dùng khá tốt. Nó đạt 85.2% trên MMLU Pro và 89.2% trên AIME 2026 không dùng tools, đặt nó vào cùng hàng với các model lớn gấp đôi.
Khoảng 15 phút