DeepSeek-V4 — один из самых амбициозных релизов моделей с открытыми весами от DeepSeek на сегодняшний день. Семейство включает DeepSeek-V4-Pro, модель Mixture-of-Experts с 1.6 триллиона параметров и 49 миллиардов активированных параметров, и DeepSeek-V4-Flash, меньшую MoE-модель с 284 миллиардами параметров и 13 миллиардами активированных параметров. Обе модели поддерживают длину контекста до одного миллиона токенов.
Введение
GLM-5 — это последняя открытая большая языковая модель от Z.ai, содержащая 744 млрд параметров (40 млрд активных) с архитектурой Mixture-of-Experts (MoE). Эта мощная модель отлично справляется с рассуждениями, программированием и агентными задачами, что делает её одной из лучших открытых LLM на сегодняшний день.
MiniMax-M1-80k — это революционная крупномасштабная модель с открытыми весами, известная своей выдающейся производительностью при работе с длинными контекстами и сложными задачами программной инженерии. Если вы хотите использовать её возможности в своём проекте или в производственной среде, это руководство подробно расскажет, как развернуть и эффективно применять MiniMax-M1-80k.
Введение
Представьте, что у вас есть мощь большой языковой модели под рукой, не полагаясь на облачные сервисы. С помощью Ollama и QwQ-32B вы можете достичь этого. QwQ-32B, разработанный командой Qwen, является языковой моделью с 32 миллиардами параметров, предназначенной для улучшенных возможностей рассуждения, что делает ее мощным инструментом для логического рассуждения, программирования и решения математических задач.