标签: vLLM

在本地运行 MiniMax M2 让你能够完全掌控这个专为编码和代理任务设计的强大 AI 模型。无论你是想避免 API 费用、保障数据隐私，还是为特定需求定制模型，本地部署都是最佳选择。本指南将带你一步步完成整个过程。

什么是 MiniMax M2？

MiniMax M2 是一款先进的开源语言模型，拥有出色的规格：

架构： 专家混合模型（Mixture-of-Experts，MoE）
总参数量： 2300 亿
每次前向传播激活参数： 100 亿
设计聚焦： 编码与代理工作流
性能表现： 行业领先的工具调用能力
许可协议： 开源（模型权重在 Hugging Face 可用）

大约 15 分钟

OpenAI 的 GPT-OSS-120B 是一款开源权重的大型语言模型，拥有约1170亿参数（其中活跃参数为51亿），旨在提供强大的推理和自主能力，包括代码执行和结构化输出。与需要多块 GPU 的超大模型不同，GPT-OSS-120B 可以高效运行于单块 Nvidia H100 GPU 上，使得本地部署对追求隐私、低延迟和控制权的组织和高级用户更加可行。

本文汇总了截至2025年8月的最新知识和实操步骤，帮助您本地运行 GPT-OSS-120B，包括硬件需求、安装选项、容器化部署及优化技巧。

为什么要本地运行 GPT-OSS-120B？

大约 5 分钟

如何运行 Qwen3-235B-A22B-Instruct-2507：完整部署指南

Qwen3-235B-A22B-Instruct-2507 是一款先进的大型语言模型（LLM），设计用于多样化的自然语言处理任务，包括指令跟随和多语言支持。运行该模型需要搭建合适的环境、框架和工具。以下是一个简单易懂的分步方法，帮助您高效部署和使用 Qwen3-235B-A22B-Instruct-2507。

1. 前提条件与环境搭建

在开始运行模型之前，请确保您的系统满足必要的硬件和软件要求：

硬件： 理想情况下，您需要一台高显存的机器——大多数实现建议推理时至少需要 30GB 显存，较大规模部署则需 88GB。
软件： Python 3.8 及以上版本，支持 CUDA 的 GPU 驱动，以及常用深度学习框架如 PyTorch 或 VLLM。
框架： 您可以通过多种框架运行 Qwen3-235B，包括 Hugging Face Transformers、vLLM，或用于优化推理的自定义引擎如 llama.cpp。

大约 4 分钟

如何本地运行 Kimi-K2-Instruct：全面指南

本地运行 Kimi-K2-Instruct 起初可能看起来很复杂——但只要掌握正确的工具和步骤，过程其实非常简单。无论你是想尝试先进 AI 模型的开发者，还是希望完全掌控推理过程而不依赖云端 API 的用户，本指南都会一步步带你完成整个流程。

什么是 Kimi-K2-Instruct？

Kimi-K2-Instruct 是 Moonshot AI 推出的先进 AI 语言模型，专为指令跟随任务设计。它支持聊天补全，且针对多种推理引擎进行了优化，如 vLLM、SGLang、KTransformers 和 TensorRT-LLM。该模型兼容 OpenAI 和 Anthropic 风格的 API，方便与现有工具集成。

大约 5 分钟

如何安装 vLLM：全面指南

您是否对安装 vLLM 感到好奇？这是一款旨在解锁强大 LLM 功能的先进 Python 库。本指南将引导您完成安装过程，确保您充分利用 vLLM 的潜力，转变您的 AI 驱动项目。

vLLM 简介

vLLM 不仅仅是另一个工具；它是高效利用大型语言模型（LLMs）力量的门户。它支持多种 NVIDIA GPU，例如 V100、T4 和 RTX20xx 系列，非常适合计算密集型任务。凭借其对不同 CUDA 版本的兼容性，vLLM 可以无缝适应您现有的基础设施，无论您使用的是 CUDA 11.8 还是最新的 CUDA 12.1。

大约 5 分钟