如何本地运行 GLM-5:完整分步指南
如何本地运行 GLM-5:完整分步指南
介绍
GLM-5 是 Z.ai 最新的开源大语言模型,拥有 744B 总参数(40B 活跃参数),采用 MoE 架构。该强大模型在推理、编程和代理任务方面表现出色,是目前最优秀的开源 LLM 之一。
本地运行 GLM-5 可让您完全掌控数据,免除 API 费用,并实现无限制使用。本文将带您完整了解如何在本地硬件上搭建并运行 GLM-5。
为什么要本地运行 GLM-5?
| 优势 | 说明 |
|---|---|
| 数据隐私 | 数据永远不会离开您的系统 |
| 节省成本 | 无需支付 API 费用或受限使用 |
| 定制化 | 可针对特定需求进行微调 |
| 无限使用 | 生成内容不受限制 |
| 无延迟 | 无需网络调用,响应快速 |
硬件要求
在本地运行 GLM-5 前,请确保您的系统满足以下要求:
最低要求
| 组件 | 最低配置 | 推荐配置 |
|---|---|---|
| GPU | 4x NVIDIA A100 (40GB) | 8x NVIDIA H100/A100 (80GB) |
| 显存 | 160GB | 320GB+ |
| 内存 | 64GB | 128GB+ |
| 存储 | 500GB SSD | 1TB+ NVMe SSD |
| CUDA | 11.8 | 12.0+ |
注意:GLM-5 采用 Mixture-of-Experts (MoE) 架构,活跃参数为 40B,相比同等规模的密集模型更高效。
方法一:使用 vLLM 本地运行 GLM-5
vLLM 是最快且最受欢迎的 LLM 服务框架之一,提供高吞吐量和低延迟。
第一步:安装 vLLM
使用 Docker(推荐):
docker pull vllm/vllm-openai:nightly使用 pip:
pip install -U vllm --pre \
--index-url https://pypi.org/simple \
--extra-index-url https://wheels.vllm.ai/nightly第二步:安装所需依赖
pip install git+https://github.com/huggingface/transformers.git
pip install torch第三步:启动 GLM-5 服务器
vllm serve zai-org/GLM-5-FP8 \
--tensor-parallel-size 8 \
--gpu-memory-utilization 0.85 \
--speculative-config.method mtp \
--speculative-config.num_speculative_tokens 1 \
--tool-call-parser glm47 \
--reasoning-parser glm45 \
--enable-auto-tool-choice \
--served-model-name glm-5-fp8 \
--host 0.0.0.0 \
--port 8000参数说明:
| 参数 | 作用 |
|---|---|
tensor-parallel-size 8 | 跨 8 张 GPU 分布计算 |
gpu-memory-utilization 0.85 | 使用 85% GPU 显存 |
speculative-config.method mtp | 启用推测解码 |
tool-call-parser glm47 | 解析工具调用 |
reasoning-parser glm45 | 解析推理内容 |
第四步:测试 GLM-5 安装
创建测试脚本 test_glm5.py:
from openai import OpenAI
client = OpenAI(
base_url="http://localhost:8000/v1",
api_key="token-not-required"
)
response = client.chat.completions.create(
model="glm-5-fp8",
messages=[
{"role": "user", "content": "Hello! How are you?"}
],
temperature=0.7,
max_tokens=512
)
print(response.choices[0].message.content)运行:
python test_glm5.py方法二:使用 SGLang 本地运行 GLM-5
SGLang 针对 GLM-5 进行了专门优化,性能优异。
第一步:拉取 Docker 镜像
# Hopper GPU(A100、H100)
docker pull lmsysorg/sglang:glm5-hopper
# Blackwell GPU
docker pull lmsysorg/sglang:glm5-blackwell第二步:启动 GLM-5 服务器
python3 -m sglang.launch_server \
--model-path zai-org/GLM-5-FP8 \
--tp-size 8 \
--tool-call-parser glm47 \
--reasoning-parser glm45 \
--speculative-algorithm EAGLE \
--speculative-num-steps 3 \
--speculative-eagle-topk 1 \
--speculative-num-draft-tokens 4 \
--mem-fraction-static 0.85 \
--served-model-name glm-5-fp8 \
--host 0.0.0.0 \
--port 30000第三步:与 GLM-5 交互
import openai
client = openai.OpenAI(
base_url="http://localhost:30000/v1",
api_key="token-not-required"
)
response = client.chat.completions.create(
model="glm-5-fp8",
messages=[{"role": "user", "content": "Write a Python function to sort a list."}],
max_tokens=512
)
print(response.choices[0].message.content)方法三:使用 Hugging Face Transformers 运行 GLM-5
适合简单推理任务,直接使用 Transformers。
第一步:安装 Transformers
pip install transformers torch accelerate第二步:加载并运行 GLM-5
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch
# 加载模型和分词器
model_name = "zai-org/GLM-5"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype=torch.float16,
device_map="auto"
)
# 准备输入
messages = [
{"role": "user", "content": "Explain machine learning in simple terms."}
]
# 生成响应
text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
generated_ids = model.generate(
**model_inputs,
max_new_tokens=2048,
temperature=0.7,
top_p=0.95
)
# 解码响应
generated_ids = [
output_ids[len(input_ids):]
for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)GLM-5 使用场景
本地运行 GLM-5 后,以下是一些实用的应用方向:
1. 编程助手
GLM-5 在 SWE-bench Verified 上达成 77.8%,非常适合:
- 代码生成与补全
- Bug 发现与修复
- 代码重构
- 技术文档编写
prompt = "Write a Python function to implement a REST API with Flask"
# 发送给 GLM-5...2. 数学推理
在 AIME 2026(92.7%)和 HMMT(96.9%)上表现优异,适合:
- 数学问题求解
- 科学研究
- 金融建模
- 工程计算
3. 代理任务
Terminal-Bench 2.0(56.2%)和 BrowseComp(75.9%)成绩优异,适合:
- 自动化工作流
- 命令行操作
- 网页浏览与调研
- 工具集成
4. 多语言应用
支持英语和中文(BrowseComp-Zh 72.7%):
- 翻译服务
- 跨语言内容创作
- 多语言客户支持
- 语言学习
5. 企业应用
- 文档分析与摘要
- 知识库查询
- 技术写作辅助
- 合规检查
6. 研发支持
- 文献综述
- 假设生成
- 实验设计
- 数据分析
本地运行 GLM-5 与云 VPS 对比
如果硬件不足以本地运行 GLM-5,可考虑云 GPU VPS:
| 选项 | 优点 | 缺点 |
|---|---|---|
| 本地机器 | 完全隐私,无持续费用 | 硬件前期投入高 |
| 云 VPS | 无需硬件投资,易扩展 | 月费,数据需上传云端 |
云 VPS 方案:LightNode
无合适本地硬件者,LightNode 提供优质 GPU VPS 方案,支持运行 GLM-5:
为什么选择 LightNode?
| 特性 | 优势 |
|---|---|
| 全球节点 | 部署靠近用户 |
| GPU 支持 | 提供 8x A100/H100 实例 |
| 按需付费 | 按小时计费 |
| 简易部署 | 预配置 GPU 镜像 |
推荐 LightNode 配置
| 配置 | 适用场景 | 月费用* |
|---|---|---|
| 8x A100 (80GB) | 生产部署 | ~$400-800 |
| 4x A100 (80GB) | 开发测试 | ~$200-400 |
| 8x A40 (48GB) | 预算方案 | ~$300-600 |
*费用为预估,实际价格可能有所不同
LightNode 快速部署
- 注册账号:LightNode
- 选择 GPU 实例(推荐 8x A100 运行 GLM-5)
- 选择区域(距离最近以降低延迟)
- 安装 Docker 和 vLLM:
sudo apt update curl -fsSL https://get.docker.com | sh docker pull vllm/vllm-openai:nightly - 启动 GLM-5:
docker run --gpus all -it --rm \ -p 8000:8000 \ vllm/vllm-openai:nightly \ serve zai-org/GLM-5-FP8 \ --tensor-parallel-size 8 \ --gpu-memory-utilization 0.85
本地运行 GLM-5 优化建议
1. 使用 FP8 量化
# 加载 FP8 量化模型
vllm serve zai-org/GLM-5-FP8 ...2. 启用推测解码
推测解码可提升吞吐量至 2 倍:
--speculative-config.method mtp \
--speculative-config.num_speculative_tokens 53. 调整 GPU 显存使用率
--gpu-memory-utilization 0.90 # 如果显存充足可提高4. 批量处理请求
# 一次发送多个请求
responses = client.chat.completions.create(
model="glm-5-fp8",
messages=[
[{"role": "user", "content": "查询 1"}],
[{"role": "user", "content": "查询 2"}],
]
)故障排查
显存不足错误
# 降低批量大小或显存使用率
--gpu-memory-utilization 0.70推理速度慢
# 启用推测解码
--speculative-config.method mtp
--speculative-config.num_speculative_tokens 5连接被拒绝
# 检查服务器是否运行
curl http://localhost:8000/health
# 检查防火墙设置
sudo ufw allow 8000/tcp官方资源
- Hugging Face 模型: https://huggingface.co/zai-org/GLM-5
- GitHub 仓库: https://github.com/zai-org/GLM-5
- Z.ai 文档: https://docs.z.ai/guides/llm/glm-5
- 技术博客: https://z.ai/blog/glm-5
- Discord 社区: 加入
结语
本地运行 GLM-5 可让您使用最强大的开源大语言模型之一,完全掌控数据且无 API 限制。无论选择 vLLM、SGLang 还是直接集成 Transformers,只要硬件到位,部署过程都很简单。
如果本地硬件有限,LightNode 提供经济实惠的 GPU VPS 方案,让每个人都能轻松运行 GLM-5。凭借全球节点和灵活计费,您可在几分钟内完成部署。
立即开始本地运行 GLM-5,释放开源 AI 的全部潜力!
需要 GPU 资源运行 GLM-5?请查看 LightNode 经济实惠的 GPU VPS 方案。