如何本地运行 GLM-5：完整分步指南

About 7 min

如何本地运行 GLM-5：完整分步指南

简介

GLM-5 是 Z.ai 发布的最新开源大语言模型，拥有 744B 总参数（40B 激活）的 MoE 架构。这款强大的模型在推理、编程和智能体任务方面表现出色，是当今最好的开源 LLM 之一。

本地运行 GLM-5 可以让您完全掌控数据，消除 API 费用，并且无限制地使用。在本指南中，我们将详细介绍在本地硬件上设置和运行 GLM-5 的完整过程。

为什么要本地运行 GLM-5？

优势	说明
数据隐私	您的数据永远不会离开您的系统
节省成本	无 API 费用或使用限制
自定义	针对特定需求进行微调
无限使用	任意生成内容
无延迟	快速响应，无需网络调用

硬件要求

在本地运行 GLM-5 之前，请确保您的系统满足以下要求：

最低配置

组件	最低要求	推荐配置
GPU	4x NVIDIA A100 (40GB)	8x NVIDIA H100/A100 (80GB)
显存	160GB	320GB+
内存	64GB	128GB+
存储	500GB SSD	1TB+ NVMe SSD
CUDA	11.8	12.0+

注意：GLM-5 使用混合专家（MoE）架构，激活参数仅 40B，这使它比同等规模的稠密模型更高效。

方法一：使用 vLLM 本地运行 GLM-5

vLLM 是最快、最流行的 LLM 服务框架之一，提供高吞吐量和低延迟。

第一步：安装 vLLM

使用 Docker（推荐）：

docker pull vllm/vllm-openai:nightly

使用 pip：

pip install -U vllm --pre \
  --index-url https://pypi.org/simple \
  --extra-index-url https://wheels.vllm.ai/nightly

第二步：安装依赖

pip install git+https://github.com/huggingface/transformers.git
pip install torch

第三步：启动 GLM-5 服务器

vllm serve zai-org/GLM-5-FP8 \
  --tensor-parallel-size 8 \
  --gpu-memory-utilization 0.85 \
  --speculative-config.method mtp \
  --speculative-config.num_speculative_tokens 1 \
  --tool-call-parser glm47 \
  --reasoning-parser glm45 \
  --enable-auto-tool-choice \
  --served-model-name glm-5-fp8 \
  --host 0.0.0.0 \
  --port 8000

参数说明：

参数	作用
`tensor-parallel-size 8`	分布到 8 个 GPU 上
`gpu-memory-utilization 0.85`	使用 85% 的 GPU 显存
`speculative-config.method mtp`	启用投机解码
`tool-call-parser glm47`	解析工具调用
`reasoning-parser glm45`	解析推理内容

第四步：测试 GLM-5 安装

创建测试脚本 test_glm5.py：

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:8000/v1",
    api_key="token-not-required"
)

response = client.chat.completions.create(
    model="glm-5-fp8",
    messages=[
        {"role": "user", "content": "你好！你能帮我做什么？"}
    ],
    temperature=0.7,
    max_tokens=512
)

print(response.choices[0].message.content)

运行测试：

python test_glm5.py

方法二：使用 SGLang 本地运行 GLM-5

SGLang 专门针对 GLM-5 进行了优化，提供卓越的性能。

第一步：拉取 Docker 镜像

# Hopper GPU（A100、H100）
docker pull lmsysorg/sglang:glm5-hopper

# Blackwell GPU
docker pull lmsysorg/sglang:glm5-blackwell

第二步：启动 GLM-5 服务器

python3 -m sglang.launch_server \
  --model-path zai-org/GLM-5-FP8 \
  --tp-size 8 \
  --tool-call-parser glm47 \
  --reasoning-parser glm45 \
  --speculative-algorithm EAGLE \
  --speculative-num-steps 3 \
  --speculative-eagle-topk 1 \
  --speculative-num-draft-tokens 4 \
  --mem-fraction-static 0.85 \
  --served-model-name glm-5-fp8 \
  --host 0.0.0.0 \
  --port 30000

第三步：与 GLM-5 交互

import openai

client = openai.OpenAI(
    base_url="http://localhost:30000/v1",
    api_key="token-not-required"
)

response = client.chat.completions.create(
    model="glm-5-fp8",
    messages=[{"role": "user", "content": "写一个 Python 函数来排序列表。"}],
    max_tokens=512
)

print(response.choices[0].message.content)

方法三：使用 Hugging Face Transformers 运行 GLM-5

对于简单的推理任务，可以直接使用 Transformers。

第一步：安装 Transformers

pip install transformers torch accelerate

第二步：加载并运行 GLM-5

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

# 加载模型和分词器
model_name = "zai-org/GLM-5"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.float16,
    device_map="auto"
)

# 准备输入
messages = [
    {"role": "user", "content": "请用简单易懂的语言解释机器学习。"}
]

# 生成响应
text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)

generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=2048,
    temperature=0.7,
    top_p=0.95
)

# 解码响应
generated_ids = [
    output_ids[len(input_ids):]
    for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]

response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)

GLM-5 的使用场景

本地运行 GLM-5 后，您可以在以下场景中使用它：

1. 编程助手

GLM-5 在 SWE-bench Verified 上达到 77.8%，非常适合：

代码生成和补全
Bug 检测和修复
代码重构
技术文档编写

推荐在 LightNode 托管：

编程助手 API 服务
代码审查平台
自动化测试生成

prompt = "用 Flask 编写一个 REST API 的 Python 函数"
# 发送到 GLM-5...

2. 数学推理

在 AIME 2026 上达到 92.7%、HMMT 上达到 96.9%，GLM-5 擅长：

数学问题求解
科学研究
金融建模
工程计算

推荐在 LightNode 托管：

在线数学教育平台
科学计算服务
金融分析工具

🚀 推荐配置：4x A100 GPU 实例，性价比高

3. 智能体任务

GLM-5 在 Terminal-Bench 2.0 上得分 56.2%，BrowseComp 上得分 75.9%，非常适合：

自动化工作流
命令行操作
网页浏览和研究
工具集成

推荐在 LightNode 托管：

自动化客服系统
任务调度平台
工作流自动化工具

🚀 推荐配置：8x A100 GPU 实例，处理复杂智能体任务

4. 多语言应用

GLM-5 对英语和中文都有强大支持（BrowseComp-Zh 得分 72.7%）：

翻译服务
跨语言内容创作
多语言客户支持
语言学习

推荐在 LightNode 托管：

多语言翻译 API
跨语言内容平台
国际化客服系统

🚀 推荐配置：4x A100 GPU 实例，中等负载下经济实惠

5. 企业应用

文档分析和摘要
知识库查询
技术写作辅助
合规性检查

推荐在 LightNode 托管：

企业内部知识库
文档智能分析系统
技术支持平台

6. 研发（R&D）

文献综述
假设生成
实验设计
数据分析解读

推荐在 LightNode 托管：

研发辅助平台
文献分析工具
实验设计系统

🚀 推荐配置：8x A100 GPU 实例，处理大规模数据分析

本地运行 vs 云端 VPS

如果没有足够强大的本地硬件运行 GLM-5，可以考虑使用云端 GPU VPS：

选项	优点	缺点
本地机器	完全隐私，无持续费用	前期硬件成本高
云 VPS	无硬件投入，可扩展	月度费用，数据发送到云端

云端 VPS 解决方案：LightNode

对于没有合适本地硬件的用户，LightNode 提供了优秀的 GPU VPS 解决方案来运行 GLM-5：

为什么选择 LightNode？

特性	优势
全球节点	部署在靠近用户的位置
GPU 支持	提供 8x A100/H100 实例
按需付费	按小时计费
简单设置	预配置 GPU 镜像

配置	用途	月成本*
8x A100 (80GB)	生产环境部署	~$400-800
4x A100 (80GB)	开发和测试	~$200-400
8x A40 (48GB)	经济选项	~$300-600

在 LightNode 上快速设置

创建账户：访问 LightNode
选择 GPU 实例（GLM-5 推荐 8x A100）
选择区域（选择离您最近的区域以获得最低延迟）

安装 Docker 和 vLLM：

sudo apt update
curl -fsSL https://get.docker.com | sh
docker pull vllm/vllm-openai:nightly

启动 GLM-5：

docker run --gpus all -it --rm \
  -p 8000:8000 \
  vllm/vllm-openai:nightly \
  serve zai-org/GLM-5-FP8 \
  --tensor-parallel-size 8 \
  --gpu-memory-utilization 0.85

本地运行 GLM-5 的优化技巧

1. 使用 FP8 量化

# 加载 FP8 量化模型
vllm serve zai-org/GLM-5-FP8 ...

2. 启用投机解码

投机解码可以将吞吐量提高高达 2 倍：

--speculative-config.method mtp \
--speculative-config.num_speculative_tokens 5

3. 调整 GPU 显存

--gpu-memory-utilization 0.90  # 如果有更多显存则增加

4. 批量处理多个请求

# 在一个批次中发送多个请求
responses = client.chat.completions.create(
    model="glm-5-fp8",
    messages=[
        [{"role": "user", "content": "问题 1"}],
        [{"role": "user", "content": "问题 2"}],
    ]
)

故障排除

内存不足错误

# 减小批次大小或 GPU 显存利用率
--gpu-memory-utilization 0.70

推理速度慢

# 启用投机解码
--speculative-config.method mtp
--speculative-config.num_speculative_tokens 5

连接被拒绝

# 检查服务器是否运行
curl http://localhost:8000/health

# 检查防火墙设置
sudo ufw allow 8000/tcp

官方资源

Hugging Face 模型：https://huggingface.co/zai-org/GLM-5
GitHub 仓库：https://github.com/zai-org/GLM-5
Z.ai 文档：https://docs.z.ai/guides/llm/glm-5
技术博客：https://z.ai/blog/glm-5
Discord 社区：加入

总结

本地运行 GLM-5 让您可以访问最强大的开源 LLM 之一，完全掌控数据，无 API 限制。无论您选择 vLLM、SGLang 还是直接使用 Transformers，只要拥有合适的硬件，设置过程都很简单。

如果本地硬件是瓶颈，LightNode 提供了让每个人都能运行 GLM-5 的经济实惠 GPU VPS 选项。凭借全球节点和灵活定价，您可以在几分钟内部署 GLM-5。

立即开始本地运行 GLM-5，解锁开源 AI 的全部潜力！

需要运行 GLM-5 的 GPU 资源？查看 LightNode 了解经济实惠的 GPU VPS 解决方案。