如何本地运行 GLM-5：完整分步指南

大约 6 分钟

如何本地运行 GLM-5：完整分步指南

介绍

GLM-5 是 Z.ai 最新的开源大语言模型，拥有 744B 总参数（40B 活跃参数），采用 MoE 架构。该强大模型在推理、编程和代理任务方面表现出色，是目前最优秀的开源 LLM 之一。

本地运行 GLM-5 可让您完全掌控数据，免除 API 费用，并实现无限制使用。本文将带您完整了解如何在本地硬件上搭建并运行 GLM-5。

为什么要本地运行 GLM-5？

优势	说明
数据隐私	数据永远不会离开您的系统
节省成本	无需支付 API 费用或受限使用
定制化	可针对特定需求进行微调
无限使用	生成内容不受限制
无延迟	无需网络调用，响应快速

硬件要求

在本地运行 GLM-5 前，请确保您的系统满足以下要求：

最低要求

组件	最低配置	推荐配置
GPU	4x NVIDIA A100 (40GB)	8x NVIDIA H100/A100 (80GB)
显存	160GB	320GB+
内存	64GB	128GB+
存储	500GB SSD	1TB+ NVMe SSD
CUDA	11.8	12.0+

注意：GLM-5 采用 Mixture-of-Experts (MoE) 架构，活跃参数为 40B，相比同等规模的密集模型更高效。

方法一：使用 vLLM 本地运行 GLM-5

vLLM 是最快且最受欢迎的 LLM 服务框架之一，提供高吞吐量和低延迟。

第一步：安装 vLLM

使用 Docker（推荐）：

docker pull vllm/vllm-openai:nightly

使用 pip：

pip install -U vllm --pre \
  --index-url https://pypi.org/simple \
  --extra-index-url https://wheels.vllm.ai/nightly

第二步：安装所需依赖

pip install git+https://github.com/huggingface/transformers.git
pip install torch

第三步：启动 GLM-5 服务器

vllm serve zai-org/GLM-5-FP8 \
  --tensor-parallel-size 8 \
  --gpu-memory-utilization 0.85 \
  --speculative-config.method mtp \
  --speculative-config.num_speculative_tokens 1 \
  --tool-call-parser glm47 \
  --reasoning-parser glm45 \
  --enable-auto-tool-choice \
  --served-model-name glm-5-fp8 \
  --host 0.0.0.0 \
  --port 8000

参数说明：

参数	作用
`tensor-parallel-size 8`	跨 8 张 GPU 分布计算
`gpu-memory-utilization 0.85`	使用 85% GPU 显存
`speculative-config.method mtp`	启用推测解码
`tool-call-parser glm47`	解析工具调用
`reasoning-parser glm45`	解析推理内容

第四步：测试 GLM-5 安装

创建测试脚本 test_glm5.py：

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:8000/v1",
    api_key="token-not-required"
)

response = client.chat.completions.create(
    model="glm-5-fp8",
    messages=[
        {"role": "user", "content": "Hello! How are you?"}
    ],
    temperature=0.7,
    max_tokens=512
)

print(response.choices[0].message.content)

运行：

python test_glm5.py

方法二：使用 SGLang 本地运行 GLM-5

SGLang 针对 GLM-5 进行了专门优化，性能优异。

第一步：拉取 Docker 镜像

# Hopper GPU（A100、H100）
docker pull lmsysorg/sglang:glm5-hopper

# Blackwell GPU
docker pull lmsysorg/sglang:glm5-blackwell

第二步：启动 GLM-5 服务器

python3 -m sglang.launch_server \
  --model-path zai-org/GLM-5-FP8 \
  --tp-size 8 \
  --tool-call-parser glm47 \
  --reasoning-parser glm45 \
  --speculative-algorithm EAGLE \
  --speculative-num-steps 3 \
  --speculative-eagle-topk 1 \
  --speculative-num-draft-tokens 4 \
  --mem-fraction-static 0.85 \
  --served-model-name glm-5-fp8 \
  --host 0.0.0.0 \
  --port 30000

第三步：与 GLM-5 交互

import openai

client = openai.OpenAI(
    base_url="http://localhost:30000/v1",
    api_key="token-not-required"
)

response = client.chat.completions.create(
    model="glm-5-fp8",
    messages=[{"role": "user", "content": "Write a Python function to sort a list."}],
    max_tokens=512
)

print(response.choices[0].message.content)

方法三：使用 Hugging Face Transformers 运行 GLM-5

适合简单推理任务，直接使用 Transformers。

第一步：安装 Transformers

pip install transformers torch accelerate

第二步：加载并运行 GLM-5

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

# 加载模型和分词器
model_name = "zai-org/GLM-5"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.float16,
    device_map="auto"
)

# 准备输入
messages = [
    {"role": "user", "content": "Explain machine learning in simple terms."}
]

# 生成响应
text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)

generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=2048,
    temperature=0.7,
    top_p=0.95
)

# 解码响应
generated_ids = [
    output_ids[len(input_ids):]
    for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]

response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)

GLM-5 使用场景

本地运行 GLM-5 后，以下是一些实用的应用方向：

1. 编程助手

GLM-5 在 SWE-bench Verified 上达成 77.8%，非常适合：

代码生成与补全
Bug 发现与修复
代码重构
技术文档编写

prompt = "Write a Python function to implement a REST API with Flask"
# 发送给 GLM-5...

2. 数学推理

在 AIME 2026（92.7%）和 HMMT（96.9%）上表现优异，适合：

数学问题求解
科学研究
金融建模
工程计算

3. 代理任务

Terminal-Bench 2.0（56.2%）和 BrowseComp（75.9%）成绩优异，适合：

自动化工作流
命令行操作
网页浏览与调研
工具集成

4. 多语言应用

支持英语和中文（BrowseComp-Zh 72.7%）：

翻译服务
跨语言内容创作
多语言客户支持
语言学习

5. 企业应用

文档分析与摘要
知识库查询
技术写作辅助
合规检查

6. 研发支持

文献综述
假设生成
实验设计
数据分析

本地运行 GLM-5 与云 VPS 对比

如果硬件不足以本地运行 GLM-5，可考虑云 GPU VPS：

选项	优点	缺点
本地机器	完全隐私，无持续费用	硬件前期投入高
云 VPS	无需硬件投资，易扩展	月费，数据需上传云端

云 VPS 方案：LightNode

无合适本地硬件者，LightNode 提供优质 GPU VPS 方案，支持运行 GLM-5：

为什么选择 LightNode？

特性	优势
全球节点	部署靠近用户
GPU 支持	提供 8x A100/H100 实例
按需付费	按小时计费
简易部署	预配置 GPU 镜像

配置	适用场景	月费用*
8x A100 (80GB)	生产部署	~$400-800
4x A100 (80GB)	开发测试	~$200-400
8x A40 (48GB)	预算方案	~$300-600

LightNode 快速部署

注册账号：LightNode
选择 GPU 实例（推荐 8x A100 运行 GLM-5）
选择区域（距离最近以降低延迟）

安装 Docker 和 vLLM：

sudo apt update
curl -fsSL https://get.docker.com | sh
docker pull vllm/vllm-openai:nightly

启动 GLM-5：

docker run --gpus all -it --rm \
  -p 8000:8000 \
  vllm/vllm-openai:nightly \
  serve zai-org/GLM-5-FP8 \
  --tensor-parallel-size 8 \
  --gpu-memory-utilization 0.85

本地运行 GLM-5 优化建议

1. 使用 FP8 量化

# 加载 FP8 量化模型
vllm serve zai-org/GLM-5-FP8 ...

2. 启用推测解码

推测解码可提升吞吐量至 2 倍：

--speculative-config.method mtp \
--speculative-config.num_speculative_tokens 5

3. 调整 GPU 显存使用率

--gpu-memory-utilization 0.90  # 如果显存充足可提高

4. 批量处理请求

# 一次发送多个请求
responses = client.chat.completions.create(
    model="glm-5-fp8",
    messages=[
        [{"role": "user", "content": "查询 1"}],
        [{"role": "user", "content": "查询 2"}],
    ]
)

故障排查

显存不足错误

# 降低批量大小或显存使用率
--gpu-memory-utilization 0.70

推理速度慢

# 启用推测解码
--speculative-config.method mtp
--speculative-config.num_speculative_tokens 5

连接被拒绝

# 检查服务器是否运行
curl http://localhost:8000/health

# 检查防火墙设置
sudo ufw allow 8000/tcp

官方资源

Hugging Face 模型: https://huggingface.co/zai-org/GLM-5
GitHub 仓库: https://github.com/zai-org/GLM-5
Z.ai 文档: https://docs.z.ai/guides/llm/glm-5
技术博客: https://z.ai/blog/glm-5
Discord 社区: 加入

结语

本地运行 GLM-5 可让您使用最强大的开源大语言模型之一，完全掌控数据且无 API 限制。无论选择 vLLM、SGLang 还是直接集成 Transformers，只要硬件到位，部署过程都很简单。

如果本地硬件有限，LightNode 提供经济实惠的 GPU VPS 方案，让每个人都能轻松运行 GLM-5。凭借全球节点和灵活计费，您可在几分钟内完成部署。

立即开始本地运行 GLM-5，释放开源 AI 的全部潜力！

需要 GPU 资源运行 GLM-5？请查看 LightNode 经济实惠的 GPU VPS 方案。