如何在本地運行 GLM-5：完整逐步指南

大约 7 分鐘

如何在本地運行 GLM-5：完整逐步指南

介紹

GLM-5 是 Z.ai 最新的開源大型語言模型，擁有 744B 總參數（40B 活躍參數）並採用 MoE 架構。這款強大的模型在推理、程式碼編寫和代理任務方面表現優異，是目前最頂尖的開源 LLM 之一。

在本地運行 GLM-5 可讓您完全掌控資料，免除 API 費用，並允許無限制使用。本指南將帶您完整了解如何在您的硬體上設置並運行 GLM-5。

為什麼要在本地運行 GLM-5？

優勢	說明
資料隱私	您的資料永遠不會離開您的系統
節省成本	無需支付 API 費用或使用限制
客製化	可針對特定需求進行微調
無限使用	生成內容無上限
無延遲	無需網路呼叫，回應快速

硬體需求

在本地運行 GLM-5 前，請確保您的系統符合以下需求：

最低需求

元件	最低	推薦
GPU	4x NVIDIA A100 (40GB)	8x NVIDIA H100/A100 (80GB)
顯示記憶體 (VRAM)	160GB	320GB 以上
系統記憶體 (RAM)	64GB	128GB 以上
儲存空間	500GB SSD	1TB 以上 NVMe SSD
CUDA	11.8	12.0 以上

注意：GLM-5 採用 Mixture-of-Experts (MoE) 架構，活躍參數為 40B，比同等規模的密集模型更有效率。

方法一：使用 vLLM 在本地運行 GLM-5

vLLM 是速度最快且最受歡迎的 LLM 服務框架之一，提供高吞吐量與低延遲。

步驟 1：安裝 vLLM

使用 Docker（推薦）：

docker pull vllm/vllm-openai:nightly

使用 pip：

pip install -U vllm --pre \
  --index-url https://pypi.org/simple \
  --extra-index-url https://wheels.vllm.ai/nightly

步驟 2：安裝必要依賴

pip install git+https://github.com/huggingface/transformers.git
pip install torch

步驟 3：啟動 GLM-5 伺服器

vllm serve zai-org/GLM-5-FP8 \
  --tensor-parallel-size 8 \
  --gpu-memory-utilization 0.85 \
  --speculative-config.method mtp \
  --speculative-config.num_speculative_tokens 1 \
  --tool-call-parser glm47 \
  --reasoning-parser glm45 \
  --enable-auto-tool-choice \
  --served-model-name glm-5-fp8 \
  --host 0.0.0.0 \
  --port 8000

參數說明：

參數	作用
`tensor-parallel-size 8`	分散至 8 張 GPU
`gpu-memory-utilization 0.85`	使用 85% GPU 記憶體
`speculative-config.method mtp`	啟用推測解碼
`tool-call-parser glm47`	解析工具呼叫
`reasoning-parser glm45`	解析推理內容

步驟 4：測試您的 GLM-5 安裝

建立測試腳本 test_glm5.py：

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:8000/v1",
    api_key="token-not-required"
)

response = client.chat.completions.create(
    model="glm-5-fp8",
    messages=[
        {"role": "user", "content": "Hello! How are you?"}
    ],
    temperature=0.7,
    max_tokens=512
)

print(response.choices[0].message.content)

執行：

python test_glm5.py

方法二：使用 SGLang 在本地運行 GLM-5

SGLang 專為 GLM-5 優化，效能卓越。

步驟 1：拉取 Docker 映像檔

# 適用 Hopper GPU（A100、H100）
docker pull lmsysorg/sglang:glm5-hopper

# 適用 Blackwell GPU
docker pull lmsysorg/sglang:glm5-blackwell

步驟 2：啟動 GLM-5 伺服器

python3 -m sglang.launch_server \
  --model-path zai-org/GLM-5-FP8 \
  --tp-size 8 \
  --tool-call-parser glm47 \
  --reasoning-parser glm45 \
  --speculative-algorithm EAGLE \
  --speculative-num-steps 3 \
  --speculative-eagle-topk 1 \
  --speculative-num-draft-tokens 4 \
  --mem-fraction-static 0.85 \
  --served-model-name glm-5-fp8 \
  --host 0.0.0.0 \
  --port 30000

步驟 3：與 GLM-5 互動

import openai

client = openai.OpenAI(
    base_url="http://localhost:30000/v1",
    api_key="token-not-required"
)

response = client.chat.completions.create(
    model="glm-5-fp8",
    messages=[{"role": "user", "content": "Write a Python function to sort a list."}],
    max_tokens=512
)

print(response.choices[0].message.content)

方法三：使用 Hugging Face Transformers 運行 GLM-5

適合簡單推論任務，直接使用 Transformers。

步驟 1：安裝 Transformers

pip install transformers torch accelerate

步驟 2：載入並運行 GLM-5

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

# 載入模型與分詞器
model_name = "zai-org/GLM-5"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.float16,
    device_map="auto"
)

# 準備輸入
messages = [
    {"role": "user", "content": "Explain machine learning in simple terms."}
]

# 生成回應
text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)

generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=2048,
    temperature=0.7,
    top_p=0.95
)

# 解碼回應
generated_ids = [
    output_ids[len(input_ids):]
    for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]

response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)

GLM-5 使用案例

在本地運行 GLM-5 後，以下是一些實用的應用方式：

1. 程式碼助理

GLM-5 在 SWE-bench Verified 中達到 77.8%，非常適合：

程式碼生成與補全
錯誤偵測與修復
程式碼重構
技術文件撰寫

prompt = "Write a Python function to implement a REST API with Flask"
# 傳送給 GLM-5...

2. 數學推理

在 AIME 2026 獲得 92.7%，在 HMMT 獲得 96.9%，GLM-5 擅長：

數學問題解決
科學研究
財務建模
工程計算

3. 代理任務

GLM-5 在 Terminal-Bench 2.0 得分 56.2%，在 BrowseComp 得分 75.9%，適合：

自動化工作流程
命令列操作
網頁瀏覽與研究
工具整合

4. 多語言應用

具備強大的英文與中文能力（BrowseComp-Zh 得分 72.7%）：

翻譯服務
跨語言內容創作
多語言客服支援
語言學習

5. 企業應用

文件分析與摘要
知識庫查詢
技術寫作輔助
合規檢查

6. 研發用途

文獻回顧
假設生成
實驗設計
資料分析

本地運行 GLM-5 與雲端 VPS 比較

若您沒有足夠強大的硬體在本地運行 GLM-5，可考慮使用雲端 GPU VPS：

選項	優點	缺點
本地機器	完全隱私，無持續費用	初期硬體成本高
雲端 VPS	無需硬體投資，可擴展	月費，資料需傳送至雲端

雲端 VPS 解決方案：LightNode

對於沒有合適本地硬體的用戶，LightNode 提供優質 GPU VPS 方案，適合運行 GLM-5：

為什麼選擇 LightNode？

功能	優勢
全球節點	部署靠近用戶
GPU 支援	提供 8x A100/H100 實例
按需付費	按小時計費
簡易設定	預配置 GPU 映像檔

配置	使用場景	月費*
8x A100 (80GB)	產品部署	約 $400-800 美元
4x A100 (80GB)	開發與測試	約 $200-400 美元
8x A40 (48GB)	預算選項	約 $300-600 美元

LightNode 快速設定

註冊帳號於 LightNode
選擇 GPU 實例（建議 8x A100 運行 GLM-5）
選擇區域（選擇離您最近以降低延遲）

安裝 Docker 與 vLLM：

sudo apt update
curl -fsSL https://get.docker.com | sh
docker pull vllm/vllm-openai:nightly

啟動 GLM-5：

docker run --gpus all -it --rm \
  -p 8000:8000 \
  vllm/vllm-openai:nightly \
  serve zai-org/GLM-5-FP8 \
  --tensor-parallel-size 8 \
  --gpu-memory-utilization 0.85

本地運行 GLM-5 優化技巧

1. 使用 FP8 量化

# 載入 FP8 量化模型
vllm serve zai-org/GLM-5-FP8 ...

2. 啟用推測解碼

推測解碼可提升吞吐量最高 2 倍：

--speculative-config.method mtp \
--speculative-config.num_speculative_tokens 5

3. 調整 GPU 記憶體使用率

--gpu-memory-utilization 0.90  # 若有更多 VRAM 可提高此值

4. 批次處理多個請求

# 一次送出多個請求
responses = client.chat.completions.create(
    model="glm-5-fp8",
    messages=[
        [{"role": "user", "content": "查詢 1"}],
        [{"role": "user", "content": "查詢 2"}],
    ]
)

疑難排解

記憶體不足錯誤

# 降低批次大小或 GPU 記憶體使用率
--gpu-memory-utilization 0.70

推論速度慢

# 啟用推測解碼
--speculative-config.method mtp
--speculative-config.num_speculative_tokens 5

連線被拒

# 確認伺服器是否運行中
curl http://localhost:8000/health

# 檢查防火牆設定
sudo ufw allow 8000/tcp

官方資源

Hugging Face 模型: https://huggingface.co/zai-org/GLM-5
GitHub 倉庫: https://github.com/zai-org/GLM-5
Z.ai 文件: https://docs.z.ai/guides/llm/glm-5
技術部落格: https://z.ai/blog/glm-5
Discord 社群: 加入

結語

在本地運行 GLM-5，您將能使用目前最強大的開源 LLM 之一，完全掌控您的資料且無 API 限制。無論您選擇 vLLM、SGLang 或直接整合 Transformers，只要擁有合適硬體，設定過程都相當簡單。

若本地硬體有限，LightNode 提供經濟實惠的 GPU VPS 選項，讓每個人都能輕鬆運行 GLM-5。憑藉全球節點與彈性價格，您可在數分鐘內部署 GLM-5。

立即開始在本地運行 GLM-5，釋放開源 AI 的全部潛力！

需要 GPU 資源來運行 GLM-5？請參考 LightNode 的經濟實惠 GPU VPS 方案。