如何在本地運行 GLM-5:完整逐步指南
如何在本地運行 GLM-5:完整逐步指南
介紹
GLM-5 是 Z.ai 最新的開源大型語言模型,擁有 744B 總參數(40B 活躍參數)並採用 MoE 架構。這款強大的模型在推理、程式碼編寫和代理任務方面表現優異,是目前最頂尖的開源 LLM 之一。
在本地運行 GLM-5 可讓您完全掌控資料,免除 API 費用,並允許無限制使用。本指南將帶您完整了解如何在您的硬體上設置並運行 GLM-5。
為什麼要在本地運行 GLM-5?
| 優勢 | 說明 |
|---|---|
| 資料隱私 | 您的資料永遠不會離開您的系統 |
| 節省成本 | 無需支付 API 費用或使用限制 |
| 客製化 | 可針對特定需求進行微調 |
| 無限使用 | 生成內容無上限 |
| 無延遲 | 無需網路呼叫,回應快速 |
硬體需求
在本地運行 GLM-5 前,請確保您的系統符合以下需求:
最低需求
| 元件 | 最低 | 推薦 |
|---|---|---|
| GPU | 4x NVIDIA A100 (40GB) | 8x NVIDIA H100/A100 (80GB) |
| 顯示記憶體 (VRAM) | 160GB | 320GB 以上 |
| 系統記憶體 (RAM) | 64GB | 128GB 以上 |
| 儲存空間 | 500GB SSD | 1TB 以上 NVMe SSD |
| CUDA | 11.8 | 12.0 以上 |
注意:GLM-5 採用 Mixture-of-Experts (MoE) 架構,活躍參數為 40B,比同等規模的密集模型更有效率。
方法一:使用 vLLM 在本地運行 GLM-5
vLLM 是速度最快且最受歡迎的 LLM 服務框架之一,提供高吞吐量與低延遲。
步驟 1:安裝 vLLM
使用 Docker(推薦):
docker pull vllm/vllm-openai:nightly使用 pip:
pip install -U vllm --pre \
--index-url https://pypi.org/simple \
--extra-index-url https://wheels.vllm.ai/nightly步驟 2:安裝必要依賴
pip install git+https://github.com/huggingface/transformers.git
pip install torch步驟 3:啟動 GLM-5 伺服器
vllm serve zai-org/GLM-5-FP8 \
--tensor-parallel-size 8 \
--gpu-memory-utilization 0.85 \
--speculative-config.method mtp \
--speculative-config.num_speculative_tokens 1 \
--tool-call-parser glm47 \
--reasoning-parser glm45 \
--enable-auto-tool-choice \
--served-model-name glm-5-fp8 \
--host 0.0.0.0 \
--port 8000參數說明:
| 參數 | 作用 |
|---|---|
tensor-parallel-size 8 | 分散至 8 張 GPU |
gpu-memory-utilization 0.85 | 使用 85% GPU 記憶體 |
speculative-config.method mtp | 啟用推測解碼 |
tool-call-parser glm47 | 解析工具呼叫 |
reasoning-parser glm45 | 解析推理內容 |
步驟 4:測試您的 GLM-5 安裝
建立測試腳本 test_glm5.py:
from openai import OpenAI
client = OpenAI(
base_url="http://localhost:8000/v1",
api_key="token-not-required"
)
response = client.chat.completions.create(
model="glm-5-fp8",
messages=[
{"role": "user", "content": "Hello! How are you?"}
],
temperature=0.7,
max_tokens=512
)
print(response.choices[0].message.content)執行:
python test_glm5.py方法二:使用 SGLang 在本地運行 GLM-5
SGLang 專為 GLM-5 優化,效能卓越。
步驟 1:拉取 Docker 映像檔
# 適用 Hopper GPU(A100、H100)
docker pull lmsysorg/sglang:glm5-hopper
# 適用 Blackwell GPU
docker pull lmsysorg/sglang:glm5-blackwell步驟 2:啟動 GLM-5 伺服器
python3 -m sglang.launch_server \
--model-path zai-org/GLM-5-FP8 \
--tp-size 8 \
--tool-call-parser glm47 \
--reasoning-parser glm45 \
--speculative-algorithm EAGLE \
--speculative-num-steps 3 \
--speculative-eagle-topk 1 \
--speculative-num-draft-tokens 4 \
--mem-fraction-static 0.85 \
--served-model-name glm-5-fp8 \
--host 0.0.0.0 \
--port 30000步驟 3:與 GLM-5 互動
import openai
client = openai.OpenAI(
base_url="http://localhost:30000/v1",
api_key="token-not-required"
)
response = client.chat.completions.create(
model="glm-5-fp8",
messages=[{"role": "user", "content": "Write a Python function to sort a list."}],
max_tokens=512
)
print(response.choices[0].message.content)方法三:使用 Hugging Face Transformers 運行 GLM-5
適合簡單推論任務,直接使用 Transformers。
步驟 1:安裝 Transformers
pip install transformers torch accelerate步驟 2:載入並運行 GLM-5
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch
# 載入模型與分詞器
model_name = "zai-org/GLM-5"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype=torch.float16,
device_map="auto"
)
# 準備輸入
messages = [
{"role": "user", "content": "Explain machine learning in simple terms."}
]
# 生成回應
text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
generated_ids = model.generate(
**model_inputs,
max_new_tokens=2048,
temperature=0.7,
top_p=0.95
)
# 解碼回應
generated_ids = [
output_ids[len(input_ids):]
for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)GLM-5 使用案例
在本地運行 GLM-5 後,以下是一些實用的應用方式:
1. 程式碼助理
GLM-5 在 SWE-bench Verified 中達到 77.8%,非常適合:
- 程式碼生成與補全
- 錯誤偵測與修復
- 程式碼重構
- 技術文件撰寫
prompt = "Write a Python function to implement a REST API with Flask"
# 傳送給 GLM-5...2. 數學推理
在 AIME 2026 獲得 92.7%,在 HMMT 獲得 96.9%,GLM-5 擅長:
- 數學問題解決
- 科學研究
- 財務建模
- 工程計算
3. 代理任務
GLM-5 在 Terminal-Bench 2.0 得分 56.2%,在 BrowseComp 得分 75.9%,適合:
- 自動化工作流程
- 命令列操作
- 網頁瀏覽與研究
- 工具整合
4. 多語言應用
具備強大的英文與中文能力(BrowseComp-Zh 得分 72.7%):
- 翻譯服務
- 跨語言內容創作
- 多語言客服支援
- 語言學習
5. 企業應用
- 文件分析與摘要
- 知識庫查詢
- 技術寫作輔助
- 合規檢查
6. 研發用途
- 文獻回顧
- 假設生成
- 實驗設計
- 資料分析
本地運行 GLM-5 與雲端 VPS 比較
若您沒有足夠強大的硬體在本地運行 GLM-5,可考慮使用雲端 GPU VPS:
| 選項 | 優點 | 缺點 |
|---|---|---|
| 本地機器 | 完全隱私,無持續費用 | 初期硬體成本高 |
| 雲端 VPS | 無需硬體投資,可擴展 | 月費,資料需傳送至雲端 |
雲端 VPS 解決方案:LightNode
對於沒有合適本地硬體的用戶,LightNode 提供優質 GPU VPS 方案,適合運行 GLM-5:
為什麼選擇 LightNode?
| 功能 | 優勢 |
|---|---|
| 全球節點 | 部署靠近用戶 |
| GPU 支援 | 提供 8x A100/H100 實例 |
| 按需付費 | 按小時計費 |
| 簡易設定 | 預配置 GPU 映像檔 |
推薦 LightNode 配置
| 配置 | 使用場景 | 月費* |
|---|---|---|
| 8x A100 (80GB) | 產品部署 | 約 $400-800 美元 |
| 4x A100 (80GB) | 開發與測試 | 約 $200-400 美元 |
| 8x A40 (48GB) | 預算選項 | 約 $300-600 美元 |
*費用為預估值,實際價格可能有所不同
LightNode 快速設定
- 註冊帳號於 LightNode
- 選擇 GPU 實例(建議 8x A100 運行 GLM-5)
- 選擇區域(選擇離您最近以降低延遲)
- 安裝 Docker 與 vLLM:
sudo apt update curl -fsSL https://get.docker.com | sh docker pull vllm/vllm-openai:nightly - 啟動 GLM-5:
docker run --gpus all -it --rm \ -p 8000:8000 \ vllm/vllm-openai:nightly \ serve zai-org/GLM-5-FP8 \ --tensor-parallel-size 8 \ --gpu-memory-utilization 0.85
本地運行 GLM-5 優化技巧
1. 使用 FP8 量化
# 載入 FP8 量化模型
vllm serve zai-org/GLM-5-FP8 ...2. 啟用推測解碼
推測解碼可提升吞吐量最高 2 倍:
--speculative-config.method mtp \
--speculative-config.num_speculative_tokens 53. 調整 GPU 記憶體使用率
--gpu-memory-utilization 0.90 # 若有更多 VRAM 可提高此值4. 批次處理多個請求
# 一次送出多個請求
responses = client.chat.completions.create(
model="glm-5-fp8",
messages=[
[{"role": "user", "content": "查詢 1"}],
[{"role": "user", "content": "查詢 2"}],
]
)疑難排解
記憶體不足錯誤
# 降低批次大小或 GPU 記憶體使用率
--gpu-memory-utilization 0.70推論速度慢
# 啟用推測解碼
--speculative-config.method mtp
--speculative-config.num_speculative_tokens 5連線被拒
# 確認伺服器是否運行中
curl http://localhost:8000/health
# 檢查防火牆設定
sudo ufw allow 8000/tcp官方資源
- Hugging Face 模型: https://huggingface.co/zai-org/GLM-5
- GitHub 倉庫: https://github.com/zai-org/GLM-5
- Z.ai 文件: https://docs.z.ai/guides/llm/glm-5
- 技術部落格: https://z.ai/blog/glm-5
- Discord 社群: 加入
結語
在本地運行 GLM-5,您將能使用目前最強大的開源 LLM 之一,完全掌控您的資料且無 API 限制。無論您選擇 vLLM、SGLang 或直接整合 Transformers,只要擁有合適硬體,設定過程都相當簡單。
若本地硬體有限,LightNode 提供經濟實惠的 GPU VPS 選項,讓每個人都能輕鬆運行 GLM-5。憑藉全球節點與彈性價格,您可在數分鐘內部署 GLM-5。
立即開始在本地運行 GLM-5,釋放開源 AI 的全部潛力!
需要 GPU 資源來運行 GLM-5?請參考 LightNode 的經濟實惠 GPU VPS 方案。