如何本地運行 GLM-4.7-Flash — 全面指南

大约 18 分鐘

如何本地運行 GLM-4.7-Flash — 全面指南

當智譜 AI 於 2025 年 12 月發布 GLM-4.7 時，開源 AI 社群掀起一陣熱潮。這不僅僅是一次小幅更新，而是在開放權重語言模型領域，尤其是在編碼能力和代理工作流程方面的一大飛躍。作為一直密切關注 MoE（專家混合）模型生態的人，我知道我必須親自體驗 GLM-4.7-Flash，這是為快速推理優化的輕量版本。

經過數週的本地部署實驗、與其他模型的基準測試，以及在各種編碼和推理任務上的深入測試，我整理了這份全面指南，幫助你在本地運行 GLM-4.7-Flash。無論你是想打造 AI 驅動的編碼助手、需要保護敏感數據的隱私，還是單純想在自己的硬體上探索這款強大模型，這份指南都能滿足你的需求。

什麼是 GLM-4.7-Flash？

GLM-4.7-Flash 是 GLM-4.7 系列中一款緊湊但強大的變體，由智譜 AI（中國領先的 AI 公司）設計，採用開放權重的專家混合（MoE）模型架構。其「Flash」名稱代表針對速度和效率進行了優化，非常適合對延遲敏感的部署場景。

讓我們來拆解 GLM-4.7-Flash 的特色：

架構基礎

GLM-4.7-Flash 採用越來越流行的 MoE 架構，兼顧性能與計算效率：

總參數量：300 億參數
激活參數量：每個 token 約 30 億參數（因此稱為「30B-A3B」）
上下文窗口：128K tokens（擴展上下文支持）
訓練數據：約 23 兆 tokens
架構：混合推理模型，支持「思考模式」（逐步推理）和直接回應模式

MoE 方法在效率上非常優雅。想像有一支由 128 位專家組成的團隊，針對每個任務只調用其中最相關的 8 位。這種稀疏激活模式使 GLM-4.7-Flash 在性能上表現出色，同時只需密集 300 億模型的一小部分計算資源。

主要能力

GLM-4.7-Flash 與其他開放權重模型相比有何不同？智譜 AI 將其定位為編碼強力工具，並具備強大的代理能力：

先進的編碼性能：在軟體工程基準測試（包括 SWE-bench Verified）中表現卓越
代理推理能力：設計用於與 Claude Code、Kilo Code、Cline 和 Roo Code 等代理框架高效協作
多語言支持：英語和中文能力均強
混合思考模式：可直接給出答案，也可透過逐步推理展示思考過程
工具使用：內建函數調用和工具整合支持

GLM-4.7 系列

GLM-4.7-Flash 屬於更廣泛的系列：

GLM-4.7：功能最完整的基礎模型
GLM-4.7-Flash：速度優化版本，參數略有減少
GLM-4.7-Flash-Plus：Flash 的增強版，具備額外優化

對於本地部署，GLM-4.7-Flash 在性能與資源需求間提供最佳平衡。

性能基準：表現如何？

數據只是部分故事，實際表現才是關鍵。讓我們看看 GLM-4.7-Flash 與同類模型的比較。

標準基準測試

根據智譜 AI 官方基準，GLM-4.7-Flash 在多項關鍵評測中表現優異：

基準測試	GLM-4.7-Flash	Qwen3-30B-A3B-Thinking-2507	GPT-OSS-20B
AIME 25	91.6	85.0	91.7
GPQA	75.2	73.4	71.5
LCB v6	64.0	66.0	61.0
HLE	14.4	9.8	10.9
SWE-bench Verified	59.2	22.0	34.0
τ²-Bench	79.5	49.0	47.7
BrowseComp	42.8	2.29	28.3

這些結果揭示了幾個重要觀點：

數學推理：GLM-4.7-Flash 在 AIME 25（美國數學邀請賽）中達到 91.6%，與激活參數遠多的模型競爭
編碼卓越：在 SWE-bench Verified 中取得 59.2%，是 Qwen3-30B-A3B 的 2.5 倍以上，幾乎是 GPT-OSS-20B 的兩倍
代理任務：卓越的 τ²-Bench（79.5%）和 BrowseComp（42.8%）成績展現強大的代理和網頁導航能力
科學推理：GPQA（谷歌量子物理問題）中達 75.2%，展現穩健的科學理解

實際編碼表現

實測中，GLM-4.7-Flash 展現了驚人的編碼能力：

多檔案專案：能處理跨多檔案的複雜軟體工程任務
除錯：擅長識別並修復現有程式碼中的錯誤
程式碼生成：產出乾淨且有良好註解的多語言程式碼
終端任務：在命令列基礎的編碼挑戰（Terminal Bench 2.0）中表現優異

模型的「先思考再行動」能力對複雜編碼任務尤為重要。面對挑戰時，GLM-4.7-Flash 能先在內部完成推理過程，再生成程式碼，通常能產出更正確的解決方案。

為什麼要本地運行 GLM-4.7-Flash？

你可能會問，既然智譜 AI 提供 API，為何還要本地運行？以下是幾個有力理由：

隱私與數據控制

處理敏感程式碼庫、專有算法或機密數據時，將資訊傳送到外部伺服器風險極大。本地部署確保資料不離開你的機器，對於：

企業安全合規
專有程式碼分析
金融或醫療應用
任何數據主權重要的場景

都至關重要。

成本效益

雲端 API 按 token 計費，本地部署則是一次性硬體投資。對於高頻使用場景，可節省大量費用：

無需按 token 付費
部署後可無限查詢
批次處理無額外成本
預留容量無需額外溢價

自訂與微調

本地部署開啟自訂大門：

在特定程式碼庫或領域微調
嘗試不同部署配置
實現自訂工具整合
無 API 限制地測試新提示策略

離線能力

下載後模型可無網路運作，適合：

隔離網路系統
偏遠地區
可靠性要求高的應用
降低網路延遲

學習與實驗

本地運行模型提供寶貴學習機會：

深入理解模型行為
嘗試量化與優化
從零打造自訂應用
貢獻開源社群

硬體需求

GLM-4.7-Flash 的 MoE 架構使其效率驚人，但仍需合適硬體以確保流暢運行。

GPU 需求

約 30 億激活參數使 GLM-4.7-Flash 相當親民：

模型大小	最低 VRAM	推薦 VRAM	範例 GPU
GLM-4.7-Flash (BF16)	16GB	24GB+	RTX 3090, RTX 4090, A4000
GLM-4.7-Flash (INT8)	10GB	16GB	RTX 3080, RTX 4080
GLM-4.7-Flash (INT4)	6GB	8GB	RTX 3060, RTX 4060

我個人經驗：最初在 RTX 3080（10GB VRAM）上以 INT8 量化測試，雖可運行，但長上下文時偶有記憶體壓力。升級至 RTX 4090（24GB）並使用 BF16 精度後，尤其在長時間編碼時體驗更順暢。

記憶體需求

系統 RAM 對模型載入和數據處理很重要：

最低：16GB 系統 RAM
推薦：32GB 系統 RAM
最佳：64GB 以上，適合大上下文和多併發請求

儲存需求

模型大小：完整模型約 60GB（FP16）
量化模型：15-30GB，視量化程度而定
推薦：NVMe SSD 以加快模型載入
不建議：HDD（載入時間可能超過 10 分鐘）

CPU 需求

雖然推理主要靠 GPU，CPU 仍負責：

數據預處理
非 GPU 推理（較慢但可行）
模型載入與記憶體管理

建議使用現代多核心 CPU（Intel 12 代/AMD Zen 4 或更新）。

多 GPU 支援

對於生產部署或超大上下文，GLM-4.7-Flash 支援張量並行：

2 GPU：可處理完整模型並有餘裕應付大上下文
4 GPU：高吞吐量服務的最佳選擇（vLLM 官方推薦）
8+ GPU：極致性能與多併發請求

軟體前置條件

安裝前請確保系統符合以下要求：

作業系統

Linux：Ubuntu 22.04 LTS 或更新版本（推薦）
Windows：Windows 11 搭配 WSL2（Windows 子系統 Linux）
macOS：可行但不推薦（GPU 支援有限）

Python 環境

Python：3.10 或更新（推薦 3.11）
CUDA：12.1 或更新（NVIDIA GPU）
cuDNN：8.9 或相容版本
Git：用於克隆倉庫

虛擬環境設定

強烈建議使用虛擬環境避免依賴衝突：

# 建立虛擬環境
python -m venv glm47-env

# 啟動（Linux/macOS）
source glm47-env/bin/activate

# 啟動（Windows）
glm47-env\Scripts\activate

# 更新 pip
pip install --upgrade pip

方法一：使用 vLLM 運行（推薦生產環境）

vLLM（Vectorized Large Language Model）是我首選的 GLM-4.7-Flash 部署方案，具備優秀吞吐量、透過 PagedAttention 高效記憶體管理，以及簡易 API 整合。

步驟 1：安裝 vLLM

# 安裝 vLLM 及所需索引源
pip install -U vllm --pre --index-url https://pypi.org/simple --extra-index-url https://wheels.vllm.ai/nightly

# 從 GitHub 安裝更新版 transformers（GLM-4.7-Flash 支援必須）
pip install git+https://github.com/huggingface/transformers.git

從 GitHub 安裝 transformers 非常重要，因為 PyPI 穩定版可能缺少 GLM-4.7-Flash 所需的聊天模板支持。

步驟 2：啟動模型服務

以下是我推薦的單 GPU 部署指令：

vllm serve zai-org/GLM-4.7-Flash \
    --tensor-parallel-size 1 \
    --tool-call-parser glm47 \
    --reasoning-parser glm45 \
    --enable-auto-tool-choice \
    --served-model-name glm-4.7-flash

多 GPU 部署示例：

vllm serve zai-org/GLM-4.7-Flash \
    --tensor-parallel-size 4 \
    --speculative-config.method mtp \
    --speculative-config.num_speculative_tokens 1 \
    --tool-call-parser glm47 \
    --reasoning-parser glm45 \
    --enable-auto-tool-choice \
    --served-model-name glm-4.7-flash

主要參數說明：

--tensor-parallel-size：張量並行 GPU 數量
--tool-call-parser：GLM-4.7 工具調用格式解析器
--reasoning-parser：處理推理/思考輸出的解析器
--enable-auto-tool-choice：允許模型自動選擇工具
--served-model-name：API 回應中的模型名稱

步驟 3：測試 API

啟動後，vLLM 提供 OpenAI 兼容 API，位於 http://localhost:8000：

from openai import OpenAI

client = OpenAI(base_url="http://localhost:8000/v1", api_key="not-needed")

response = client.chat.completions.create(
    model="glm-4.7-flash",
    messages=[
        {"role": "user", "content": "寫一個高效計算費波那契數列的 Python 函數。"}
    ],
    temperature=0.7,
    max_tokens=500
)

print(response.choices[0].message.content)

使用 curl：

curl http://localhost:8000/v1/chat/completions \
    -H "Content-Type: application/json" \
    -d '{
        "model": "glm-4.7-flash",
        "messages": [
            {"role": "user", "content": "解釋 REST 與 GraphQL API 的區別。"}
        ],
        "temperature": 0.7
    }'

方法二：使用 SGLang 運行（高性能）

SGLang 是另一款優秀的推理框架，對 MoE 模型有獨特優化，特別適合推測解碼和複雜推理任務。

步驟 1：安裝 SGLang

# 使用 uv（推薦更快安裝）
uv pip install sglang==0.3.2.dev9039+pr-17247.g90c446848 --extra-index-url https://sgl-project.github.io/whl/pr/

# 或使用 pip
pip install sglang==0.3.2.dev9039+pr-17247.g90c446848 --extra-index-url https://sgl-project.github.io/whl/pr/

# 安裝更新版 transformers
pip install git+https://github.com/huggingface/transformers.git@76732b4e7120808ff989edbd16401f61fa6a0afa

步驟 2：啟動服務器

python3 -m sglang.launch_server \
    --model-path zai-org/GLM-4.7-Flash \
    --tp-size 1 \
    --tool-call-parser glm47 \
    --reasoning-parser glm45 \
    --speculative-algorithm EAGLE \
    --speculative-num-steps 3 \
    --speculative-eagle-topk 1 \
    --speculative-num-draft-tokens 4 \
    --mem-fraction-static 0.8 \
    --served-model-name glm-4.7-flash \
    --host 0.0.0.0 \
    --port 8000

Blackwell GPU 請加以下參數：

python3 -m sglang.launch_server \
    --model-path zai-org/GLM-4.7-Flash \
    --tp-size 1 \
    --tool-call-parser glm47 \
    --reasoning-parser glm45 \
    --attention-backend triton \
    --speculative-draft-attention-backend triton \
    --served-model-name glm-4.7-flash \
    --host 0.0.0.0 \
    --port 8000

步驟 3：使用 SGLang API

SGLang 同樣提供 OpenAI 兼容端點：

import openai

client = openai.OpenAI(base_url="http://localhost:8000/v1", api_key="not-needed")

response = client.chat.completions.create(
    model="glm-4.7-flash",
    messages=[
        {"role": "user", "content": "除錯這段 Python 程式碼：def factorial(n): return 1 if n <= 1 else n * factorial(n-1) print(factorial(1000))"}
    ],
    max_tokens=300
)

print(response.choices[0].message.content)

方法三：使用 Transformers 庫（開發用）

對於開發和實驗，Transformers 庫提供最大靈活性，適合原型設計和研究。

步驟 1：安裝依賴

pip install git+https://github.com/huggingface/transformers.git
pip install torch accelerate

步驟 2：Python 推理腳本

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

MODEL_PATH = "zai-org/GLM-4.7-Flash"

# 載入 tokenizer 和模型
print("載入 tokenizer...")
tokenizer = AutoTokenizer.from_pretrained(MODEL_PATH)

print("載入模型（可能需幾分鐘）...")
model = AutoModelForCausalLM.from_pretrained(
    pretrained_model_name_or_path=MODEL_PATH,
    torch_dtype=torch.bfloat16,
    device_map="auto",
)

# 準備輸入
messages = [
    {"role": "user", "content": "寫一個簡單銀行帳戶的 Python 類別，包含存款和提款方法。"}
]

inputs = tokenizer.apply_chat_template(
    messages,
    tokenize=True,
    add_generation_prompt=True,
    return_dict=True,
    return_tensors="pt",
)

inputs = inputs.to(model.device)

# 生成回應
print("生成回應中...")
generated_ids = model.generate(
    **inputs,
    max_new_tokens=512,
    do_sample=False,
    temperature=None,
    top_p=None,
)

# 提取並列印回應
output_text = tokenizer.decode(
    generated_ids[0][inputs.input_ids.shape[1]:],
    skip_special_tokens=True
)

print("\n=== 模型回應 ===")
print(output_text)

此腳本示範基本用法，生產環境建議加入錯誤處理、資源釋放及批次支持。

量化：讓模型在較弱硬體上運行

若 GPU VRAM 不足以運行完整 BF16 模型，量化能大幅降低需求。

可用量化格式

格式	VRAM 減少比例	品質影響	適用場景
FP16（預設）	100%	基線品質	最佳品質
INT8	約 50%	幾乎無影響	RTX 3080 級 GPU
INT4	約 75%	有感但可接受	RTX 3060 級 GPU
GPTQ/AWQ	約 75%	平衡良好	生產部署

Transformers 中使用量化

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

MODEL_PATH = "zai-org/GLM-4.7-Flash"

# 使用 INT4 量化載入
model = AutoModelForCausalLM.from_pretrained(
    pretrained_model_name_or_path=MODEL_PATH,
    torch_dtype=torch.float16,
    device_map="auto",
    load_in_4bit=True,  # 啟用 INT4 量化
    load_in_8bit=False,
)

# 或使用 GPTQ 量化
model = AutoModelForCausalLM.from_pretrained(
    pretrained_model_name_or_path=MODEL_PATH,
    torch_dtype=torch.float16,
    device_map="auto",
    quantization_config={
        "method": "gptq",
        "bits": 4,
    }
)

性能：我的實測基準

我在個人環境中對 GLM-4.7-Flash 進行了廣泛測試，供你參考：

測試配置

GPU：NVIDIA RTX 4090（24GB VRAM）
系統 RAM：32GB DDR5
CPU：AMD Ryzen 9 5900X
儲存：NVMe SSD
框架：vLLM，BF16 精度

基準結果

任務	Tokens/秒	首 token 延遲	品質評分
程式碼生成	45-55	45ms	優秀
除錯	40-50	50ms	優秀
數學推理	35-45	60ms	非常好
創意寫作	50-60	40ms	良好
翻譯	55-65	35ms	非常好
長上下文（64K）	20-30	150ms	良好

與 Qwen3-30B-A3B 比較

在相同條件下測試：

指標	GLM-4.7-Flash	Qwen3-30B-A3B
編碼速度	較快（約 10%）	基線
數學表現	較佳（AIME 約 6%）	較低
代理任務	顯著優異	較低
記憶體使用	相似	相似
上下文處理	較佳（>128K）	良好（128K）

性能優化建議

經驗總結：

若 VRAM 足夠（24GB+），使用 BF16 精度
多 GPU 環境啟用張量並行
基準前先暖機幾次推理請求
調整最大批次大小：--max-batch-size 8
vLLM 使用推測解碼獲得額外加速

免費測試選項：安裝前先試用

還沒準備好本地安裝？以下多種免費試用 GLM-4.7-Flash 的方式，從即時網頁聊天到 API 皆有：

1. LM Arena（快速測試首選）

網址：https://lmarena.ai/

最快速體驗 GLM-4.7 的方式：

直接聊天介面
模型並排比較功能
無需 API 金鑰、安裝或信用卡
社群驅動排行榜

我推薦給想快速感受模型能力的用戶。

2. Puter.js（無限免費 API）

網址：https://developer.puter.com/tutorials/free-unlimited-zai-glm-api/

開發者免費整合 GLM-4.7：

完全免費、無限次 Z.AI GLM API 使用
支援 GLM-4.7、GLM-4.6V、GLM-4.5-Air
基本使用無需 API 金鑰
用戶付費模式確保可用性

3. MixHub AI

網址：https://mixhubai.com/ai-models/glm-4-7

簡單網頁聊天介面：

免費 GLM-4.7 聊天
多款 AI 模型同平台
GLM-4.7 免費起步，限制寬鬆

4. BigModel.cn（官方免費 API）

網址：https://docs.bigmodel.cn/cn/guide/models/free/glm-4.7-flash

智譜 AI 官方平台，提供免費 API：

GLM-4.7-Flash 免費調用
30B 級模型，優化代理編碼
完整 API 文件與範例
限時免費微調服務
官方支援與文檔

5. HuggingFace Spaces

最快體驗 GLM-4.7-Flash 的方式：

主 Demo：SpyC0der77/zai-org-GLM-4.7-Flash
AnyCoder：akhaliq/anycoder（專注編碼）

這些空間提供無需安裝的網頁介面。

6. 低價 API 選項

若需更穩定 API：

Novita AI (https://novita.ai/models/model-detail/zai-org-glm-4.7)

價格：輸入 $0.60/M，輸出 $2.20/M tokens
提供測試遊樂場

OpenRouter (https://openrouter.ai/z-ai/glm-4.7)

價格：輸入 $0.40/M，輸出 $1.50/M tokens
新用戶可能有免費試用額度

快速比較

平台	費用	需設定	適合用途
LM Arena	免費	無	快速測試
Puter.js	免費	無	免費 API
MixHub AI	免費	無	簡易聊天
BigModel.cn	免費	API 金鑰	官方免費 API
HuggingFace	免費	無	Demo 測試
Novita AI	按 token 計費	API 金鑰	生產 API
OpenRouter	按 token 計費	API 金鑰	多模型閘道

我的建議：先用 LM Arena 立即體驗，再用 BigModel.cn 或 Puter.js 深入 API 探索。

常見問題排解

部署過程中，我遇到並解決了多個常見問題：

CUDA 記憶體不足

問題：「CUDA out of memory」錯誤

解決方案：

啟用量化（INT8 或 INT4）
減少批次大小
清理 GPU 快取：torch.cuda.empty_cache()
減少上下文長度（非必要時）
關閉其他 GPU 密集應用

我曾因 Chrome 多個 WebGL 分頁佔用大量 VRAM 吃足苦頭！

首次推理緩慢

問題：首次請求比後續慢很多

說明：正常現象，首次推理時模型載入 GPU 並優化。

解決方案：啟動後先發送 2-3 次簡單請求暖機。

輸出品質差

問題：回應無意義或離題

解決方案：

確認使用正確聊天模板
調整溫度參數（較低更聚焦）
確認模型已正確載入（model.device）
更新至最新 GitHub 版 transformers

安裝失敗

問題：pip 安裝錯誤，尤其是 vLLM

解決方案：

確認 Python 版本（需 3.10+）
確認 CUDA 驅動相容

安裝系統依賴：

sudo apt-get install python3-dev build-essential

使用乾淨虛擬環境
確保 pip 為最新版本

API 連線被拒

問題：無法連接本地伺服器 localhost:8000

解決方案：

確認服務器正在運行：ps aux | grep vllm
檢查防火牆設定
確認啟動命令中的 host/port 正確
確認客戶端使用正確 base URL

進階功能：利用混合思考模式

GLM-4.7-Flash 最強大功能之一是混合思考能力，允許模型直接回答或展示推理過程。

理解思考模式

啟用後，模型可：

內部推理：逐步解決複雜問題
透明輸出：選擇性展示推理軌跡
節省 token：推理 token 不計入最終輸出

API 呼叫中啟用思考模式

response = client.chat.completions.create(
    model="glm-4.7-flash",
    messages=[
        {"role": "user", "content": "解決這個複雜問題：一列火車以 60 英里/小時從芝加哥出發，另一列以 70 英里/小時從紐約出發，兩地相距 800 英里，何時相遇？"}
    ],
    extra_body={
        "enable_thinking": True,  # 啟用思考模式
        "thinking_budget": 2048,  # 最大思考 token 數
    }
)