如何免費使用 GLM-4.7：完整指南

大约 10 分鐘

如何免費使用 GLM-4.7：完整指南

GLM-4.7 是由智谱 AI（Z.ai）推出的最新開源大型語言模型，已在 AI 社群引發熱烈討論。擁有 3550 億參數（活躍參數 320 億）、超大 20 萬上下文視窗以及卓越的程式編寫能力——在 SWE-bench 取得 73.8% 的表現——使其成為如 Claude Sonnet 4.5 等專有模型的強力替代品。最棒的是，你可以透過多個平台免費取得 GLM-4.7。本文將引導你如何在不花一毛錢的情況下合法使用 GLM-4.7。

為什麼值得嘗試 GLM-4.7

GLM-4.7 是開源 AI 的重大突破：

卓越的程式編寫表現： SWE-bench 73.8%，LiveCodeBench 84.9%
超大上下文視窗： 20 萬個 tokens，適合複雜長上下文任務
保留推理脈絡： 在多輪對話中保持推理區塊，提升連貫性
MIT 授權： 完全開源，允許商業使用
多語言支援： 兼具中英文任務優勢
工具使用能力： τ²-Bench 87.4%，適合代理工作流
成本效益高： 比封閉源碼方案大幅降低成本

方法一：OpenRouter 免費額度

你會得到什麼

OpenRouter 提供整合多款 AI 模型的統一 API，包括 GLM-4.7，且有免費實驗階段配額。

操作步驟：

前往 openrouter.ai
註冊免費帳號
到「帳號設定」生成 API 金鑰
查詢模型頁面確認 GLM-4.7 (標示為 zai/glm-4.7 或類似)
使用支援 OpenAI 的 SDK，並設定 OpenRouter 基底網址

免費額度功能 (至 2026 年 4 月)：

免費模型變體每日 50 次請求
每分鐘請求上限 20 次
充值滿 10 美元即可擴展至每日 1000 次

API 使用範例：

from openai import OpenAI

client = OpenAI(
  base_url="https://openrouter.ai/api/v1",
  api_key="your_openrouter_api_key"
)

response = client.chat.completions.create(
  model="zai/glm-4.7",
  messages=[{"role": "user", "content": "寫一個 Python 函式排序陣列"}],
  max_tokens=1000
)

print(response.choices[0].message.content)

專家建議：

在 OpenRouter 控制台監控用量以避免超出免費額度
利用 GLM-4.7 處理程式碼相關任務，發揮其強項
合併請求以減少 API 呼叫次數

方法二：Vercel AI Gateway

透過 Vercel 免費存取

Vercel 在其 AI Gateway 整合 GLM-4.7，讓開發者輕鬆使用。

設定流程：

前往 vercel.com 並註冊免費帳號
新建或使用現有專案
進入 AI Gateway 設定
新增 GLM-4.7 供應者（模型 ID: zai/glm-4.7）
使用 Vercel AI SDK 方便整合

Vercel AI SDK 範例：

import { generateText } from 'ai';
import { createOpenAI } from '@ai-sdk/openai';

const glm = createOpenAI({
  baseURL: 'https://openrouter.ai/api/v1',
  apiKey: process.env.OPENROUTER_API_KEY,
});

const result = await generateText({
  model: glm('zai/glm-4.7'),
  prompt: '解釋 Mixture-of-Experts 架構如何運作',
});

console.log(result.text);

優點：

內建速率限制與快取設計
易於與 Next.js 專案整合
免費方案適合業餘專案
部署流程簡化

方法三：Hugging Face 推論 API

免費推論存取

Hugging Face 托管 GLM-4.7，提供免費推論 API 供實驗使用。

開始步驟：

前往 huggingface.co/zai-org/GLM-4.7
註冊免費 Hugging Face 帳號
同意模型使用條款（如適用）
在個人設定生成存取權杖
使用推論 API 端點

API 範例：

import requests

API_URL = "https://api-inference.huggingface.co/models/zai-org/GLM-4.7"
headers = {"Authorization": "Bearer your_hf_token"}

def query(payload):
	response = requests.post(API_URL, headers=headers, json=payload)
	return response.json()
	
output = query({
	"inputs": "寫一篇詳細說明機器學習概念的文章",
})

免費額度限制：

約每小時 300 次請求
依伺服器負載排隊等待時間不同
適合用於實驗與原型設計

方法四：使用 GGUF 本地部署

在本地執行 GLM-4.7

若想保有完全隱私且無限制使用，可以使用 GGUF 格式的量化模型在本地部署。

需求：

具備足夠記憶體的電腦（建議 32GB 以上）
已安裝 Ollama 或 llama.cpp
從 Hugging Face 下載 GGUF 模型檔案

使用 Ollama：

# 建立 GLM-4.7 Modelfile
echo "FROM ./GLM-4.7-GGUF/glm-4.7.Q4_K_M.gguf" > Modelfile
echo "PARAMETER temperature 0.7" >> Modelfile
echo "PARAMETER top_p 0.9" >> Modelfile
echo "PARAMETER num_ctx 200000" >> Modelfile

# 建立模型
ollama create glm-4.7 -f Modelfile

# 執行模型
ollama run glm-4.7 "寫一個用於資料分析的 Python 腳本"

使用 llama.cpp：

# 下載並編譯 llama.cpp
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make

# 執行模型
./main -m GLM-4.7-GGUF/glm-4.7.Q4_K_M.gguf \
  -p "用簡單詞彙解釋量子運算" \
  -n 512 \
  -c 200000

優點：

完全隱私保護（資料不會外洩）
無速率限制或 API 費用
量化可自訂調整
可離線使用

硬體需求：

最低：16GB 記憶體（4-bit 量化）
建議：32GB 以上以獲得順暢體驗
GPU 加速可選，但建議用於加快推論速度

方法五：OpenCode AI Chat

透過 OpenCode 進行對話存取

OpenCode 提供友善的聊天介面，讓你與包含 GLM-4.7 在內的 AI 模型互動。

操作步驟：

造訪 OpenCode 平台
開啟新對話
從模型下拉選單中選擇 GLM-4.7（若有）
開始與模型聊天

適用場景：

快速程式碼協助
除錯支援
程式碼說明
學習程式設計概念

優點：

無需 API 金鑰
直觀聊天介面
適合非技術用戶
完美用於嘗試實驗

方法六：Z.ai 官方平台

原廠直達通道

GLM-4.7 創建者 Z.ai 透過官方平台提供直接存取。

開始使用：

前往 z.ai
建立免費帳號
進入 GLM-4.7 區域
從 Web 介面或 API 存取模型
查看是否有免費層級或促銷方案

API 範例：

import requests

API_URL = "https://open.bigmodel.cn/api/paas/v4/chat/completions"
headers = {
  "Authorization": "Bearer your_zai_api_key",
  "Content-Type": "application/json"
}

payload = {
  "model": "glm-4.7",
  "messages": [
    {"role": "user", "content": "幫我理解神經網路"}
  ]
}

response = requests.post(API_URL, headers=headers, json=payload)
print(response.json())

免費層級資訊：

新用戶通常有免費額度
請留意網站上的最新促銷活動
免費層級可能有日/月使用限制

方法七：Puter.js 整合

免費且無伺服器的存取

Puter.js 採用「使用者付費」模式，無需 API 金鑰或伺服器設定即可使用 AI 能力。

快速開始：

在你的 HTML 文件中引入 Puter.js：

<script src="https://js.puter.com/v2/"></script>

透過他們介面使用 GLM-4.7：

puter.ai.chat(
  "寫一個實作二分搜尋法的函式",
  { model: "z-ai/glm-4.7" }
).then(response => {
  console.log(response);
  puter.print(response, {code: true});
});

優點：

無需 API 金鑰
使用者自付其用量
適合客戶端應用
無需伺服器基礎建設

注意： 請參考 Puter 官方文件確認支援模型及 GLM-4.7 可用性。

提升免費使用效益

智慧使用策略

1. 優化請求：

選擇適合任務的模型大小
針對提示語具體明確，減少 tokens 使用
將複雜任務拆分成小型查詢

2. 實施快取機制：

快取常見問題回答
利用 TTL（存活時間）機制更新快取
減少多達 60% 重複 API 呼叫

3. 批次操作：

將多個相關查詢合併為單一請求
使用批次處理來提升效率
降低 API 開銷

4. 選擇合適平台：

API 存取：OpenRouter 免費層方案好
Next.js 專案：Vercel AI Gateway 無縫整合
實驗探索：Hugging Face 推論服務
自我隱私保護：本地 GGUF 部署

常見限制與解決方案

速率限制：

問題： 免費層限制每分鐘/每日請求數
解決： 實施請求佇列，跨平台使用，或本地部署

上下文視窗限制：

問題： 部分平台免費層可能限制上下文大小
解決： 優先使用支援全長 20 萬上下文的服務或本地方案

排隊時間：

問題： 免費推論 API 可能會有等待時間
解決： 避開尖峰時段，或切換到本地部署

效能基準測試

基準測試	GLM-4.7 得分	GPT-4o	Claude Sonnet 4.5
SWE-bench	73.8%	71.8%	72.0%
LiveCodeBench	84.9%	82.1%	83.5%
τ²-Bench	87.4%	85.2%	86.1%
Terminal Bench 2.0	41%	38%	39%

資料為多項基準測試彙整而成

GLM-4.7 最佳應用場景

1. 程式碼生成與除錯：

撰寫生產級程式碼
除錯複雜問題
重構現有程式碼
生成測試案例

2. 代理工作流：

搭配 Claude Code、Cline 或 Roo Code 等工具
實現自動化程式助理
建立 AI 驅動開發工具

3. 多語言應用：

支援中英文任務
程式碼語言間翻譯
本地化相關工作

4. 長上下文推理：

分析大型程式碼庫
審閱冗長文件
處理多檔案專案

整合範例

與 Cursor (AI 程式編輯器)：

// 設定 Cursor 透過 OpenRouter 使用 GLM-4.7
// Settings → Models → Add Custom Model
Model ID: zai/glm-4.7
Base URL: https://openrouter.ai/api/v1
API Key: your_openrouter_key

與 VS Code (Continue 擴充套件)：

// .vscode/settings.json
{
  "continue.model": "zai/glm-4.7",
  "continue.apiBaseUrl": "https://openrouter.ai/api/v1",
  "continue.apiKey": "your_openrouter_key"
}