當 Z.ai(前身為智譜 AI)於 2026 年 1 月發布 GLM-Image 時,他們並非僅僅在擁擠的影像生成領域中新增一款模型,而是從根本上挑戰了長期主導該領域的架構假設。GLM-Image 結合了 90 億參數的自回歸語言模型與 70 億參數的擴散解碼器,打造出一個 160 億參數的混合系統,實現了令人矚目的成就:它是首個開源、工業級的離散自回歸影像生成模型,在特定能力上實際媲美專有巨頭,且免費供任何人使用與修改。
過去一週我深入測試了 GLM-Image,並與 DALL-E 3、Stable Diffusion 3、FLUX.1 以及 Google 的 Nano Banana Pro 進行比較。我的發現是,這款模型擁有獨特的個性——在文字呈現與知識密集型生成方面表現卓越,整體影像品質具競爭力,且在專有產品主導的領域中獨樹一幟地保持開源。無論你是開發創意應用的工程師、探索影像生成架構的研究者,或是尋找訂閱制服務替代方案的創作者,GLM-Image 都值得你關注。
大约 20 分鐘