標籤: 影像生成

GLM-Image：首個開源工業級混合影像生成模型

當 Z.ai（前身為智譜 AI）於 2026 年 1 月發布 GLM-Image 時，他們並非僅僅在擁擠的影像生成領域中新增一款模型，而是從根本上挑戰了長期主導該領域的架構假設。GLM-Image 結合了 90 億參數的自回歸語言模型與 70 億參數的擴散解碼器，打造出一個 160 億參數的混合系統，實現了令人矚目的成就：它是首個開源、工業級的離散自回歸影像生成模型，在特定能力上實際媲美專有巨頭，且免費供任何人使用與修改。

過去一週我深入測試了 GLM-Image，並與 DALL-E 3、Stable Diffusion 3、FLUX.1 以及 Google 的 Nano Banana Pro 進行比較。我的發現是，這款模型擁有獨特的個性——在文字呈現與知識密集型生成方面表現卓越，整體影像品質具競爭力，且在專有產品主導的領域中獨樹一幟地保持開源。無論你是開發創意應用的工程師、探索影像生成架構的研究者，或是尋找訂閱制服務替代方案的創作者，GLM-Image 都值得你關注。

大约 20 分鐘