标签: GLM-Image

GLM-Image：首个开源工业级混合图像生成模型

当Z.ai（前身为知谱AI）于2026年1月发布GLM-Image时，他们并非仅仅在拥挤的图像生成领域中增加了一个模型，而是从根本上挑战了长期主导该领域的架构假设。GLM-Image结合了90亿参数的自回归语言模型和70亿参数的扩散解码器，构建了一个160亿参数的混合系统，实现了一个非凡的成就：它是首个开源的工业级离散自回归图像生成模型，在特定能力上真正能够媲美专有巨头，同时对任何人免费开放使用和修改。

过去一周，我对GLM-Image进行了广泛测试，并与DALL-E 3、Stable Diffusion 3、FLUX.1以及谷歌的Nano Banana Pro进行了对比。我的发现是，这个模型拥有鲜明的个性——在文本渲染和知识密集型生成方面表现卓越，在一般图像质量上具有竞争力，并且在一个被专有产品主导的领域中独树一帜地保持开源。无论你是开发创意应用的开发者、探索图像生成架构的研究者，还是寻求订阅制服务替代方案的创作者，GLM-Image都值得关注。

大约 20 分钟