当Z.ai(前身为知谱AI)于2026年1月发布GLM-Image时,他们并非仅仅在拥挤的图像生成领域中增加了一个模型,而是从根本上挑战了长期主导该领域的架构假设。GLM-Image结合了90亿参数的自回归语言模型和70亿参数的扩散解码器,构建了一个160亿参数的混合系统,实现了一个非凡的成就:它是首个开源的工业级离散自回归图像生成模型,在特定能力上真正能够媲美专有巨头,同时对任何人免费开放使用和修改。
过去一周,我对GLM-Image进行了广泛测试,并与DALL-E 3、Stable Diffusion 3、FLUX.1以及谷歌的Nano Banana Pro进行了对比。我的发现是,这个模型拥有鲜明的个性——在文本渲染和知识密集型生成方面表现卓越,在一般图像质量上具有竞争力,并且在一个被专有产品主导的领域中独树一帜地保持开源。无论你是开发创意应用的开发者、探索图像生成架构的研究者,还是寻求订阅制服务替代方案的创作者,GLM-Image都值得关注。
大约 20 分钟