GLM-5.2 用了三天,我决定把主力模型换了
技术笔记 3 次阅读

GLM-5.2 用了三天,我决定把主力模型换了

GLM-5.2 用了三天,我决定把主力模

GLM-5.2 用了三天,我决定把主力模型换了

前两天看到 Z.ai 发了 GLM-5.2,说实话第一反应是——又来一个国产开源模型,能有多大差别?毕竟这几年开源模型看了太多,"吊打""碾压""超越"这些词都快用烂了。但架不住圈子里的人都在聊,就注册了 GLM Coding Plan 试了一下。

结果这一试,三天过去了,我默默把之前用的付费 API 停了。

上手第一感觉:真不一样

我用的是 Fireworks 的 API 接的 GLM-5.2,因为平时主要用 Claude Code 写代码,就想着能不能把它塞进去当主力模型用。配置过程其实挺简单的,Fireworks 那边文档写得也清楚,十分钟就接好了。

第一印象就一个字:快。不是响应快,是说它"理解得很快"。给了它一个比较复杂的前后端联调任务——之前跟另一模型说的时候,来回拉扯了四五轮才把需求讲清楚。GLM-5.2 第一轮输出就把大部分逻辑理顺了,只有两个细节需要我纠正。这感觉怎么说呢,就像跟一个新同事配合,本来预期要磨合两周,结果发现第二天就对上频道了。

当然也不是完全没有毛病。Claude Code 那个框架会尝试给模型发图片,但 Fireworks 那边不支持视觉输入,一调用就崩掉,得手动清上下文。这倒不是模型的问题,是集成层的兼容性还差点火候。

Benchmark 是死的,体验才是真的

翻了一下官方公布的跑分,GLM-5.2 在 Agent 排行榜上跟 OpenAI 和 Anthropic 的最新模型打得有来有回。LMSYS 那边也有人说它的 Coding 能力追上了 Opus 4.8。但说实话,跑分这事现在越来越没人当真了——模型厂商都学会了"针对训练"。

我更信得过的其实是社区的口碑。Vercel 的 CEO 发了条推说"这模型好到让我吃惊",Z.ai 的创始人直接跟马斯克说"开源版 Fable 的能力明年初就能赶上"。这些人的评价比什么跑分都实在。

我自己的测试场景是帮我重构一个老项目的代码。那个项目大概是三年前写的,用的是比较老的框架版本,代码里到处都是"历史遗留问题"。我让 GLM-5.2 帮忙分析目录结构、梳理依赖关系、再出一版重构方案。它花了大概半分钟读完所有文件,给出来的方案里面有三分之一是我没想到的角度——比如它发现某个模块其实可以完全去掉,因为新框架已经内置了同样的功能。

开源模型的拐点到了?

GLM-5.2 的意义可能不只是"又一个好模型"。从 DeepSeek R1 到 Kimi K2 到现在的 GLM-5.2,你会发现一个规律:国产开源模型追上闭源模型的时间差越来越短了。之前大家说 6-9 个月,现在看可能 3-4 个月就追上了。

而且这次不太一样的是,GLM-5.2 用的是 MIT 协议,也就是说你可以随便改、随便用、甚至商用。对于很多中小团队来说,这等于有了一个真正能打的主力模型,不用再按月交那几百上千刀的 API 费了。

我试了下在本地 4090 上跑量化版本,效果居然也不差。虽然肯定比不上云端跑满血版那么丝滑,但日常的代码生成和问题解答完全够用。这就让独立开发者和个人项目有了更多的选择空间。

说点实话

当然也不是完美无缺。我发现它在处理超长上下文(比如一口气给它 10 个文件、每个文件上千行)的时候,偶尔会丢失一些细节信息。还有就是中英文混编的场景下,有时英文术语的解释会偏啰嗦。这些小毛病都还在接受范围内,毕竟这才 5.2 版本。

另外有一点让我挺感慨的——美国那边还在吵 AI 安全、限制模型发布,而国内的团队已经把 MIT 开源模型做到这个程度了。技术平权这件事,原来不是喊喊口号就完的。

总之,如果你也在找替代闭源模型的方案,或者单纯想省点 API 费用,GLM-5.2 值得花一个下午试试。反正我已经回不去了。

分享

评论 (0)

评论通过后显示

暂无评论,来写第一条吧 ✍️