GLM-5.2 用了三天，我决定把主力模型换了

说实话，最开始听说 GLM-5.2 开源的时候，我内心其实没啥波澜。国产大模型嘛，这些年吹过的牛还少吗？之前试用过好几款，要么跑分好看实际拉胯，要么就是文档写得花里胡哨，一上手全是坑。

但这次不一样。GitHub 上 Release 当天我就看见星标疯涨，社区里一堆人开始晒截图。讲道理，这让我有点坐不住了。

于是花了一个下午，把 GLM-5.2-UD-IQ4_XS 拉到本地 4090 上跑了一下。结果嘛……嗯，我后来取消了 Claude 的订阅。

先说说跑起来的感觉

模型大小摆在那，73B 的 MoE 架构，激活参数大概 12B 左右。说实话一开始还担心显存不够，但量化之后其实还好，24G 显存的卡勉强能跑，如果是 48G 双卡的话能上更高的量化版本。

GitHub 上已经有人用 2 台 M5 Max 跑 753B 的全量版本了，据说是通过 Thunderbolt 5 用 llama.cpp RPC 串联，速度大概 16 tok/s。一般人没这配置，但用 4-bit 量化跑小版本完全够用。

我主要测了几个日常场景：

代码生成。让它写一个 Express + Prisma 的 CRUD API，从路由设计到数据库 Schema 到错误处理，一整套下来基本没毛病。比起之前用的模型，它在 TypeScript 的类型推断上明显更稳，不会出现那种「类型定义跟实际代码对不上」的尴尬情况。

中文理解。这个我必须单独拿出来说。GLM 系列用中文预训练的，对中文语境的把握真的比很多闭源模型强。我让它分析了一段最近很火的网络梗文，它不但读懂了双关语，还自己补了段更损的。

长文本处理。官方支持 128K 上下文，实测在 32K 左右时速度开始明显下降，但理解力在线。我塞了一篇 2 万字的项目文档进去，让它提取关键决策点和风险项，出来的结果居然比我自己总结的还全面。

以前聊到开源大模型，大家的共识就是——跑个 demo 还行，真干活还是得上闭源。但 GLM-5.2 给我的感觉是，这个分水岭正在消失。

现在 Cohere 把 Command A+ 也开源了，Poolside 的 Laguna 也是 Apache 2.0。开源生态已经不是零星几个玩家在折腾了，而是整个产业链都在往这个方向走。

这意味着什么？意味着你再也不用被固定的 API 定价绑架了。想怎么调就怎么调，想部署在哪就部署在哪，数据完全在自己手里。对于做私域部署或者对数据安全要求高的团队来说，这简直是降维打击。

说实话，GLM-5.2 也不是完美无缺。它的多模态能力还比较基础，图片理解基本够用但不如 GPT-4o 那么丝滑。Agent 相关的工具调用能力也有提升空间，有时候会出现意图理解偏差。

不过考虑到它的 License 友好程度和完全可自部署的特性，这些小毛病我觉得可以接受。

另外有个好消息——国内已经有人在做 GLM-5.2 的月付套餐了，把 DeepSeek、Kimi、MiniMax 这些都打包在一起卖，一个月几十块钱随便用。对于不想折腾本地部署的人来说，这可能是最香的方案。

我记得三年前第一次用 GPT-3.5 的时候，觉得这东西能写诗就已经很逆天了。现在呢？一个开源的模型就能干原来闭源旗舰才能干的活。

技术的发展速度，真的比你想象的快。