把 GLM-5.2 跑在本地 4090 上，这感觉比想象中爽多了

上周看到 Z.ai 发了 GLM-5.2，说实话一开始没太当回事。版本号才跳到 5.2，能有多大变化？但刷了两天社区帖子，发现风向不对——推特上那些平时只吹 Claude 的大佬们，一个个都在说"这模型有点东西"。

那我肯定得试试啊。

但这玩意儿不像 ChatGPT，点开网页就能用。要体验完整的 GLM-5.2，最好是自己部署。我手头刚好有一台四卡 4090 的机器，之前主要跑 Stable Diffusion 用的，这次正好拉出来溜溜。

部署过程：没想象中那么折腾

说实话，最怕的就是这种"开源大模型部署教程"——教程写三行字，实际踩坑三小时。但 GLM-5.2 这次做得还不错。官方提供了 GGUF 格式的量化版本，我用的是 Q4_K_M 量化，单卡 4090 就能跑，大概占 22GB 显存。

部署工具我选了 llama.cpp，主要因为它对 4090 的优化最好，而且社区活跃，遇到问题随便一搜就有解决方案。

下载模型权重花了大概半小时（24GB 的模型，网速还行），然后直接跑 server 模式。第一次启动的时候，终端输出了那行 "llama server started" 的时候，说实话心跳快了一拍——搞过自部署的人都懂，第一次能跑起来就是胜利。

实测下来，在 4-bit 量化下，推理速度大概 25-30 token/s，写代码、改 Bug 完全够用。如果是复杂推理任务，打开 "Max Think" 模式，速度降到 7-8 token/s，但思考深度确实上去了。

必须说实话：不是一个级别的碾压。

但在某些场景下，它给我的惊喜很大。我拿它做了三件事：

第一件是写 Python 脚本。我让它写一个批量处理 PDF 元数据的工具，带进度条和日志。GLM-5.2 一次就给出了基本能跑的代码，只改了两处小 bug。这个水平，说实话跟 Claude Sonnet 差不多。

第二件是改一个老旧的前端项目。我丢给它一个 Vue 2 的组件文件，让它帮我改成 Vue 3 Composition API 写法。它不光改对了，还顺带把一些明显冗余的代码给注释掉并说明了原因。这种"顺带做了"的感觉，是以前用其他开源模型很少有的体验。

第三件是让它帮我分析一份技术方案文档。我把一个二十页的架构设计文档丢进去，让它找出潜在的风险点。它列了七条，其中两条是我自己都没意识到的——关于缓存一致性和慢查询的隐患。就冲这一点，我觉得这模型值回票价了。

坦诚说，跟 GPT-5.x 和 Claude Opus 4.8 比，GLM-5.2 在复杂多步骤推理上还是差一口气。比如写一个完整的 CRUD 应用，Claude 可能一次搞定，GLM-5.2 会在某个环节出现理解偏差，需要人工纠正。

但这不重要。重要的是，它是开源的。这意味着我可以本地部署，数据不出门，没有 API 费用，而且可以自己 fine-tune。对于一个需要处理敏感代码的公司项目来说，这简直是刚需。

社区里已经有创业公司在 GLM-5.2 的基础上做垂直领域的模型了，金融、法律、医疗都有。这波"开源模型平权"的趋势，比我想象的来得快。

如果你手头有 24GB 以上显存的显卡，强烈建议试试 GLM-5.2。不需要四卡 4090，一张 3090 或者 4090 就够了，量化版跑起来完全没问题。如果是纯写代码，用 Fireworks 或者 Together 的 API 也行，价格比 Claude 便宜不少。

这模型让我最感慨的一点是：去年的这个时候，开源模型跟闭源还差着十万八千里。现在已经能看到尾灯了。按照这个速度，明年这时候开源模型说不定真能跟闭源扳手腕了。

对了，如果你部署过程中遇到什么问题，可以直接去 HuggingFace 的模型页面看 discussion 区，国人开发者很活跃，基本上问啥都有人回。这一点，比某些商业公司的工单系统靠谱多了。