国内大模型降本新思路：百度搭子DuMate把Token消耗砍到只剩四分之一

国内大模型降本新思路：百度搭子DuMate用Harness引擎把Token消耗砍到只剩四分之一

做AI应用的朋友应该都有体会——API调用一时爽，月底账单火葬场。

大模型能力越来越强，但Token也越来越贵。特别是一些需要多轮对话、联网搜索、工具调用的Agent产品，每次任务跑下来，消耗的Token数量动不动就上万。用户用得爽了，开发者的钱包却在默默流血。

但前几天我看到一个有意思的消息——百度搭子DuMate最近完成了核心引擎升级，把任务执行过程中的Token消耗直接降低了75%。没错，是四分之一，不是十分之一。

百度搭子DuMate是百度推出的一款通用智能体产品，功能上有点类似微信里的AI助手。根据官方公布的信息，这次的核心引擎升级主要围绕一个叫"Harness引擎"的东西。

说人话就是：把大模型的工作流程重新梳理了一遍，去掉了很多不必要的中间步骤。

我之前做过一段时间AI应用的开发，对这种优化深有体会。很多Agent产品的问题在于，每次用户说一句话，模型就得把整个上下文重新读一遍，然后思考、组织语言、输出。如果中间涉及到调用外部工具或者联网查询，这个过程的Token消耗会成倍增加。

DuMate的做法是把这些流程拆解优化，在不影响最终效果的前提下，把那些浪费掉的Token给省下来。说白了就是精度管理——有些步骤用全量模型跑，有些步骤用轻量模型接，复杂任务分拆执行，减少不必要的上下文重复。

最让我觉得厉害的是，官方说的是"在保障Agent智能能力与任务执行效果不受影响的前提下"实现的这个降幅。也就是说，不是你牺牲了质量换来的省钱，而是纯粹靠工程优化实现的。

从开发者的角度来说，这其实是一个非常务实的思路。很多团队做大模型应用，第一反应就是堆参数、堆prompt、上最强的模型。真正开始做工程优化、做成本控制的，反而不是太多。

据说这也是国内通用智能体产品中，第一次通过这种引擎级的工程优化实现了这么大幅度的Token消耗下降。

说实话，看到这个消息我挺有感触的。做AI应用的人都知道，现在API调用的成本是一个真实存在的瓶颈。特别是一些想做C端产品的团队，如果单次交互成本下不来，用户规模一大，要么你自己亏死，要么定价太高没人用。

DuMate这次的优化思路，其实给国内做AI应用的团队指了一条路：不一定非得等模型降价，把工程层面的优化做深做透，成本照样能打下来。

我自己的经验也是这样。之前帮朋友一个小项目做接入，一开始直接用最贵的模型跑全流程，一个月API费用两三万。后来花了两周做了prompt精简和缓存策略，直接砍到了一万出头。再后来上了多模型分级调度，同样的效果，成本变成三四千。说白了，工程优化才是真正的护城河。

模型的能力会越来越强，价格也会越来越低。但在价格降到白菜价之前，先把工程优化做起来，少走弯路少花冤枉钱，这才是正经事。