AI智能体到底有多能打？哈佛和Perplexity测了一万组数据

AI智能体

最近看到一篇有意思的研究报告，哈佛大学跟Perplexity联手，筛了一万组真实的生产数据，对比了对话式AI和AI智能体在实际工作中到底谁更管用。结果说实话，比我想象中要夸张不少。

先说结论：智能体不是噱头，是真能顶用

研究分了两条路——Perplexity Search（对话式答案引擎）和Perplexity Computer（能自己规划、执行、调工具的智能体系统）。时间窗口是90天，从今年2月底到5月底。

光是看"干活时长"就挺惊人：智能体单次会话平均机器工作时长26分钟，对话式搜索只有33秒，差了将近48倍。本地任务差距更大，足足75倍。讲道理，看到这个数字我第一反应是——这得烧多少token啊。

但接着往下看，有意思的来了。智能体的"有效不满率"反而是1.3%，比对话式搜索的2.9%还低。说白了就是，自主性提高了，质量并没有跟着掉。这跟我之前想的有点不一样，我原来以为自动化程度越高，翻车的概率越大，看来是我多虑了。

研究还估算了两种模式的完成路径。Search加上人工介入，平均每个任务要269分钟；换成Computer加人工，只要36分钟。时间缩短了87%。这个效率提升说实话挺吓人的。

成本方面更有意思。智能体单次调用的模型成本确实贵，大概4到10美元，Search只要5美分左右。但智能体大幅压低了每步的人工成本——从2.05美元降到了0.16美元。总账一算，成本下降了94%。

我找几个做AI应用的朋友聊了聊，大家的反馈差不多：如果你的任务就是"查一下今天天气"这种一句话能说清楚的事，对话式搜索完全够用。但要是"帮我分析一下这三个月的数据，画个图表，再写个摘要发到群里"这种多步骤的活，那智能体的优势就完全出来了。

研究最后提了一个挺到位的观点：短小、单步、可直接回答的问题，适合对话式搜索；步骤多、需要调用工具、跨知识域协作的工作，交给智能体更划算。

这个结论看起来很朴实，但我觉得背后反映了一个趋势。以前我们说AI是工具，你得告诉它每一步怎么做。现在智能体开始像一个"实习生"了——你告诉它目标，它自己想办法。当然，这个"实习生"偶尔也会犯错，但综合下来，性价比确实在往好的方向走。

我自己的感受是，今年下半年开始，AI智能体的成熟度明显上了一个台阶。不是那种demo看起来很牛实际用起来就崩的节奏，而是真的能丢给它的日常任务越来越多了。当然，关键环节还是得人盯着，但"人在回路中"的含义确实在变——从"人负责修AI的bug"，慢慢转向"人负责给AI指方向"。

这个转变可能比我们想象的要快。