AI智能体到底有多能打?哈佛和Perplexity测了一万组数据
技术笔记 0 次阅读

AI智能体到底有多能打?哈佛和Perplexity测了一万组数据

AI智能体

AI智能体到底有多能打?哈佛和Perplexity测了一万组数据

最近看到一篇有意思的研究报告,哈佛大学跟Perplexity联手,筛了一万组真实的生产数据,对比了对话式AI和AI智能体在实际工作中到底谁更管用。结果说实话,比我想象中要夸张不少。

先说结论:智能体不是噱头,是真能顶用

研究分了两条路——Perplexity Search(对话式答案引擎)和Perplexity Computer(能自己规划、执行、调工具的智能体系统)。时间窗口是90天,从今年2月底到5月底。

光是看"干活时长"就挺惊人:智能体单次会话平均机器工作时长26分钟,对话式搜索只有33秒,差了将近48倍。本地任务差距更大,足足75倍。讲道理,看到这个数字我第一反应是——这得烧多少token啊。

但接着往下看,有意思的来了。智能体的"有效不满率"反而是1.3%,比对话式搜索的2.9%还低。说白了就是,自主性提高了,质量并没有跟着掉。这跟我之前想的有点不一样,我原来以为自动化程度越高,翻车的概率越大,看来是我多虑了。

省了多少时间和钱?数据是真金白银

研究还估算了两种模式的完成路径。Search加上人工介入,平均每个任务要269分钟;换成Computer加人工,只要36分钟。时间缩短了87%。这个效率提升说实话挺吓人的。

成本方面更有意思。智能体单次调用的模型成本确实贵,大概4到10美元,Search只要5美分左右。但智能体大幅压低了每步的人工成本——从2.05美元降到了0.16美元。总账一算,成本下降了94%。

我找几个做AI应用的朋友聊了聊,大家的反馈差不多:如果你的任务就是"查一下今天天气"这种一句话能说清楚的事,对话式搜索完全够用。但要是"帮我分析一下这三个月的数据,画个图表,再写个摘要发到群里"这种多步骤的活,那智能体的优势就完全出来了。

对普通开发者意味着什么

研究最后提了一个挺到位的观点:短小、单步、可直接回答的问题,适合对话式搜索;步骤多、需要调用工具、跨知识域协作的工作,交给智能体更划算。

这个结论看起来很朴实,但我觉得背后反映了一个趋势。以前我们说AI是工具,你得告诉它每一步怎么做。现在智能体开始像一个"实习生"了——你告诉它目标,它自己想办法。当然,这个"实习生"偶尔也会犯错,但综合下来,性价比确实在往好的方向走。

我自己的感受是,今年下半年开始,AI智能体的成熟度明显上了一个台阶。不是那种demo看起来很牛实际用起来就崩的节奏,而是真的能丢给它的日常任务越来越多了。当然,关键环节还是得人盯着,但"人在回路中"的含义确实在变——从"人负责修AI的bug",慢慢转向"人负责给AI指方向"。

这个转变可能比我们想象的要快。

分享

评论 (0)

评论通过后显示

暂无评论,来写第一条吧 ✍️