谷歌AI模型跑分翻车:Gemini 3.5 Flash又贵又慢,DeepSeek性价比碾压
技术笔记 1 次阅读

谷歌AI模型跑分翻车:Gemini 3.5 Flash又贵又慢,DeepSeek性价比碾压

封面图

先说说背景

昨天谷歌更新了Android Bench榜单,本来以为自家Gemini 3.5 Flash能大杀四方,结果成绩一出来,好家伙,成本比其他模型贵了快18倍,跑分还只排第六。

这Android Bench是谷歌自己搞的,专门测AI模型在安卓开发场景里的表现,比那种纯刷分的人工智能测试靠谱多了。它模拟的是真实开发环境,你让模型写个界面、修个Bug、搭个框架,能真实反映出模型对开发者好不好用。

榜单到底啥情况?

第一名是OpenAI的GPT-5.5,拿了74分。第二名两个并列——GPT-5.4和Gemini 3.1 Pro Preview,都是72.4分。接下来是Claude Opus 4.7和4.6,分别拿68.7和66.6。

而谷歌这次主推的Gemini 3.5 Flash呢?63.7分,第六名。

这就有点尴尬了。要知道在I/O大会上,谷歌可是把它吹得挺厉害的,说编码能力更稳,输出速度是GPT-5.5的4倍。结果在自己定的考题上,连前三都没进。

重点在成本

最离谱的不是分数,是钱。

跑完Android Bench这100道题,Gemini 3.5 Flash每轮平均烧掉147.1美元。什么概念呢?DeepSeek V4 Flash同样跑完一轮只要8.4美元。差了多少?17.5倍

而且更气人的是,Gemini 3.1 Pro Preview成本只有3.5 Flash的三分之一,分数还更高。

所以我就不太理解了——花钱多、得分低,这Model到底适合谁用?

国产模型表现怎么样

这次榜单上有几个国产模型也露了脸:

智谱GLM 5.1:59.7分,第七。Kimi K2.6:58.6分,第八。DeepSeek V4 Pro:55.4分,第十。DeepSeek V4 Flash:52.7分,第十二。

分数上DeepSeek V4 Flash不算出彩,但结合8.4美元的成本来看,性价比是真的能打。做个对比,Kimi K2.6的成本我没确切数据,但按市场价推算也不会这么便宜。

对开发者来说意味着什么

说实话,现在AI编程助手满天飞,价格差距大到离谱。如果你是个人开发者或者小团队,选模型光看跑分不看价格,分分钟把自己做亏了。

我自己的经验是,日常写代码、debug这种活儿,DeepSeek V4 Flash完全够用了。真要跑那种特别复杂的架构设计或者大项目重构,再上GPT-5.5或者Claude Opus,各司其职,还能省不少预算。

谷歌这次更新榜单,反而帮大家算了一笔账:贵的不一定好,便宜的也不一定差,关键看你怎么用。

分享

评论 (0)

评论通过后显示

暂无评论,来写第一条吧 ✍️