谷歌AI模型跑分翻车：Gemini 3.5 Flash又贵又慢，DeepSeek性价比碾压

先说说背景

昨天谷歌更新了Android Bench榜单，本来以为自家Gemini 3.5 Flash能大杀四方，结果成绩一出来，好家伙，成本比其他模型贵了快18倍，跑分还只排第六。

这Android Bench是谷歌自己搞的，专门测AI模型在安卓开发场景里的表现，比那种纯刷分的人工智能测试靠谱多了。它模拟的是真实开发环境，你让模型写个界面、修个Bug、搭个框架，能真实反映出模型对开发者好不好用。

第一名是OpenAI的GPT-5.5，拿了74分。第二名两个并列——GPT-5.4和Gemini 3.1 Pro Preview，都是72.4分。接下来是Claude Opus 4.7和4.6，分别拿68.7和66.6。

而谷歌这次主推的Gemini 3.5 Flash呢？63.7分，第六名。

这就有点尴尬了。要知道在I/O大会上，谷歌可是把它吹得挺厉害的，说编码能力更稳，输出速度是GPT-5.5的4倍。结果在自己定的考题上，连前三都没进。

最离谱的不是分数，是钱。

跑完Android Bench这100道题，Gemini 3.5 Flash每轮平均烧掉147.1美元。什么概念呢？DeepSeek V4 Flash同样跑完一轮只要8.4美元。差了多少？17.5倍。

而且更气人的是，Gemini 3.1 Pro Preview成本只有3.5 Flash的三分之一，分数还更高。

所以我就不太理解了——花钱多、得分低，这Model到底适合谁用？

这次榜单上有几个国产模型也露了脸：

智谱GLM 5.1：59.7分，第七。Kimi K2.6：58.6分，第八。DeepSeek V4 Pro：55.4分，第十。DeepSeek V4 Flash：52.7分，第十二。

分数上DeepSeek V4 Flash不算出彩，但结合8.4美元的成本来看，性价比是真的能打。做个对比，Kimi K2.6的成本我没确切数据，但按市场价推算也不会这么便宜。

说实话，现在AI编程助手满天飞，价格差距大到离谱。如果你是个人开发者或者小团队，选模型光看跑分不看价格，分分钟把自己做亏了。

我自己的经验是，日常写代码、debug这种活儿，DeepSeek V4 Flash完全够用了。真要跑那种特别复杂的架构设计或者大项目重构，再上GPT-5.5或者Claude Opus，各司其职，还能省不少预算。

谷歌这次更新榜单，反而帮大家算了一笔账：贵的不一定好，便宜的也不一定差，关键看你怎么用。