AI模型的计算瓶颈终于被打破了？深入聊聊Subquadratic的稀疏注意力方案

大模型的计算瓶颈，终于有人下手了

不知道你有没有发现一件事——AI 模型越做越大，但每次跑起来那个速度，真的是急死人。

去年我拿一个百万 token 的文档让 GPT 帮我分析，结果等了快两分钟才出结果。我当时就在想，这玩意儿要是能快一点该多好。没想到，真有家公司站出来说：我们把这问题解决了。

这家公司叫 Subquadratic，总部在迈阿密。上个月它刚走出隐身模式，就扔了一个重磅炸弹——说自己破解了困住大模型将近十年的数学瓶颈。消息一出，整个 AI 圈都炸了。

当时没人信。搞 AI 的都知道，大模型的注意力机制（Attention）有个天生的问题：输入越长，计算量就呈平方级往上飙。一万个 token 要做近五千万次运算，这个叫"二次方瓶颈"，业内研究了这么多年，一直没找到真正能替代的方案。

但 Subquadratic 最近拿出了真东西。他们让第三方评测机构 Appen 给模型做了独立测试，结果还真挺能打的。

简单说两句。

现在的大模型基本都用 Transformer 架构，里面最核心的操作叫"密集注意力"——每个词要跟其它所有词做一次关联计算。这就像你读书的时候，把第一页第一行跟最后一页最后一行的每个字都对比一遍。没必要对吧？

Subquadratic 的做法叫"稀疏注意力"——它不是每个词都跟其它所有词算一遍，而是挑重要的来算。你想想，你读一本书的时候，也不会把第一个字和最后一个字的关联硬找出来。大多数关系根本就是废话。

听起来思路挺简单的。但问题是，之前很多公司都试过类似的方案，效果都不行——你挑得不准，模型的理解能力就大打折扣。Subquadratic 说他们搞了一个动态选择机制，不是固定的规则，而是根据每段文字的内容实时判断哪些关联重要。

至于具体怎么选的，他们说这是"秘方"，暂时不公开。

Appen 的测试结果显示了几件事：

在纯粹的运算速度上，SubQ 比现有的 FlashAttention（一种流行的稀疏注意力方案）快了 56 倍。不是 56%，是 56 倍。

在 LiveCodeBench 这个编程测试上，SubQ 拿到了 89.7%，跟当前最顶尖的模型在一个水平线上。Appen 的 AI 研究主管说，"这个模型持续展现了前沿级别的编程能力"。

成本方面更是夸张。Subquadratic 说用 Anthropic 的 Opus 4.6 跑完 Nvidia 的 RULER 128 测试要花 2600 美元，而 SubQ 只要 8 美元。差了三百多倍。

而且它支持高达 1200 万个 token 的上下文窗口，是目前主流模型的 12 倍。他们现场演示了一件事：让 SubQ 从 400 个文档里找出相关信息，几秒就搞定了。同样的任务扔给 Perplexity，直接提示加载不了。

Subquadratic 也有争议。他们不是从头训练的模型，而是用了中国开源模型 Qwen 的权重来做二次开发。这其实在业界挺常见的，但就跟它"彻底重构了大模型架构"的说法有点矛盾。

前 OpenAI 的研究员 Will Depue 是这么评价的："他们可能确实做出了有用又真实的东西。但从目前公开的证据来看，还不足以支撑他们已经解决了二次方注意力瓶颈这个说法。"

SubQ 目前还没开放公测，只有极少数人能用到。说真的，在更多人亲手试过之前，保持一点怀疑是正常的。毕竟"要么是 Transformer 以来最大的突破，要么是 AI 界的 Theranos"——这句评论确实代表了大多数人的心态。

说老实话，我觉得不管 SubQ 最终能不能成，这个方向是肯定的——大模型不能再这么无限制烧算力了。现在的训练成本高到什么程度？顶尖模型一次训练烧几千万美元都正常。稀疏注意力、更高效的计算架构，这条路早晚得走。

哪怕 Subquadratic 的方案最后被证伪了，它的思路也会启发后来的人。这个行业就是这样——每往前走一步，哪怕是错的，也是给后面的人探路。

我会持续关注 SubQ 的开放进度，到时候第一时间搞到手试试。有结果了再来跟你们聊。