大模型的计算瓶颈终于有人突破了？聊聊Subquadratic的稀疏注意力方案

上个月AI圈出了件不大不小的事——一家叫Subquadratic的创业公司从隐身模式跳了出来，张嘴就说自己解决了大语言模型已经卡了快十年的数学瓶颈。说实话，一开始我是不信的。毕竟这种剧本在AI领域太常见了，隔三差五就有人跳出来说"我们找到了更便宜更快的方法"，最后大多不了了之。

但这次有点不一样。他们最近开始公开技术细节了，我仔细看了看，觉得这事确实值得聊聊。

先说清楚问题在哪里。现在所有的大语言模型，包括GPT、Claude、Gemini这些，底层几乎都跑在一种叫Transformer的架构上。Transformer里面有个核心环节叫"注意力机制"，简单理解就是模型在生成每一个词的时候，都需要回头看一遍之前所有的内容，判断哪些信息更重要。

这个回头看的过程，计算量是随着上下文长度呈平方增长的。上下文翻一倍，计算量翻四倍。所以为什么你在用AI的时候，长文本任务特别慢，而且贵得离谱？瓶颈就在这里。

Subquadratic的方案，说白了就是把这个平方增长砍成了线性增长。如果按他们公布的数据，一个原本需要1000次运算的注意力计算，现在只需要不到100次。省出来的不是一星半点，而是数量级的差距。

他们用了什么技术？学术界早就有过讨论——稀疏注意力。不是每个词都需要和其他所有词建立关联，大多数情况下，真正重要的关联其实很稀疏。问题是之前的稀疏方案要么精度损失太大，要么实现起来太复杂，在实际部署中表现并不理想。

Subquadratic说他们在数学上找到了一个更好的近似方法，在保持精度的前提下，把计算量大幅降了下来。按照他们放出的benchmark，在长文本任务上，他们的方案比标准Transformer快5到10倍，能耗减少了将近80%。

当然，质疑的声音也不少。我翻了几个圈内学者的反应，核心质疑集中在两点：一是这个方案在标准测试集上的表现是不是真的有说服力，二是它能不能在大规模模型上真正落地，而不仅仅停留在论文阶段。

说实话，这些质疑都是有道理的。AI领域从来不缺看起来很美的新技术，缺的是能真正经过大规模验证、稳定跑在生产环境里的方案。但Subquadratic起码已经开始公开技术细节了，这比那些永远"保密"的公司强不少。

我个人的判断是，就算Subquadratic最终没能替代Transformer，这个方向——降低注意力机制的计算复杂度——绝对是正确的。不管是谁先做到，这件事迟早会发生。因为大模型越走越深，计算成本越来越高，这条路不打通，整个行业的发展都会碰壁。

后面我会持续关注他们的进展，如果真的有突破性成果了，再和大家聊。