
大模型的计算瓶颈终于有人突破了?聊聊Subquadratic的稀疏注意力方案
上个月AI圈出了件不大不小的事——一家叫Subquadratic的创业公司从隐身模式跳了出来,张嘴就说自己解决了大语言模型已经卡了快十年的数学瓶颈。说实话,一开始我是不信的。毕竟这种剧本在AI领域太常见了,隔三差五就有人跳出来说"我们找到了更便宜更快的方法",最后大多不了了之。
但这次有点不一样。他们最近开始公开技术细节了,我仔细看了看,觉得这事确实值得聊聊。
先说清楚问题在哪里。现在所有的大语言模型,包括GPT、Claude、Gemini这些,底层几乎都跑在一种叫Transformer的架构上。Transformer里面有个核心环节叫"注意力机制",简单理解就是模型在生成每一个词的时候,都需要回头看一遍之前所有的内容,判断哪些信息更重要。
这个回头看的过程,计算量是随着上下文长度呈平方增长的。上下文翻一倍,计算量翻四倍。所以为什么你在用AI的时候,长文本任务特别慢,而且贵得离谱?瓶颈就在这里。
Subquadratic的方案,说白了就是把这个平方增长砍成了线性增长。如果按他们公布的数据,一个原本需要1000次运算的注意力计算,现在只需要不到100次。省出来的不是一星半点,而是数量级的差距。
他们用了什么技术?学术界早就有过讨论——稀疏注意力。不是每个词都需要和其他所有词建立关联,大多数情况下,真正重要的关联其实很稀疏。问题是之前的稀疏方案要么精度损失太大,要么实现起来太复杂,在实际部署中表现并不理想。
Subquadratic说他们在数学上找到了一个更好的近似方法,在保持精度的前提下,把计算量大幅降了下来。按照他们放出的benchmark,在长文本任务上,他们的方案比标准Transformer快5到10倍,能耗减少了将近80%。
当然,质疑的声音也不少。我翻了几个圈内学者的反应,核心质疑集中在两点:一是这个方案在标准测试集上的表现是不是真的有说服力,二是它能不能在大规模模型上真正落地,而不仅仅停留在论文阶段。
说实话,这些质疑都是有道理的。AI领域从来不缺看起来很美的新技术,缺的是能真正经过大规模验证、稳定跑在生产环境里的方案。但Subquadratic起码已经开始公开技术细节了,这比那些永远"保密"的公司强不少。
我个人的判断是,就算Subquadratic最终没能替代Transformer,这个方向——降低注意力机制的计算复杂度——绝对是正确的。不管是谁先做到,这件事迟早会发生。因为大模型越走越深,计算成本越来越高,这条路不打通,整个行业的发展都会碰壁。
后面我会持续关注他们的进展,如果真的有突破性成果了,再和大家聊。
评论 (0)
暂无评论,来写第一条吧 ✍️