AI模型的计算瓶颈终于被打破了?深入聊聊Subquadratic的稀疏注意力方案
技术笔记 7 次阅读

AI模型的计算瓶颈终于被打破了?深入聊聊Subquadratic的稀疏注意力方案

AI模型计算瓶颈终于被打破了

大模型的计算瓶颈,终于有人下手了

不知道你有没有发现一件事——AI 模型越做越大,但每次跑起来那个速度,真的是急死人。

去年我拿一个百万 token 的文档让 GPT 帮我分析,结果等了快两分钟才出结果。我当时就在想,这玩意儿要是能快一点该多好。没想到,真有家公司站出来说:我们把这问题解决了。

这家公司叫 Subquadratic,总部在迈阿密。上个月它刚走出隐身模式,就扔了一个重磅炸弹——说自己破解了困住大模型将近十年的数学瓶颈。消息一出,整个 AI 圈都炸了。

当时没人信。搞 AI 的都知道,大模型的注意力机制(Attention)有个天生的问题:输入越长,计算量就呈平方级往上飙。一万个 token 要做近五千万次运算,这个叫"二次方瓶颈",业内研究了这么多年,一直没找到真正能替代的方案。

但 Subquadratic 最近拿出了真东西。他们让第三方评测机构 Appen 给模型做了独立测试,结果还真挺能打的。

稀疏注意力,到底是个啥?

简单说两句。

现在的大模型基本都用 Transformer 架构,里面最核心的操作叫"密集注意力"——每个词要跟其它所有词做一次关联计算。这就像你读书的时候,把第一页第一行跟最后一页最后一行的每个字都对比一遍。没必要对吧?

Subquadratic 的做法叫"稀疏注意力"——它不是每个词都跟其它所有词算一遍,而是挑重要的来算。你想想,你读一本书的时候,也不会把第一个字和最后一个字的关联硬找出来。大多数关系根本就是废话。

听起来思路挺简单的。但问题是,之前很多公司都试过类似的方案,效果都不行——你挑得不准,模型的理解能力就大打折扣。Subquadratic 说他们搞了一个动态选择机制,不是固定的规则,而是根据每段文字的内容实时判断哪些关联重要。

至于具体怎么选的,他们说这是"秘方",暂时不公开。

独立评测数据,确实有点东西

Appen 的测试结果显示了几件事:

在纯粹的运算速度上,SubQ 比现有的 FlashAttention(一种流行的稀疏注意力方案)快了 56 倍。不是 56%,是 56 倍。

在 LiveCodeBench 这个编程测试上,SubQ 拿到了 89.7%,跟当前最顶尖的模型在一个水平线上。Appen 的 AI 研究主管说,"这个模型持续展现了前沿级别的编程能力"。

成本方面更是夸张。Subquadratic 说用 Anthropic 的 Opus 4.6 跑完 Nvidia 的 RULER 128 测试要花 2600 美元,而 SubQ 只要 8 美元。差了三百多倍。

而且它支持高达 1200 万个 token 的上下文窗口,是目前主流模型的 12 倍。他们现场演示了一件事:让 SubQ 从 400 个文档里找出相关信息,几秒就搞定了。同样的任务扔给 Perplexity,直接提示加载不了。

但还是有人不买账

Subquadratic 也有争议。他们不是从头训练的模型,而是用了中国开源模型 Qwen 的权重来做二次开发。这其实在业界挺常见的,但就跟它"彻底重构了大模型架构"的说法有点矛盾。

前 OpenAI 的研究员 Will Depue 是这么评价的:"他们可能确实做出了有用又真实的东西。但从目前公开的证据来看,还不足以支撑他们已经解决了二次方注意力瓶颈这个说法。"

SubQ 目前还没开放公测,只有极少数人能用到。说真的,在更多人亲手试过之前,保持一点怀疑是正常的。毕竟"要么是 Transformer 以来最大的突破,要么是 AI 界的 Theranos"——这句评论确实代表了大多数人的心态。

我个人的判断

说老实话,我觉得不管 SubQ 最终能不能成,这个方向是肯定的——大模型不能再这么无限制烧算力了。现在的训练成本高到什么程度?顶尖模型一次训练烧几千万美元都正常。稀疏注意力、更高效的计算架构,这条路早晚得走。

哪怕 Subquadratic 的方案最后被证伪了,它的思路也会启发后来的人。这个行业就是这样——每往前走一步,哪怕是错的,也是给后面的人探路。

我会持续关注 SubQ 的开放进度,到时候第一时间搞到手试试。有结果了再来跟你们聊。

分享

评论 (0)

评论通过后显示

暂无评论,来写第一条吧 ✍️