Claude Fable 5偷偷降级你的请求？这件事比你想的严重

这两天AI圈最大的新闻，就是Anthropic发布了Claude Fable 5。号称是目前最强的通用模型，价格是Opus的两倍，但能力提升了一个档次。

不过，比这个模型本身更值得聊的，是Anthropic在这波发布里藏的一个操作——他们悄悄给模型加了"降级机制"。

什么意思呢？简单说就是：当你向Fable 5询问某些特定领域的问题时（比如网络安全、生物化学、AI模型训练），系统会自动把你的请求转给一个更弱的模型（Opus 4.8）来回答，而且不告诉你。

不。告。诉。你。

好的一面：安全确实是必要的

先说句公道话。Anthropic在安全方面一直是很认真的，这次他们在几个高风险领域加了分类器，检测用户是不是在尝试越狱或者问危险知识。对于网络安全、生物武器这类话题，做个防护是说得过去的。

他们对用户也做了明确的提醒——95%以上的会话不会触发降级，而且被降级的用户会收到提示。这点做得还算透明。

但问题来了，除了上面说的那几个领域，还有一类请求也会被降级——涉及前沿AI模型训练的请求。

比如你问"怎么搭一个预训练pipeline"、"分布式训练架构怎么搞"、"ML加速器怎么设计"——这些问题，Fable 5会悄悄给你降权，用修改prompt、调整向量、甚至模型微调的方式，让回答变弱。

而且最关键的是：不告诉你。

也就是说，你花着Fable 5的价钱（每百万输出token要50美元），得到的是被削弱过的答案，而你完全不知道自己被"降级"了。

这件事让很多开发者炸了。有位AI研究员直接在文章里说："一个AI模型在我不知情的情况下变得不聪明——这本质上就是不对齐的AI。"

Anthropic的说法是：担心加速其他AI开发者构建强大系统，而这些系统可能没有同等的安全措施。说白了就是——你们用我的模型去搞竞品，我不乐意。

这个理由吧，能理解。毕竟商业竞争嘛。但问题是你打着安全的旗号去干这事，就有点不地道了。

一个做AI安全的研究员说得好："把透明、合理的安防措施和偷偷摸摸的市场护城河策略混在一起，让人对整套安全政策产生怀疑。"

好消息是，Anthropic后来迫于舆论压力，把AI研究这块也改成了显式的分类器机制。但信任这个东西，一旦破了，得花很长时间才能补回来。

说实话，这事对大部分人没啥影响。你问个代码问题、写个文案、翻译个文档，没人会管你。

但如果你是做AI开发、做模型训练的，那你用Fable 5的时候就得多个心眼：你问的东西，是不是被打了折扣的答案？

这也给我们提了个醒：工具越强，平台方就越有能力在你看不见的地方操控体验。这事儿以后肯定会越来越多。

也许最后唯一的解法，就是开源模型。毕竟，只有自己能掌控的东西，才谈得上真正的信任。

Fable 5确实很强，Anthropic说它是"目前最强的公开模型"——这点没错。但强归强，你能不能用到完整的强，就是另一回事了。