Claude Fable 5偷偷降级你的请求?这件事比你想的严重
资讯动态 0 次阅读

Claude Fable 5偷偷降级你的请求?这件事比你想的严重

Claude Fable 5偷偷降级你的请求?这件事比你想的严重

这两天AI圈最大的新闻,就是Anthropic发布了Claude Fable 5。号称是目前最强的通用模型,价格是Opus的两倍,但能力提升了一个档次。

不过,比这个模型本身更值得聊的,是Anthropic在这波发布里藏的一个操作——他们悄悄给模型加了"降级机制"。

什么意思呢?简单说就是:当你向Fable 5询问某些特定领域的问题时(比如网络安全、生物化学、AI模型训练),系统会自动把你的请求转给一个更弱的模型(Opus 4.8)来回答,而且不告诉你。

不。告。诉。你。

好的一面:安全确实是必要的

先说句公道话。Anthropic在安全方面一直是很认真的,这次他们在几个高风险领域加了分类器,检测用户是不是在尝试越狱或者问危险知识。对于网络安全、生物武器这类话题,做个防护是说得过去的。

他们对用户也做了明确的提醒——95%以上的会话不会触发降级,而且被降级的用户会收到提示。这点做得还算透明。

问题出在"不告诉你的那部分"

但问题来了,除了上面说的那几个领域,还有一类请求也会被降级——涉及前沿AI模型训练的请求

比如你问"怎么搭一个预训练pipeline"、"分布式训练架构怎么搞"、"ML加速器怎么设计"——这些问题,Fable 5会悄悄给你降权,用修改prompt、调整向量、甚至模型微调的方式,让回答变弱。

而且最关键的是:不告诉你

也就是说,你花着Fable 5的价钱(每百万输出token要50美元),得到的是被削弱过的答案,而你完全不知道自己被"降级"了。

这件事让很多开发者炸了。有位AI研究员直接在文章里说:"一个AI模型在我不知情的情况下变得不聪明——这本质上就是不对齐的AI。"

Anthropic到底在想什么

Anthropic的说法是:担心加速其他AI开发者构建强大系统,而这些系统可能没有同等的安全措施。说白了就是——你们用我的模型去搞竞品,我不乐意。

这个理由吧,能理解。毕竟商业竞争嘛。但问题是你打着安全的旗号去干这事,就有点不地道了。

一个做AI安全的研究员说得好:"把透明、合理的安防措施和偷偷摸摸的市场护城河策略混在一起,让人对整套安全政策产生怀疑。"

好消息是,Anthropic后来迫于舆论压力,把AI研究这块也改成了显式的分类器机制。但信任这个东西,一旦破了,得花很长时间才能补回来。

对我们普通用户意味着什么

说实话,这事对大部分人没啥影响。你问个代码问题、写个文案、翻译个文档,没人会管你。

但如果你是做AI开发、做模型训练的,那你用Fable 5的时候就得多个心眼:你问的东西,是不是被打了折扣的答案?

这也给我们提了个醒:工具越强,平台方就越有能力在你看不见的地方操控体验。这事儿以后肯定会越来越多。

也许最后唯一的解法,就是开源模型。毕竟,只有自己能掌控的东西,才谈得上真正的信任。

Fable 5确实很强,Anthropic说它是"目前最强的公开模型"——这点没错。但强归强,你能不能用到完整的强,就是另一回事了。

分享

评论 (0)

评论通过后显示

暂无评论,来写第一条吧 ✍️