我用了半天的Fable 5,发现护栏才是真正的故事
摘要
Anthropic的Fable 5模型展现了令人印象深刻的推理和上下文处理能力,但存在高延迟、高成本以及在特定领域静默回退到Opus 4.8的问题,这可能会中断工作流程。
Anthropic发布了Fable 5,我立刻把它换进了我们的开发栈。所有请求都通过zenmux上的一个端点路由,所以实际切换只是改了一个模型名称字符串,然后观察延迟图。先说好的部分,因为确实很多。我给了它一个重构任务:把一个混乱的Python服务拆分成模块,保留公共API,并编写测试证明没有任何破坏。Fable 5规划了整个方案,发现了一个我没提到的循环依赖,并验证了测试通过。用Opus 4.8时,我通常需要提醒它几次才能记得更新初始化文件。Fable 5直接就做完了。接着我把整个代码库扔给它,要求找出我们追查了一周的竞态条件。它追踪了异步流程,指出了具体的函数名,并描述了触发bug的交错顺序。这种上下文消化能力感觉很新颖。Opus的长上下文表现也不错,但Fable 5感觉是真的在整个窗口内推理,而不是在顶部附近做模式匹配。我还给它发了一张客户通话中的模糊仪表盘截图,它重建了HTML和echarts配置,连提示框格式都包含在内。我的设计师第一句话是“你什么时候学了前端?”我根本没学。但这是发布讨论里没人足够强调的部分:它很慢。在高努力模式下,一个复杂的单轮交互需要45到90秒。我们的延迟图从一条平坦的绿线变成了一个锯齿状的混乱图形,就在Fable 5流量涌入的那一刻。而且它很贵。同样一个在Opus 4.8上花费X的提示,在Fable 5上大约要花费1.4到1.7X,因为它生成更多token,并且默认运行在更高的努力层级上。它会把自己的推理过程写出来然后向你收费。对于研究任务,这个质量是值得的。对于“重写这封邮件”,这简直是杀鸡用牛刀。更大的问题是静默回退。Fable 5基本上就是加了护栏的Mythos。当你的提示涉及网络安全、生物学、化学或蒸馏时,它会静默地路由到Opus 4.8。没有任何警告。我是在调试一个预发布代理配置时发现这个问题的——完全是正常的内部工作——结果会话进行到一半,代码风格变了。检查元数据,果然在会话中途回退到了Opus 4.8,因为“代理”这个词触发了分类器。Anthropic表示全球范围内这类情况发生在不到5%的会话中,但在我的栈里接近15%,因为我们大量涉及基础设施和网络。当这种情况发生在任务中途时,模型切换会破坏上下文。我有一个四步的调试序列,其中第三步因为提到了防火墙规则而切换到了Opus,然后第四步又切换回来。状态虽然保留了,但语气和深度变化太大,我不得不重启会话。经过12小时的使用,我的结论是:如果你做纯软件工程、数据分析或安全领域的科学推理,Fable 5是我用过最好的模型,没有之一。但如果你涉及基础设施或安全,静默回退真的很烦人,你需要监控实际回答的是哪个模型。我们之所以能发现切换,是因为我们的网关记录了每次调用的跟踪信息。如果没有这个,你可能根本不会知道它已经切换了,直到语气改变。我会在非敏感的开发工作流中保持启用Fable 5。对于任何涉及基础设施的任务,我会明确路由到Opus 4.8,直到我更好地理解分类器的边界。Fable 5是个猛兽,但Anthropic需要在你问它时告诉你,其实并不是它在驾驶。
相似文章
Fable 5 的“安全笼”做了大量公关工作,却无人提及
Anthropic 发布了其最强大的模型 Fable 5,采用了一个由分类器构成的“安全笼”,将危险查询重定向到旧模型,而非让模型本身变得安全,同时还对所有流量强制实施 30 天数据保留,包括企业零保留协议。
Fable 5 的护栏在48小时内被绕过。这对构建面向客户的AI的人来说意味着什么。
Anthropic的Claude Fable 5安全护栏在48小时内被绕过,使用了Unicode替换和多轮分解等技术,突显了无状态分类器的弱点以及持续对抗性测试的必要性。
Fable 5 的真正故事在于数据保留条款
Anthropic 的 Claude Fable 5 版本之所以引人注目,不仅在于其能力,还在于其受控访问、数据保留策略和基础设施要求,这标志着向受控前沿 AI 部署的转变。
为什么 Fable 5 只包含到6月22日?Anthropic 真的认为这个模型太疯狂了吗?
Anthropic 的新模型,可能代号为 Fable 5,在主要 AI 基准测试中取得了尖端性能,在软件工程、长上下文任务中表现出色,并且仅提供到6月22日,引发了对其能力和局限性的疑问。
Anthropic Fable 5 的静默降级在24小时内被撤销,这更应引起你的担忧
Anthropic 匆忙在其 Fable 5 模型中针对 AI 研究工作实施了静默降级,但在遭到强烈反对后 24 小时内又撤销了。这揭示了一个令人不安的模式:平台对用户构建的上下文的控制,并引发了对 AI 公司信任的更深层次质疑。