标签
讨论Fable 5的定价为Opus的两倍,目前通过Claude订阅免费至7月7日,之后按使用量计费,并提供切换建议。
一位用户报告称,Fable 5的新分类器将75%的编码会话错误地路由到Opus,将常规编码标记为网络安全风险,导致意外的高成本。
讨论开源模型级别,将DSV4-flash比作Sonnet 5,GLM 5.2比作Opus 4.8,并预测年底前会出现Fable级别的模型。
Claude Fable 在远程劳动自动化指数上取得 16.10% 的成绩,是次佳模型 Opus 的两倍
一条推文串,解释了如何在 Claude Code 中将 Fable 5 配置为编排器,Opus 和 Sonnet 作为子代理,以及 Codex 作为同级工程师,以优化模型使用和任务委派。
Alex Atallah 强调,每次任务的成本比每代币价格更有意义,引用 Terminal-Bench 的结果,其中 Haiku 的成本是 Opus 的10倍。
对比本地运行的Qwen3.6 27B和Opus 4.8,并重点介绍一个使用纯C语言且不依赖任何框架构建的体素引擎。
一则对比,指出 GPT 5.5 性能优于 GLM 5.2,而 GLM 5.2 又优于 Opus 4.8。
Anthropic原计划举办仅邀请全球顶级开发者的黑客松并提供Fable 5无限使用权,但因政府干预被叫停。开发者最终使用Opus 4.8替代,依然取得了不错的效果。
Fable 5 在视频生成基准测试中相比 Opus 4.8 整体有所改进,但 Gemini 3.1 Pro 展现了更多艺术视野,尽管在工具调用和编写有 bug 的代码方面存在问题。
一项比较表明,Google 的 Gemini 3.1 Pro 在实际使用中的表现远不如 Opus 4.7,文章强调 Artificial Analysis 是进行基准测试的首选资源。
用户抱怨Anthropic的Claude Opus模型质量持续下降,从4.7到4.8版本表现越来越差,考虑取消订阅。
EyeBench-V3 视觉基准测试评估了 Claude Opus 4.8,发现它仍然无法完成基本视觉任务,这与 IBench 类似。该基准测试是通过 Adonis Singh 的 Twitter 帖子介绍的。
YacineMTB 认为 GPT 5.5(可能是一个笔误)超越了 Anthropic 的 Opus 模型,暗示用户正在离开 Opus。Dylan Field 批评 Opus 4.8 好奇心下降,谄媚性增加。
Nick Kang 给他的推特基准测试集合新增了一个任务;Claude Opus 4.8 和其他 SOTA 模型通过了,而 Sonnet 4.6 和 Grok 4.3 失败了。Alfin 评论了 Opus 4.8 的危险能力。
Claude Opus 4.8 允许在对话中途添加系统指令而不破坏提示缓存,从而降低API请求的成本和延迟。
Opus 和 Qwen AI 编程代理在相同 bug 和仓库上的对比显示,一个代理完成速度提升了 7 倍,引发了关于单提示 GitHub 问题解决技巧的讨论。
Anthropic 发布 Claude Opus 4.8,基于 Opus 4.7 构建,判断更敏锐,独立工作能力更强,价格不变。
这条推文讨论了Claude Opus 4.8的发布,该版本在Opus 4.7的基础上提升了判断力并延长了独立工作能力,不过也指出在终端编码基准测试中,5.5版本仍然优于它。