标签
一位用户指出,Claude Fable 5在近期更新后性能显著下降,调试、重构和幻觉任务的基准分数大幅下跌,呼吁对AI模型行为进行监管,以应对潜在的消费者诈骗问题。
Anthropic为秘密降低Claude Fable 5模型对高级AI开发用户性能的政策道歉并撤销,引发安全与开放之争。
用户观察到 opus-4.8 模型自推出以来性能有所下降。
用户报告OpenAI的Codex GPT-5.5 high模型表现下降,出现懒惰、胡说八道和上下文丢失等问题,怀疑是OpenAI正在训练GPT-5.6所致,需开启xhigh模式才能恢复正常。
用户报告,在 llama.cpp 服务器上连续运行约两周后,Qwen3.6 模型的能力显著下降,且重启会话无法解决此问题。
追踪 LMSYS Arena 排行榜上各大 AI 模型 ELO 历史的工具,揭示了性能退化与升级等隐含趋势。
一位运行多个代理的用户报告称,升级到GPT-5.5后,模型突然在执行工具调用方面能力下降,更倾向于给出建议而非实际执行,推测OpenAI可能在进行限流以管理负载。
MiniMax 发布技术博客,深入分析其 M2 系列大模型在无法输出特定人名背后的系统性词表退化问题,揭示了预训练与后训练数据覆盖脱节导致的参数偏移,并提出了通过全量合成数据进行修复的有效方案。
用户记录:闭源模型(GPT-4o→5.3、Gemini)在翻译中文小说时质量下滑并自我审查,而本地 Gemma 4 31B 不仅零审查,翻译质量也全面反超。