还有人觉得AI基准测试在预测实际性能方面越来越没用了吗？

Reddit r/ArtificialInteligence 2026/05/07 22:07 新闻

摘要

本文讨论了AI基准测试高分与实际真实表现之间日益扩大的差距，重点强调了诸如一致性、延迟和上下文处理等问题。

最近很多模型在基准测试中得分极高，但实际日常使用体验往往与排行榜预期相去甚远。实践中，团队似乎更关注以下方面： * 长时间会话的一致性 * 延迟 * 上下文处理 * 工具使用可靠性 * 成本效率 * 模型从错误中恢复的能力 * 开发者工作流质量有些模型在演示/评估中表现惊人，但在持续的真实使用中变得令人沮丧，因为它们： * 过度解释 * 在长上下文中失去焦点 * 变得重复 * 难以处理需要编排的任务感觉我们可能正在进入一个阶段，基础设施+工作流质量几乎与原始模型智能同样重要。很好奇其他人是否也注意到同样的情况，或者基准测试仍然与您的真实体验紧密匹配？

查看原文

还有人觉得AI基准测试在预测实际性能方面越来越没用了吗？

相似文章

AI基准测试不如模型能否处理乏味的现实责任重要

感觉AI正在进入其“基础设施问题”阶段

AI系统常以测试中不显现的方式失败？

(吐槽；)) 让你的基准测试更贴近现实

2026年，所有人都在追踪关于AI进步的错误指标。基准测试之战的重要性远不及发生在它们下面一层的事情。

提交意见反馈