benchmark-limitations

标签

Cards List
#benchmark-limitations

@Phoenixyin13: 认真读完了OpenAI 研究员 Noam Brown 今天的长帖,一个被行业严重低估的现实。 LLM 的真实能力天花板,远高于当前任何 benchmark 所显示的水平。 原因,是给它的test-time compute太少了。而随着模型…

X AI KOLs Timeline · 昨天 缓存

解读 OpenAI 研究员 Noam Brown 的观点:LLM 的真实能力天花板远高于当前基准测试显示的水平,因为 test-time compute 投入不足,而更强的模型从额外计算中获益更大。这对 AI 安全评估提出了严峻挑战,因为许多危险能力可能只在长时间、高计算预算下才显现。

0 人收藏 0 人点赞
#benchmark-limitations

@dunik_7:那场价值9万美元的斯坦福讲座,解释了为什么AI能通过所有基准测试,却在你的代码库上崩溃,刚刚发布……

X AI KOLs Timeline · 2026-05-22 缓存

一场由Percy Liang主讲的免费斯坦福讲座,关于AI泛化,解释了为什么模型在基准测试中表现出色,但在实际代码库中却失败,内容涵盖基准记忆、偏差-方差权衡和幻觉。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈