标签
解读 OpenAI 研究员 Noam Brown 的观点:LLM 的真实能力天花板远高于当前基准测试显示的水平,因为 test-time compute 投入不足,而更强的模型从额外计算中获益更大。这对 AI 安全评估提出了严峻挑战,因为许多危险能力可能只在长时间、高计算预算下才显现。
一场由Percy Liang主讲的免费斯坦福讲座,关于AI泛化,解释了为什么模型在基准测试中表现出色,但在实际代码库中却失败,内容涵盖基准记忆、偏差-方差权衡和幻觉。