agent-science

#agent-science

逆评分优化：智能体科学的测试平台

Hacker News Top ↗ · 2026-06-11 缓存

Fulcrum Research 提出了逆评分优化（IRO），这是一个用于研究长期智能体行为的测试平台，其中智能体必须优化黑箱法官的偏好。该方法实现了平滑扩展和丰富的行为分析，实验表明，Fable 5 和 Opus 4.6 等前沿模型具有不同的扩展特性。

0 人收藏 0 人点赞