agent-science

标签

Cards List
#agent-science

逆评分优化:智能体科学的测试平台

Hacker News Top · 2026-06-11 缓存

Fulcrum Research 提出了逆评分优化(IRO),这是一个用于研究长期智能体行为的测试平台,其中智能体必须优化黑箱法官的偏好。该方法实现了平滑扩展和丰富的行为分析,实验表明,Fable 5 和 Opus 4.6 等前沿模型具有不同的扩展特性。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈