reward-verification

标签

Cards List
#reward-verification

Anchor:缓解智能体基准生成中的工件漂移

arXiv cs.AI · 2026-05-27 缓存

Anchor是一个任务生成流水线,通过从单一的约束优化规范中联合生成指令、环境、解决方案和验证器,解决了AI智能体基准中的工件漂移问题,为企业工作流提供一致且可审计的评估任务。论文介绍了ERP-Bench——一个包含生产级ERP系统中300个长时任务的基准,结果显示前沿模型在26.1%的试验中满足显式约束,但仅17.4%的试验达到最优解。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈