标签
Anchor是一个任务生成流水线,通过从单一的约束优化规范中联合生成指令、环境、解决方案和验证器,解决了AI智能体基准中的工件漂移问题,为企业工作流提供一致且可审计的评估任务。论文介绍了ERP-Bench——一个包含生产级ERP系统中300个长时任务的基准,结果显示前沿模型在26.1%的试验中满足显式约束,但仅17.4%的试验达到最优解。
TASTE是一种自动化方法,通过自适应对比n-gram建模和迭代难度优化来演化工具序列,从而生成覆盖更广工具使用、更具挑战性的智能体基准测试。生成的τ^c-Bench显示,在现有基准测试中几乎饱和的模型性能大幅下降,表明这是基准饱和而非模型具备稳健能力。
SynAE 是一个评估框架,用于衡量工具调用智能体评测中使用的合成数据的质量,从有效性、保真度和多样性等多个维度进行评估。它通过提供指导合成数据生成的指标,应对真实数据不足或敏感带来的挑战。
本文介绍了针对代理型计划-执行流水线的时序语义缓存与MCP工作流优化,在缓存命中时实现了高达30.6倍的加速,并在AssetOpsBench工业基准测试上实现了1.67倍的整体加速。