agent-benchmarks

#agent-benchmarks

Anchor：缓解智能体基准生成中的工件漂移

arXiv cs.AI ↗ · 2026-05-27 缓存

Anchor是一个任务生成流水线，通过从单一的约束优化规范中联合生成指令、环境、解决方案和验证器，解决了AI智能体基准中的工件漂移问题，为企业工作流提供一致且可审计的评估任务。论文介绍了ERP-Bench——一个包含生产级ERP系统中300个长时任务的基准，结果显示前沿模型在26.1%的试验中满足显式约束，但仅17.4%的试验达到最优解。

0 人收藏 0 人点赞

#agent-benchmarks

关于TASTE：提升智能体基准测试的覆盖度与难度

Hugging Face Daily Papers ↗ · 2026-05-27 缓存

TASTE是一种自动化方法，通过自适应对比n-gram建模和迭代难度优化来演化工具序列，从而生成覆盖更广工具使用、更具挑战性的智能体基准测试。生成的τ^c-Bench显示，在现有基准测试中几乎饱和的模型性能大幅下降，表明这是基准饱和而非模型具备稳健能力。

0 人收藏 0 人点赞

#agent-benchmarks

SynAE：一种用于评估工具调用智能体评测中合成数据质量的框架

arXiv cs.CL ↗ · 2026-05-22 缓存

SynAE 是一个评估框架，用于衡量工具调用智能体评测中使用的合成数据的质量，从有效性、保真度和多样性等多个维度进行评估。它通过提供指导合成数据生成的指标，应对真实数据不足或敏感带来的挑战。

0 人收藏 0 人点赞

#agent-benchmarks

评估代理型计划-执行流水线中的时序语义缓存与工作流优化

Hugging Face Daily Papers ↗ · 2026-05-20 缓存

本文介绍了针对代理型计划-执行流水线的时序语义缓存与MCP工作流优化，在缓存命中时实现了高达30.6倍的加速，并在AssetOpsBench工业基准测试上实现了1.67倍的整体加速。

0 人收藏 0 人点赞

#agent-benchmarks

交互式评估需要设计科学

Hugging Face Daily Papers ↗ · 2026-05-18 缓存

本立场论文认为，交互式AI评估应被视为一种设计科学范式，提出了用于通过轨迹评估动态系统行为的双轴分类法和报告标准。

0 人收藏 0 人点赞

agent-benchmarks

Anchor：缓解智能体基准生成中的工件漂移

关于TASTE：提升智能体基准测试的覆盖度与难度

SynAE：一种用于评估工具调用智能体评测中合成数据质量的框架

评估代理型计划-执行流水线中的时序语义缓存与工作流优化

交互式评估需要设计科学

提交意见反馈