agent-benchmarks

标签

Cards List
#agent-benchmarks

Anchor:缓解智能体基准生成中的工件漂移

arXiv cs.AI · 2026-05-27 缓存

Anchor是一个任务生成流水线,通过从单一的约束优化规范中联合生成指令、环境、解决方案和验证器,解决了AI智能体基准中的工件漂移问题,为企业工作流提供一致且可审计的评估任务。论文介绍了ERP-Bench——一个包含生产级ERP系统中300个长时任务的基准,结果显示前沿模型在26.1%的试验中满足显式约束,但仅17.4%的试验达到最优解。

0 人收藏 0 人点赞
#agent-benchmarks

关于TASTE:提升智能体基准测试的覆盖度与难度

Hugging Face Daily Papers · 2026-05-27 缓存

TASTE是一种自动化方法,通过自适应对比n-gram建模和迭代难度优化来演化工具序列,从而生成覆盖更广工具使用、更具挑战性的智能体基准测试。生成的τ^c-Bench显示,在现有基准测试中几乎饱和的模型性能大幅下降,表明这是基准饱和而非模型具备稳健能力。

0 人收藏 0 人点赞
#agent-benchmarks

SynAE:一种用于评估工具调用智能体评测中合成数据质量的框架

arXiv cs.CL · 2026-05-22 缓存

SynAE 是一个评估框架,用于衡量工具调用智能体评测中使用的合成数据的质量,从有效性、保真度和多样性等多个维度进行评估。它通过提供指导合成数据生成的指标,应对真实数据不足或敏感带来的挑战。

0 人收藏 0 人点赞
#agent-benchmarks

评估代理型计划-执行流水线中的时序语义缓存与工作流优化

Hugging Face Daily Papers · 2026-05-20 缓存

本文介绍了针对代理型计划-执行流水线的时序语义缓存与MCP工作流优化,在缓存命中时实现了高达30.6倍的加速,并在AssetOpsBench工业基准测试上实现了1.67倍的整体加速。

0 人收藏 0 人点赞
#agent-benchmarks

交互式评估需要设计科学

Hugging Face Daily Papers · 2026-05-18 缓存

本立场论文认为,交互式AI评估应被视为一种设计科学范式,提出了用于通过轨迹评估动态系统行为的双轴分类法和报告标准。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈