关于TASTE:提升智能体基准测试的覆盖度与难度
摘要
TASTE是一种自动化方法,通过自适应对比n-gram建模和迭代难度优化来演化工具序列,从而生成覆盖更广工具使用、更具挑战性的智能体基准测试。生成的τ^c-Bench显示,在现有基准测试中几乎饱和的模型性能大幅下降,表明这是基准饱和而非模型具备稳健能力。
查看缓存全文
缓存时间: 2026/06/02 15:36
论文页面 - TASTE:提升智能体基准测试的覆盖范围与难度
来源:https://huggingface.co/papers/2605.28556
摘要
自动化基准生成方法通过自适应对比n-gram建模和迭代难度优化,生成具有更广泛工具使用覆盖范围且富有挑战性的任务。
随着智能体能力(https://huggingface.co/papers?q=agent%20capabilities)的进步,现有基准(如 τ^2-Bench)正变得日益饱和。然而,构建新的基准任务仍然复杂、昂贵且劳动密集。此外,标准做法(先以自然语言编写场景,再映射为工具序列)仅能捕捉到智能体所执行工具使用模式(https://huggingface.co/papers?q=tool-use%20patterns)的一个狭窄子集。在本文中,我们通过逆向任务构建过程来解决这些问题。我们提出 TASTE:从工具序列演化(https://huggingface.co/papers?q=Tool%20Sequence%20Evolution)中进行任务合成(https://huggingface.co/papers?q=Task%20Synthesis),这是一种自动生成具有更广泛工具使用覆盖范围的挑战性任务的方法。TASTE 利用一个在LLM评判的有效性信号(https://huggingface.co/papers?q=LLM-judged%20validity%20signals)上训练的自适应对比n-gram模型(https://huggingface.co/papers?q=Adaptive%20Contrastive%20n-gram%20model)。这使得能够对覆盖大量工具组合的有效工具序列进行采样。TASTE 随后通过聚类(https://huggingface.co/papers?q=clustering)从候选池中选出代表性序列,将其实例化为完整的基准任务,并通过迭代难度演化(https://huggingface.co/papers?q=iterative%20difficulty%20evolution)进行细化。利用 TASTE,我们构建了 τ^c-Bench,这是 τ^2-Bench 三个领域的挑战性扩展。我们评估了 11 对智能体/用户 LLM 组合,发现那些在 τ^2-Bench 上几乎饱和的模型在我们的任务上性能大幅下降(例如,Gemini-3-Flash 从 0.82-0.94 降至 0.28-0.61)。除了增加难度,我们生成的任务还使智能体必须执行的独特工具组合数量增加了两倍以上。我们的结果表明,现有基准上的高分往往反映的是饱和而非鲁棒的任务解决能力。通过自动化生成高难度、高覆盖率的基准,TASTE 为未来智能体的持续、可扩展评估提供了可能。
查看 arXiv 页面(https://arxiv.org/abs/2605.28556)查看 PDF(https://arxiv.org/pdf/2605.28556)GitHub1(https://github.com/tomerkeren42/TASTE-task-synthesis-from-tool-sequence-evolution)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.28556)
引用该论文的模型0
没有模型链接此论文
请在模型的 README.md 中引用 arxiv.org/abs/2605.28556 以从此页面链接。
引用该论文的数据集0
没有数据集链接此论文
请在数据集的 README.md 中引用 arxiv.org/abs/2605.28556 以从此页面链接。
引用该论文的 Spaces0
没有 Space 链接此论文
请在 Space 的 README.md 中引用 arxiv.org/abs/2605.28556 以从此页面链接。
包含该论文的合集1
相似文章
TOBench:面向真实世界工具使用智能体的任务导向全模态基准
TOBench是一个新的基准测试,用于评估AI智能体在真实世界、任务导向的工具使用中的表现,涉及多模态输入和闭环验证。实验表明,像Qwen 3.5 Plus这样的顶级模型仅达到41%的成功率,远低于94%的人类基准,凸显了显著的差距。
Agent-ValueBench:一个评估智能体价值观的综合基准
本文提出了 Agent-ValueBench,这是一个旨在评估自主智能体价值观的综合基准,揭示了智能体的价值观与其底层语言模型存在分歧。
智能体是否准备好教学?面向真实教学工作的多阶段基准
介绍了EduAgentBench,一个基于源的基准,用于评估辅导智能体在教学专业判断、多轮辅导以及自主教学工作流程执行方面的能力。对前沿模型的评估表明,它们在情境化辅导和工作流任务中仍未能达到专业教学标准。
MANTRA:为工具使用型 LLM 代理综合生成经 SMT 验证的合规基准
本文介绍了 MANTRA,这是一个从自然语言手册中自动综合生成经 SMT 验证的合规基准的框架,用于评估工具使用型 LLM 代理。研究表明,该方法能够实现对复杂程序规则遵循情况的可扩展且可靠的评估。
合并你PR的智能体,尚无基准可循。
Artificial Analysis 推出了一个编码智能体指数,该指数分别测试框架与模型的组合,强调基准测试任务与实际生产需求不同。文章认为,团队应基于自身的代码库和工作流来评估智能体配置,而非仅依赖标准化基准。