关于TASTE:提升智能体基准测试的覆盖度与难度

Hugging Face Daily Papers 论文

摘要

TASTE是一种自动化方法,通过自适应对比n-gram建模和迭代难度优化来演化工具序列,从而生成覆盖更广工具使用、更具挑战性的智能体基准测试。生成的τ^c-Bench显示,在现有基准测试中几乎饱和的模型性能大幅下降,表明这是基准饱和而非模型具备稳健能力。

随着智能体能力的提升,现有基准测试(如τ^2-Bench)正日趋饱和。然而,构建新的基准任务仍然复杂、成本高昂且劳动密集。此外,标准方法(先用自然语言编写场景,再映射到工具序列)仅能覆盖智能体所执行工具使用模式的一小部分。本文通过反转任务构建流程来解决这些问题。我们提出TASTE:从工具序列演化合成任务(Task Synthesis from Tool Sequence Evolution),这是一种自动生成具有更广工具使用覆盖的挑战性任务的方法。TASTE利用基于大语言模型判断的有效性信号训练的自适应对比n-gram模型,从而能采样覆盖大量工具组合的有效工具序列。随后,TASTE通过聚类从序列池中选取代表性序列,将其实例化为完整的基准任务,并通过迭代难度演化进行优化。利用TASTE,我们构建了τ^c-Bench,这是τ^2-Bench三个领域的挑战性扩展。我们评估了11个智能体/用户大语言模型对,发现在τ^2-Bench上几乎饱和的模型在我们的任务上性能大幅下降(例如,Gemini-3-Flash从0.82-0.94降至0.28-0.61)。除了增加难度,我们生成的任务使智能体必须执行的独特工具组合数量翻倍以上。我们的结果表明,在现有基准测试上的高分往往反映的是饱和而非稳健的任务解决能力。通过自动化生成高难度、高覆盖的基准测试,TASTE使得未来智能体的持续、可扩展评估成为可能。
查看原文
查看缓存全文

缓存时间: 2026/06/02 15:36

论文页面 - TASTE:提升智能体基准测试的覆盖范围与难度

来源:https://huggingface.co/papers/2605.28556

摘要

自动化基准生成方法通过自适应对比n-gram建模和迭代难度优化,生成具有更广泛工具使用覆盖范围且富有挑战性的任务。

随着智能体能力(https://huggingface.co/papers?q=agent%20capabilities)的进步,现有基准(如 τ^2-Bench)正变得日益饱和。然而,构建新的基准任务仍然复杂、昂贵且劳动密集。此外,标准做法(先以自然语言编写场景,再映射为工具序列)仅能捕捉到智能体所执行工具使用模式(https://huggingface.co/papers?q=tool-use%20patterns)的一个狭窄子集。在本文中,我们通过逆向任务构建过程来解决这些问题。我们提出 TASTE:从工具序列演化(https://huggingface.co/papers?q=Tool%20Sequence%20Evolution)中进行任务合成(https://huggingface.co/papers?q=Task%20Synthesis),这是一种自动生成具有更广泛工具使用覆盖范围的挑战性任务的方法。TASTE 利用一个在LLM评判的有效性信号(https://huggingface.co/papers?q=LLM-judged%20validity%20signals)上训练的自适应对比n-gram模型(https://huggingface.co/papers?q=Adaptive%20Contrastive%20n-gram%20model)。这使得能够对覆盖大量工具组合的有效工具序列进行采样。TASTE 随后通过聚类(https://huggingface.co/papers?q=clustering)从候选池中选出代表性序列,将其实例化为完整的基准任务,并通过迭代难度演化(https://huggingface.co/papers?q=iterative%20difficulty%20evolution)进行细化。利用 TASTE,我们构建了 τ^c-Bench,这是 τ^2-Bench 三个领域的挑战性扩展。我们评估了 11 对智能体/用户 LLM 组合,发现那些在 τ^2-Bench 上几乎饱和的模型在我们的任务上性能大幅下降(例如,Gemini-3-Flash 从 0.82-0.94 降至 0.28-0.61)。除了增加难度,我们生成的任务还使智能体必须执行的独特工具组合数量增加了两倍以上。我们的结果表明,现有基准上的高分往往反映的是饱和而非鲁棒的任务解决能力。通过自动化生成高难度、高覆盖率的基准,TASTE 为未来智能体的持续、可扩展评估提供了可能。

查看 arXiv 页面(https://arxiv.org/abs/2605.28556)查看 PDF(https://arxiv.org/pdf/2605.28556)GitHub1(https://github.com/tomerkeren42/TASTE-task-synthesis-from-tool-sequence-evolution)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.28556)

引用该论文的模型0

没有模型链接此论文

请在模型的 README.md 中引用 arxiv.org/abs/2605.28556 以从此页面链接。

引用该论文的数据集0

没有数据集链接此论文

请在数据集的 README.md 中引用 arxiv.org/abs/2605.28556 以从此页面链接。

引用该论文的 Spaces0

没有 Space 链接此论文

请在 Space 的 README.md 中引用 arxiv.org/abs/2605.28556 以从此页面链接。

包含该论文的合集1

相似文章

合并你PR的智能体,尚无基准可循。

Reddit r/AI_Agents

Artificial Analysis 推出了一个编码智能体指数,该指数分别测试框架与模型的组合,强调基准测试任务与实际生产需求不同。文章认为,团队应基于自身的代码库和工作流来评估智能体配置,而非仅依赖标准化基准。