benchmark-generation

#benchmark-generation

GTA: 大规模生成Web智能体的长时域任务

arXiv cs.AI ↗ · 6天前缓存

本文介绍了GTA，一个可扩展的框架，用于自动生成具有可执行轨迹的长时域、多跳Web智能体任务，解决了Web智能体基准测试中缺乏过程级监督的问题。该框架集成了爬取、基于检索的种子生成和自动质量控制，以在多个网站上产生现实的任务。

0 人收藏 0 人点赞

#benchmark-generation

Anchor：缓解智能体基准生成中的工件漂移

arXiv cs.AI ↗ · 2026-05-27 缓存

Anchor是一个任务生成流水线，通过从单一的约束优化规范中联合生成指令、环境、解决方案和验证器，解决了AI智能体基准中的工件漂移问题，为企业工作流提供一致且可审计的评估任务。论文介绍了ERP-Bench——一个包含生产级ERP系统中300个长时任务的基准，结果显示前沿模型在26.1%的试验中满足显式约束，但仅17.4%的试验达到最优解。

0 人收藏 0 人点赞

#benchmark-generation

面向基础模型综合评估的细粒度基准生成

arXiv cs.LG ↗ · 2026-05-20

一种新的自动化基准生成框架能够实现基础模型的细粒度、全面评估，具有更低的错误率和更丰富的元数据，在机器学习、公司金融和个人金融基准上得到了验证。

0 人收藏 0 人点赞

#benchmark-generation

A2RBench：一种自动化的可形式化验证抽象推理基准生成范式

Hugging Face Daily Papers ↗ · 2026-05-17 缓存

本文介绍了A2RBench，一个用于为LLM生成可形式化验证的抽象推理基准的自动化流水线，它利用循环一致性来确保唯一解，并揭示当前LLM在3D推理任务上显著落后于人类。

0 人收藏 0 人点赞

#benchmark-generation

SAGE：用于 LLM 知识评估的可扩展自动化鲁棒性增强

arXiv cs.CL ↗ · 2026-05-13 缓存

本文介绍了 SAGE，这是一个用于 LLM 知识评估基准测试的可扩展自动化鲁棒性增强框架。该框架使用经过强化学习微调的小模型，以低于现有方法的成本生成和验证问题变体。

0 人收藏 0 人点赞

#benchmark-generation

为稳健的 RAG 评估生成无知识泄露的基准测试

arXiv cs.CL ↗ · 2026-05-12 缓存

本文介绍了 SeedRG，这是一个半合成的基准测试生成管道，旨在通过创建保留推理结构但不在模型参数记忆中的新实例，消除检索增强生成 (RAG) 评估中的知识泄露。

0 人收藏 0 人点赞

benchmark-generation

GTA: 大规模生成Web智能体的长时域任务

Anchor：缓解智能体基准生成中的工件漂移

面向基础模型综合评估的细粒度基准生成

A2RBench：一种自动化的可形式化验证抽象推理基准生成范式

SAGE：用于 LLM 知识评估的可扩展自动化鲁棒性增强

为稳健的 RAG 评估生成无知识泄露的基准测试

提交意见反馈