benchmark-generation

标签

Cards List
#benchmark-generation

GTA: 大规模生成Web智能体的长时域任务

arXiv cs.AI · 6天前 缓存

本文介绍了GTA,一个可扩展的框架,用于自动生成具有可执行轨迹的长时域、多跳Web智能体任务,解决了Web智能体基准测试中缺乏过程级监督的问题。该框架集成了爬取、基于检索的种子生成和自动质量控制,以在多个网站上产生现实的任务。

0 人收藏 0 人点赞
#benchmark-generation

Anchor:缓解智能体基准生成中的工件漂移

arXiv cs.AI · 2026-05-27 缓存

Anchor是一个任务生成流水线,通过从单一的约束优化规范中联合生成指令、环境、解决方案和验证器,解决了AI智能体基准中的工件漂移问题,为企业工作流提供一致且可审计的评估任务。论文介绍了ERP-Bench——一个包含生产级ERP系统中300个长时任务的基准,结果显示前沿模型在26.1%的试验中满足显式约束,但仅17.4%的试验达到最优解。

0 人收藏 0 人点赞
#benchmark-generation

面向基础模型综合评估的细粒度基准生成

arXiv cs.LG · 2026-05-20

一种新的自动化基准生成框架能够实现基础模型的细粒度、全面评估,具有更低的错误率和更丰富的元数据,在机器学习、公司金融和个人金融基准上得到了验证。

0 人收藏 0 人点赞
#benchmark-generation

A2RBench:一种自动化的可形式化验证抽象推理基准生成范式

Hugging Face Daily Papers · 2026-05-17 缓存

本文介绍了A2RBench,一个用于为LLM生成可形式化验证的抽象推理基准的自动化流水线,它利用循环一致性来确保唯一解,并揭示当前LLM在3D推理任务上显著落后于人类。

0 人收藏 0 人点赞
#benchmark-generation

SAGE:用于 LLM 知识评估的可扩展自动化鲁棒性增强

arXiv cs.CL · 2026-05-13 缓存

本文介绍了 SAGE,这是一个用于 LLM 知识评估基准测试的可扩展自动化鲁棒性增强框架。该框架使用经过强化学习微调的小模型,以低于现有方法的成本生成和验证问题变体。

0 人收藏 0 人点赞
#benchmark-generation

为稳健的 RAG 评估生成无知识泄露的基准测试

arXiv cs.CL · 2026-05-12 缓存

本文介绍了 SeedRG,这是一个半合成的基准测试生成管道,旨在通过创建保留推理结构但不在模型参数记忆中的新实例,消除检索增强生成 (RAG) 评估中的知识泄露。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈