标签
本文介绍了GTA,一个可扩展的框架,用于自动生成具有可执行轨迹的长时域、多跳Web智能体任务,解决了Web智能体基准测试中缺乏过程级监督的问题。该框架集成了爬取、基于检索的种子生成和自动质量控制,以在多个网站上产生现实的任务。
Anchor是一个任务生成流水线,通过从单一的约束优化规范中联合生成指令、环境、解决方案和验证器,解决了AI智能体基准中的工件漂移问题,为企业工作流提供一致且可审计的评估任务。论文介绍了ERP-Bench——一个包含生产级ERP系统中300个长时任务的基准,结果显示前沿模型在26.1%的试验中满足显式约束,但仅17.4%的试验达到最优解。
一种新的自动化基准生成框架能够实现基础模型的细粒度、全面评估,具有更低的错误率和更丰富的元数据,在机器学习、公司金融和个人金融基准上得到了验证。
本文介绍了A2RBench,一个用于为LLM生成可形式化验证的抽象推理基准的自动化流水线,它利用循环一致性来确保唯一解,并揭示当前LLM在3D推理任务上显著落后于人类。
本文介绍了 SAGE,这是一个用于 LLM 知识评估基准测试的可扩展自动化鲁棒性增强框架。该框架使用经过强化学习微调的小模型,以低于现有方法的成本生成和验证问题变体。
本文介绍了 SeedRG,这是一个半合成的基准测试生成管道,旨在通过创建保留推理结构但不在模型参数记忆中的新实例,消除检索增强生成 (RAG) 评估中的知识泄露。