仅靠基准测试不够:RAMP——生产系统中代理模型的运行时评估

Hugging Face Daily Papers 论文

摘要

RAMP是一个基于生产环境的LLM代理评估框架,可揭示静态基准测试无法察觉的显著能力退化,显示任务完成率在串行工作流中从100%骤降至20%。该框架在真实的编译器构建工作负载上评估了15个主流模型,涉及复杂的工具链交互和分阶段恢复机制。

LLM代理正在从编码助手快速演变为自主软件工程系统。然而,现有的评估方法仍然主要集中于静态、孤立和短视的基准测试,无法捕捉真实生产工作流的动态复杂性。因此,基准测试的性能可能无法很好地反映在涉及长执行链、工具交互、依赖管理和迭代反馈循环的现实运行时环境下的实际能力。为此,我们提出了RAMP,一个用于评估长周期软件工程代理的生产级基础设施。RAMP基于YatCC集成平台,通过标准化的编排和执行接口提供统一的运行时评估架构。RAMP引入了具有串行依赖和复杂工具链交互的真实编译器构建工作负载,并配备了一种分阶段恢复机制,用于分析部分工作流失败下的执行行为。该框架还进一步整合了面向效用的多维指标,共同评估成果质量和流程效率。我们对15个主流模型进行了运行时评估,观察到常规孤立基准测试中基本不可见的显著能力退化。任务完成率在串行工作流中逐渐下降,从初始阶段的100%降至最后阶段的仅20%,而所有评估模型均未能成功完成整个流水线。运行时分析揭示了系统性的故障传播和显著的资源低效问题,同类模型之间的计算成本差异高达三个数量级。这些发现表明,RAMP将代理模型评估推向持续、运行时可观察且基于生产环境的评估。
查看原文

相似文章

Anchor:缓解智能体基准生成中的工件漂移

arXiv cs.AI

Anchor是一个任务生成流水线,通过从单一的约束优化规范中联合生成指令、环境、解决方案和验证器,解决了AI智能体基准中的工件漂移问题,为企业工作流提供一致且可审计的评估任务。论文介绍了ERP-Bench——一个包含生产级ERP系统中300个长时任务的基准,结果显示前沿模型在26.1%的试验中满足显式约束,但仅17.4%的试验达到最优解。

FAB-Bench:面向半导体制造的自适应RAG基准评估框架

arXiv cs.CL

FAB-Bench是一个用于评估半导体制造中检索增强生成(RAG)系统的基准框架,包含六项诊断指标和跨上下文窗口的分析。它提供了200个精选的问答对,并揭示了上下文缩放行为和注意力稀释问题。