仅靠基准测试不够：RAMP——生产系统中代理模型的运行时评估

Hugging Face Daily Papers 2026/05/26 00:00 论文

llm-agents benchmarking evaluation software-engineering agentic-ai runtime-assessment production-systems

摘要

RAMP是一个基于生产环境的LLM代理评估框架，可揭示静态基准测试无法察觉的显著能力退化，显示任务完成率在串行工作流中从100%骤降至20%。该框架在真实的编译器构建工作负载上评估了15个主流模型，涉及复杂的工具链交互和分阶段恢复机制。

LLM代理正在从编码助手快速演变为自主软件工程系统。然而，现有的评估方法仍然主要集中于静态、孤立和短视的基准测试，无法捕捉真实生产工作流的动态复杂性。因此，基准测试的性能可能无法很好地反映在涉及长执行链、工具交互、依赖管理和迭代反馈循环的现实运行时环境下的实际能力。为此，我们提出了RAMP，一个用于评估长周期软件工程代理的生产级基础设施。RAMP基于YatCC集成平台，通过标准化的编排和执行接口提供统一的运行时评估架构。RAMP引入了具有串行依赖和复杂工具链交互的真实编译器构建工作负载，并配备了一种分阶段恢复机制，用于分析部分工作流失败下的执行行为。该框架还进一步整合了面向效用的多维指标，共同评估成果质量和流程效率。我们对15个主流模型进行了运行时评估，观察到常规孤立基准测试中基本不可见的显著能力退化。任务完成率在串行工作流中逐渐下降，从初始阶段的100%降至最后阶段的仅20%，而所有评估模型均未能成功完成整个流水线。运行时分析揭示了系统性的故障传播和显著的资源低效问题，同类模型之间的计算成本差异高达三个数量级。这些发现表明，RAMP将代理模型评估推向持续、运行时可观察且基于生产环境的评估。

查看原文

仅靠基准测试不够：RAMP——生产系统中代理模型的运行时评估

相似文章

RAMPART：基于注册表的智能体记忆系统，具备优先级感知的运行时转换能力

扮演真正的研究者：一套评估前沿大语言模型及代理系统在研究生命周期中的基准测试集

Anchor：缓解智能体基准生成中的工件漂移

FAB-Bench：面向半导体制造的自适应RAG基准评估框架

当工具失灵：LLM智能体动态重新规划与异常恢复的基准测试

提交意见反馈