仅靠基准测试不够:RAMP——生产系统中代理模型的运行时评估
摘要
RAMP是一个基于生产环境的LLM代理评估框架,可揭示静态基准测试无法察觉的显著能力退化,显示任务完成率在串行工作流中从100%骤降至20%。该框架在真实的编译器构建工作负载上评估了15个主流模型,涉及复杂的工具链交互和分阶段恢复机制。
LLM代理正在从编码助手快速演变为自主软件工程系统。然而,现有的评估方法仍然主要集中于静态、孤立和短视的基准测试,无法捕捉真实生产工作流的动态复杂性。因此,基准测试的性能可能无法很好地反映在涉及长执行链、工具交互、依赖管理和迭代反馈循环的现实运行时环境下的实际能力。为此,我们提出了RAMP,一个用于评估长周期软件工程代理的生产级基础设施。RAMP基于YatCC集成平台,通过标准化的编排和执行接口提供统一的运行时评估架构。RAMP引入了具有串行依赖和复杂工具链交互的真实编译器构建工作负载,并配备了一种分阶段恢复机制,用于分析部分工作流失败下的执行行为。该框架还进一步整合了面向效用的多维指标,共同评估成果质量和流程效率。我们对15个主流模型进行了运行时评估,观察到常规孤立基准测试中基本不可见的显著能力退化。任务完成率在串行工作流中逐渐下降,从初始阶段的100%降至最后阶段的仅20%,而所有评估模型均未能成功完成整个流水线。运行时分析揭示了系统性的故障传播和显著的资源低效问题,同类模型之间的计算成本差异高达三个数量级。这些发现表明,RAMP将代理模型评估推向持续、运行时可观察且基于生产环境的评估。
相似文章
RAMPART:基于注册表的智能体记忆系统,具备优先级感知的运行时转换能力
RAMPART 是一种面向基于 LLM 的智能体的编译期内存模型和纯内存块注册表,通过五种可组合的原语管理上下文组装,支持优先级排序与淘汰策略。在多个 7B 至 14B 参数规模模型上的实验表明,块分组、相关性门控和模式淘汰能够显著提升任务成功率并降低提示词 token 开销。
扮演真正的研究者:一套评估前沿大语言模型及代理系统在研究生命周期中的基准测试集
本文介绍了AARR(扮演真正的研究者)基准系列,旨在评估前沿大语言模型和代理系统在细粒度研究场景中的表现。首个基准AARRI-Bench显示,即使表现最佳的代理成功率也仅为68.3%,凸显了其在领域敏感性和细微推理能力方面的不足。
Anchor:缓解智能体基准生成中的工件漂移
Anchor是一个任务生成流水线,通过从单一的约束优化规范中联合生成指令、环境、解决方案和验证器,解决了AI智能体基准中的工件漂移问题,为企业工作流提供一致且可审计的评估任务。论文介绍了ERP-Bench——一个包含生产级ERP系统中300个长时任务的基准,结果显示前沿模型在26.1%的试验中满足显式约束,但仅17.4%的试验达到最优解。
FAB-Bench:面向半导体制造的自适应RAG基准评估框架
FAB-Bench是一个用于评估半导体制造中检索增强生成(RAG)系统的基准框架,包含六项诊断指标和跨上下文窗口的分析。它提供了200个精选的问答对,并揭示了上下文缩放行为和注意力稀释问题。
当工具失灵:LLM智能体动态重新规划与异常恢复的基准测试
ToolMaze基准测试评估了LLM智能体处理真实世界工具故障的能力,揭示了隐式语义故障导致的性能下降最为显著,而动态重新规划仍是模型扩展或提示工程无法解决的关键瓶颈。