runtime-assessment

#runtime-assessment

仅靠基准测试不够：RAMP——生产系统中代理模型的运行时评估

Hugging Face Daily Papers ↗ · 2026-05-26

RAMP是一个基于生产环境的LLM代理评估框架，可揭示静态基准测试无法察觉的显著能力退化，显示任务完成率在串行工作流中从100%骤降至20%。该框架在真实的编译器构建工作负载上评估了15个主流模型，涉及复杂的工具链交互和分阶段恢复机制。

0 人收藏 0 人点赞