runtime-assessment

标签

Cards List
#runtime-assessment

仅靠基准测试不够:RAMP——生产系统中代理模型的运行时评估

Hugging Face Daily Papers · 2026-05-26

RAMP是一个基于生产环境的LLM代理评估框架,可揭示静态基准测试无法察觉的显著能力退化,显示任务完成率在串行工作流中从100%骤降至20%。该框架在真实的编译器构建工作负载上评估了15个主流模型,涉及复杂的工具链交互和分阶段恢复机制。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈