proxy-benchmarks

标签

Cards List
#proxy-benchmarks

PACE:一种用于代理能力评估的代理框架

Hugging Face Daily Papers · 昨天 缓存

本文介绍了PACE,一种通过使用一小部分成本较低的非智能体评估实例来预测昂贵的LLM智能体基准得分的框架,以低于1%的成本实现了高精度。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈