benchmark-scaling

标签

Cards List
#benchmark-scaling

推理计算如何影响前沿LLM的评估

arXiv cs.AI · 3天前 缓存

本文系统研究了推理时计算(token预算、上下文压缩、重复提交)如何影响前沿LLM在具有挑战性的基准上的性能,表明得分是协议相关的,并提倡评估应将能力表示为推理计算的函数。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈