benchmark-scaling

#benchmark-scaling

推理计算如何影响前沿LLM的评估

arXiv cs.AI ↗ · 3天前缓存

本文系统研究了推理时计算（token预算、上下文压缩、重复提交）如何影响前沿LLM在具有挑战性的基准上的性能，表明得分是协议相关的，并提倡评估应将能力表示为推理计算的函数。

0 人收藏 0 人点赞