基于代理指标的LLM下游性能预测

Hugging Face Daily Papers 2026/05/18 00:00 论文

llm forecasting proxy-metrics performance token-statistics training model-selection

摘要

本文介绍了一种基于专家编写解决方案的token级统计的代理指标，用于预测LLM下游性能，在模型选择、预训练数据选择和训练时预测方面显著优于基于损失的方法。

语言模型开发的进展通常由比较性决策驱动：选择哪种架构、使用哪个预训练语料库、或应用哪种训练方案。要做出这些正确的决策，需要可靠的性能预测，然而两种常用的信号都存在根本性局限。交叉熵损失与下游能力对齐不佳，而直接的下游评估成本高、稀疏且在训练早期往往信息不足。为此，我们提出通过聚合来自候选模型在专家编写解决方案上的下一个词元分布的词元级统计量（如熵、top-k准确率和专家词元排名）来构建代理指标。在三种设置下，我们的代理指标始终优于基于损失和计算的基线：1）在跨家族模型选择中，它们对异构推理模型群体进行排序，平均Spearman Rho = 0.81（而交叉熵损失的Rho = 0.36）；2）在预训练数据选择中，它们能以比直接评估少约10,000倍的计算量可靠地对25个候选语料库进行排序，将帕累托前沿推至现有方法之外；3）在训练时预测中，它们能在18倍计算范围内外推下游准确率，误差约为现有替代方案的一半。这些结果表明，专家轨迹是评估模型能力的广泛有用的信号来源，能够在模型开发生命周期中实现可靠的性能预测。

查看原文

查看缓存全文

缓存时间: 2026/05/22 14:20

论文页面 - 基于代理指标预测LLM的下游性能

来源：https://huggingface.co/papers/2605.18607

摘要

基于专家编写方案中token级统计的代理指标，比传统基于损失的方法在模型开发的多个阶段能更可靠地预测模型性能。

语言模型开发的进展通常依赖于比较决策：采用哪种架构、使用哪个预训练语料库、或应用哪种训练方案。做出这些良好决策需要可靠的性能预测，然而两种常用信号存在根本性局限。交叉熵损失与下游能力对齐度差，而直接的下游评估成本高昂、稀疏，且在早期训练阶段往往信息不足。我们提出通过聚合候选模型在专家编写方案上的下一个token分布中的token级统计量（如熵、top-k准确率和专家token排名）来构建代理指标。在三种设置下，我们的代理指标始终优于基于损失和计算量的基线：1) 跨家族模型选择：平均Spearman Rho = 0.81（而交叉熵损失为Rho = 0.36）对异构推理模型群进行排序；2) 预训练数据选择：以大约直接评估所需计算量的1/10000，可靠地对25个候选语料库进行目标模型排序，将帕累托前沿推至现有方法之上；3) 训练时预测：在18倍计算量范围内外推下游准确率，误差约为现有替代方法的一半。这些结果表明，专家轨迹是评估模型能力的广泛有用信号源，可在模型开发生命周期中实现可靠的性能预测。

查看arXiv页面 (https://arxiv.org/abs/2605.18607)查看PDF (https://arxiv.org/pdf/2605.18607)GitHub2 (https://github.com/McGill-NLP/proxy-metrics)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.18607)

在您的代理中获取此论文：

hf papers read 2605.18607

没有最新的CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型关联此论文

在模型README.md中引用arxiv.org/abs/2605.18607，即可从本页面链接。

引用此论文的数据集0

没有数据集关联此论文

在数据集README.md中引用arxiv.org/abs/2605.18607，即可从本页面链接。

引用此论文的Space0

没有Space关联此论文

在Space README.md中引用arxiv.org/abs/2605.18607，即可从本页面链接。

包含此论文的收藏集0

没有收藏集包含此论文

将此论文添加到收藏集 (https://huggingface.co/new-collection) 即可从本页面链接。

基于代理指标的LLM下游性能预测

论文页面 - 基于代理指标预测LLM的下游性能

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的Space0

包含此论文的收藏集0

相似文章

代理探索与可复用引导：通过代理引导更新信号的模块化LLM后训练范式

TEMPO：通过模式分离策略优化实现时间强制，用于可信的大语言模型回测

@AlphaSignalAI：现在你可以在不训练的情况下，将任意LLM的准确率提升2-10倍。大多数团队通过微调或更换更大模型来提高模型准确率…

超越静态排行榜：LLM智能体评估的预测有效性

评估 LLM 在受控实验中作为人类代理的可靠性

提交意见反馈