基于代理指标的LLM下游性能预测

Hugging Face Daily Papers 论文

摘要

本文介绍了一种基于专家编写解决方案的token级统计的代理指标,用于预测LLM下游性能,在模型选择、预训练数据选择和训练时预测方面显著优于基于损失的方法。

语言模型开发的进展通常由比较性决策驱动:选择哪种架构、使用哪个预训练语料库、或应用哪种训练方案。要做出这些正确的决策,需要可靠的性能预测,然而两种常用的信号都存在根本性局限。交叉熵损失与下游能力对齐不佳,而直接的下游评估成本高、稀疏且在训练早期往往信息不足。为此,我们提出通过聚合来自候选模型在专家编写解决方案上的下一个词元分布的词元级统计量(如熵、top-k准确率和专家词元排名)来构建代理指标。在三种设置下,我们的代理指标始终优于基于损失和计算的基线:1)在跨家族模型选择中,它们对异构推理模型群体进行排序,平均Spearman Rho = 0.81(而交叉熵损失的Rho = 0.36);2)在预训练数据选择中,它们能以比直接评估少约10,000倍的计算量可靠地对25个候选语料库进行排序,将帕累托前沿推至现有方法之外;3)在训练时预测中,它们能在18倍计算范围内外推下游准确率,误差约为现有替代方案的一半。这些结果表明,专家轨迹是评估模型能力的广泛有用的信号来源,能够在模型开发生命周期中实现可靠的性能预测。
查看原文
查看缓存全文

缓存时间: 2026/05/22 14:20

论文页面 - 基于代理指标预测LLM的下游性能

来源:https://huggingface.co/papers/2605.18607

摘要

基于专家编写方案中token级统计的代理指标,比传统基于损失的方法在模型开发的多个阶段能更可靠地预测模型性能。

语言模型开发的进展通常依赖于比较决策:采用哪种架构、使用哪个预训练语料库、或应用哪种训练方案。做出这些良好决策需要可靠的性能预测,然而两种常用信号存在根本性局限。交叉熵损失与下游能力对齐度差,而直接的下游评估成本高昂、稀疏,且在早期训练阶段往往信息不足。我们提出通过聚合候选模型在专家编写方案上的下一个token分布中的token级统计量(如熵、top-k准确率和专家token排名)来构建代理指标。在三种设置下,我们的代理指标始终优于基于损失和计算量的基线:1) 跨家族模型选择:平均Spearman Rho = 0.81(而交叉熵损失为Rho = 0.36)对异构推理模型群进行排序;2) 预训练数据选择:以大约直接评估所需计算量的1/10000,可靠地对25个候选语料库进行目标模型排序,将帕累托前沿推至现有方法之上;3) 训练时预测:在18倍计算量范围内外推下游准确率,误差约为现有替代方法的一半。这些结果表明,专家轨迹是评估模型能力的广泛有用信号源,可在模型开发生命周期中实现可靠的性能预测。

查看arXiv页面 (https://arxiv.org/abs/2605.18607)查看PDF (https://arxiv.org/pdf/2605.18607)GitHub2 (https://github.com/McGill-NLP/proxy-metrics)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.18607)

在您的代理中获取此论文:

hf papers read 2605.18607

没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型关联此论文

在模型README.md中引用arxiv.org/abs/2605.18607,即可从本页面链接。

引用此论文的数据集0

没有数据集关联此论文

在数据集README.md中引用arxiv.org/abs/2605.18607,即可从本页面链接。

引用此论文的Space0

没有Space关联此论文

在Space README.md中引用arxiv.org/abs/2605.18607,即可从本页面链接。

包含此论文的收藏集0

没有收藏集包含此论文

将此论文添加到收藏集 (https://huggingface.co/new-collection) 即可从本页面链接。

相似文章

评估 LLM 在受控实验中作为人类代理的可靠性

arXiv cs.CL

本论文通过比较 LLM 生成的数据与人类在准确性感知调查中的反应,评估现成 LLM 是否能可靠地模拟受控行为实验中的人类反应。研究发现,虽然 LLM 能捕捉方向性效应和聚合信念更新模式,但它们的效应大小与人类尺度不一致,这有助于澄清合成 LLM 数据何时可以作为行为代理。

基于预测驱动推理的统计可靠LLM排名评估

arXiv cs.LG

本文介绍了PRECISE,它是预测驱动推理(Prediction-Powered Inference)的一种扩展,将少量人工标注与大量LLM判断结合,以生成无偏且方差减小的排名评估指标(如Precision@K)估计。该方法在ESCI基准测试和实际生产环境的A/B测试中进行了验证,仅使用100个人工标注就正确识别出了最佳系统变体,并通过+407 bps的销售改进得到了确认。