基于代理指标的LLM下游性能预测
摘要
本文介绍了一种基于专家编写解决方案的token级统计的代理指标,用于预测LLM下游性能,在模型选择、预训练数据选择和训练时预测方面显著优于基于损失的方法。
查看缓存全文
缓存时间: 2026/05/22 14:20
论文页面 - 基于代理指标预测LLM的下游性能
来源:https://huggingface.co/papers/2605.18607
摘要
基于专家编写方案中token级统计的代理指标,比传统基于损失的方法在模型开发的多个阶段能更可靠地预测模型性能。
语言模型开发的进展通常依赖于比较决策:采用哪种架构、使用哪个预训练语料库、或应用哪种训练方案。做出这些良好决策需要可靠的性能预测,然而两种常用信号存在根本性局限。交叉熵损失与下游能力对齐度差,而直接的下游评估成本高昂、稀疏,且在早期训练阶段往往信息不足。我们提出通过聚合候选模型在专家编写方案上的下一个token分布中的token级统计量(如熵、top-k准确率和专家token排名)来构建代理指标。在三种设置下,我们的代理指标始终优于基于损失和计算量的基线:1) 跨家族模型选择:平均Spearman Rho = 0.81(而交叉熵损失为Rho = 0.36)对异构推理模型群进行排序;2) 预训练数据选择:以大约直接评估所需计算量的1/10000,可靠地对25个候选语料库进行目标模型排序,将帕累托前沿推至现有方法之上;3) 训练时预测:在18倍计算量范围内外推下游准确率,误差约为现有替代方法的一半。这些结果表明,专家轨迹是评估模型能力的广泛有用信号源,可在模型开发生命周期中实现可靠的性能预测。
查看arXiv页面 (https://arxiv.org/abs/2605.18607)查看PDF (https://arxiv.org/pdf/2605.18607)GitHub2 (https://github.com/McGill-NLP/proxy-metrics)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.18607)
在您的代理中获取此论文:
hf papers read 2605.18607
没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
没有模型关联此论文
在模型README.md中引用arxiv.org/abs/2605.18607,即可从本页面链接。
引用此论文的数据集0
没有数据集关联此论文
在数据集README.md中引用arxiv.org/abs/2605.18607,即可从本页面链接。
引用此论文的Space0
没有Space关联此论文
在Space README.md中引用arxiv.org/abs/2605.18607,即可从本页面链接。
包含此论文的收藏集0
没有收藏集包含此论文
将此论文添加到收藏集 (https://huggingface.co/new-collection) 即可从本页面链接。
相似文章
TEMPO:通过模式分离策略优化实现时间强制,用于可信的大语言模型回测
提出TEMPO,一种策略优化方法,通过使用双模式奖励和基于GRPO的训练,训练大语言模型仅依据截止日期前的信息进行推理,将知识泄露降低2–13%,同时将任务性能提升6–13%。
@AlphaSignalAI:现在你可以在不训练的情况下,将任意LLM的准确率提升2-10倍。大多数团队通过微调或更换更大模型来提高模型准确率…
OptiLLM是一个开源代理,通过在推理时增加额外计算,将任意LLM的准确率提升2-10倍,使用了多智能体交叉验证和蒙特卡洛树搜索等技术。
评估 LLM 在受控实验中作为人类代理的可靠性
本论文通过比较 LLM 生成的数据与人类在准确性感知调查中的反应,评估现成 LLM 是否能可靠地模拟受控行为实验中的人类反应。研究发现,虽然 LLM 能捕捉方向性效应和聚合信念更新模式,但它们的效应大小与人类尺度不一致,这有助于澄清合成 LLM 数据何时可以作为行为代理。
基于预测驱动推理的统计可靠LLM排名评估
本文介绍了PRECISE,它是预测驱动推理(Prediction-Powered Inference)的一种扩展,将少量人工标注与大量LLM判断结合,以生成无偏且方差减小的排名评估指标(如Precision@K)估计。该方法在ESCI基准测试和实际生产环境的A/B测试中进行了验证,仅使用100个人工标注就正确识别出了最佳系统变体,并通过+407 bps的销售改进得到了确认。
识别并缓解生产级LLM推理基准中的系统性测量偏差
本文识别了由使用asyncio的单进程Python客户端导致的生产级LLM推理基准中的系统性测量偏差,并提出了一种多进程评估框架和一个新指标(NTPOT),以便在规模上准确分析服务引擎的性能。