自我评估已然存在:用极少数据激发基础大语言模型中的潜在评判校准
摘要
本文介绍了自我评估激发(SEE)方法,该方法通过校准耦合的强化学习和掩码蒸馏,用极少数据激发基础大语言模型中的潜在评判校准,在保持答案质量的同时提升了跨基准的校准效果。
查看缓存全文
缓存时间: 2026/06/09 08:41
论文页面 - 自我评估已然存在:以极少数据激发基础语言模型中的潜在裁判校准能力
来源:https://huggingface.co/papers/2606.05122
摘要
自我评估激发(SEE)方法通过校准耦合强化学习和掩码蒸馏提升了模型在质量评估中的校准能力,展现出超越特定裁判偏好的可迁移质量评估能力。
大型语言模型正越来越多地被其他模型评估,这自然引发了一个问题:模型能否预测裁判将如何对其自身输出进行评分?我们发现,在尚未进行任何针对性训练之前,这种能力已经存在:通过少量示例提示,基础模型就能预测外部裁判对开放回答的多属性质量评分,且在三项基准测试中的表现远超随机水平。我们引入了自我评估激发(SEE)方法,该方法通过短周期来发掘这一潜在能力:首先进行校准耦合的强化学习阶段,提升答案质量并预测裁判评分;随后进行掩码蒸馏阶段,在保持答案不变的前提下强化预测能力。仅使用160个独特样本(约为强化学习基线方法数据量的1/31),SEE就能在三项基准测试中提升留出样本的校准能力,同时保持答案质量。被激发的自我评估能力精准地定位在模型自身的词元分布范围内,并且在模型从未训练过的裁判面前依然保持稳定,这表明其体现的是一种可迁移的质量概念,而非某个特定裁判的偏好。这些结果将面向裁判对齐的自我评估从“习得”问题重新定义为“激发”问题。
查看 arXiv 页面 (https://arxiv.org/abs/2606.05122)查看 PDF (https://arxiv.org/pdf/2606.05122)GitHub1 (https://github.com/YiShan05/SEE_official)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.05122)
在您的智能体中获取此论文:
hf papers read 2606.05122
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
尚无模型链接此论文
请在模型 README.md 中引用 arxiv.org/abs/2606.05122 以将其链接至此页面。
引用此论文的数据集0
尚无数据集链接此论文
请在数据集 README.md 中引用 arxiv.org/abs/2606.05122 以将其链接至此页面。
引用此论文的 Spaces0
尚无 Space 链接此论文
请在 Space README.md 中引用 arxiv.org/abs/2606.05122 以将其链接至此页面。
包含此论文的收藏集0
尚无收藏集包含此论文
请将此论文添加至一个收藏集 (https://huggingface.co/new-collection) 以将其链接至此页面。
相似文章
基于语义级奖励的LLM校准
提出了CSR,一种直接在语义空间中使用新颖的语义校准奖励来校准LLM的框架,在多个数据集上将ECE降低了高达40%,并将AUROC相较于口头化置信度基线提升了高达31%。
大型语言模型中的置信度校准
本文分析了11个主流大型语言模型的置信度校准情况,发现它们普遍过于自信,尤其在困难任务上,而在简单任务上则信心不足。文章引入了LifeEval,这是一个用于评估不同难度级别下校准效果的测试。
面向LLM-as-a-Judge的动态评估准则生成与优化
本文提出了一种无需训练的方法,可以在无需人工标注的情况下自动生成细粒度的评估准则用于LLM-as-a-Judge,并进一步介绍了一种迭代微调策略,使准则生成器的性能超过更大的专有模型。
检索增强的语言校准
本文提出检索增强的语言校准(RALC),一种事后流水线方法,通过将语言置信度建模为分布并使用检索增强重写来校准大语言模型中的置信度信号。它引入了忠实度散度指标,并在多个基准测试中展示了显著改进。
Self-Verified Distillation:你的语言模型实则就是它自己的合成数据流水线
提出了Self-Verified Distillation方法,该方法让LLM从无标注的种子问题中生成候选解决方案,并通过基于提示的自我验证进行筛选,然后在过滤后的数据集上进行训练,从而在Qwen3模型的数学、科学和编程基准测试上取得了显著提升。