自我评估已然存在:用极少数据激发基础大语言模型中的潜在评判校准

Hugging Face Daily Papers 论文

摘要

本文介绍了自我评估激发(SEE)方法,该方法通过校准耦合的强化学习和掩码蒸馏,用极少数据激发基础大语言模型中的潜在评判校准,在保持答案质量的同时提升了跨基准的校准效果。

大语言模型越来越多地被其他模型评估,这引发了一个自然的问题:一个模型能否预测评判者将如何对其自身输出进行评分?我们发现,这种能力在很大程度上在目标训练之前就已经存在:通过少量提示,基础模型在三个基准上预测外部评判者对开放式回答的多属性质量得分,其表现远高于随机水平。我们引入了自我评估激发(SEE)方法,该方法通过一个短周期来揭示这种潜在能力,该周期包括一个校准耦合的强化学习阶段(用于改进答案并预测评判者),随后是一个掩码蒸馏阶段(用于优化预测而不改变答案)。仅使用160个独特样本(比强化学习基线少了约31倍),SEE在三个基准上提升了保留校准效果,同时保持了答案质量。所激发的自我评估高度集中在模型自身的令牌分布内,并且对于从未训练过的评判者保持稳定,这表明它是一种可转移的质量概念,而非单一评判者的偏好。这些结果将符合评判者标准的自我评估重新定义为激发问题而非获取问题。
查看原文
查看缓存全文

缓存时间: 2026/06/09 08:41

论文页面 - 自我评估已然存在:以极少数据激发基础语言模型中的潜在裁判校准能力

来源:https://huggingface.co/papers/2606.05122

摘要

自我评估激发(SEE)方法通过校准耦合强化学习和掩码蒸馏提升了模型在质量评估中的校准能力,展现出超越特定裁判偏好的可迁移质量评估能力。

大型语言模型正越来越多地被其他模型评估,这自然引发了一个问题:模型能否预测裁判将如何对其自身输出进行评分?我们发现,在尚未进行任何针对性训练之前,这种能力已经存在:通过少量示例提示,基础模型就能预测外部裁判对开放回答的多属性质量评分,且在三项基准测试中的表现远超随机水平。我们引入了自我评估激发(SEE)方法,该方法通过短周期来发掘这一潜在能力:首先进行校准耦合的强化学习阶段,提升答案质量并预测裁判评分;随后进行掩码蒸馏阶段,在保持答案不变的前提下强化预测能力。仅使用160个独特样本(约为强化学习基线方法数据量的1/31),SEE就能在三项基准测试中提升留出样本的校准能力,同时保持答案质量。被激发的自我评估能力精准地定位在模型自身的词元分布范围内,并且在模型从未训练过的裁判面前依然保持稳定,这表明其体现的是一种可迁移的质量概念,而非某个特定裁判的偏好。这些结果将面向裁判对齐的自我评估从“习得”问题重新定义为“激发”问题。

查看 arXiv 页面 (https://arxiv.org/abs/2606.05122)查看 PDF (https://arxiv.org/pdf/2606.05122)GitHub1 (https://github.com/YiShan05/SEE_official)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.05122)

在您的智能体中获取此论文:

hf papers read 2606.05122

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

尚无模型链接此论文

请在模型 README.md 中引用 arxiv.org/abs/2606.05122 以将其链接至此页面。

引用此论文的数据集0

尚无数据集链接此论文

请在数据集 README.md 中引用 arxiv.org/abs/2606.05122 以将其链接至此页面。

引用此论文的 Spaces0

尚无 Space 链接此论文

请在 Space README.md 中引用 arxiv.org/abs/2606.05122 以将其链接至此页面。

包含此论文的收藏集0

尚无收藏集包含此论文

请将此论文添加至一个收藏集 (https://huggingface.co/new-collection) 以将其链接至此页面。

相似文章

基于语义级奖励的LLM校准

arXiv cs.CL

提出了CSR,一种直接在语义空间中使用新颖的语义校准奖励来校准LLM的框架,在多个数据集上将ECE降低了高达40%,并将AUROC相较于口头化置信度基线提升了高达31%。

大型语言模型中的置信度校准

arXiv cs.AI

本文分析了11个主流大型语言模型的置信度校准情况,发现它们普遍过于自信,尤其在困难任务上,而在简单任务上则信心不足。文章引入了LifeEval,这是一个用于评估不同难度级别下校准效果的测试。

面向LLM-as-a-Judge的动态评估准则生成与优化

arXiv cs.CL

本文提出了一种无需训练的方法,可以在无需人工标注的情况下自动生成细粒度的评估准则用于LLM-as-a-Judge,并进一步介绍了一种迭代微调策略,使准则生成器的性能超过更大的专有模型。

检索增强的语言校准

arXiv cs.CL

本文提出检索增强的语言校准(RALC),一种事后流水线方法,通过将语言置信度建模为分布并使用检索增强重写来校准大语言模型中的置信度信号。它引入了忠实度散度指标,并在多个基准测试中展示了显著改进。