自我评估已然存在：用极少数据激发基础大语言模型中的潜在评判校准

Hugging Face Daily Papers 2026/06/03 00:00 论文

self-evaluation calibration reinforcement-learning distillation llm model-evaluation elicitation

摘要

本文介绍了自我评估激发（SEE）方法，该方法通过校准耦合的强化学习和掩码蒸馏，用极少数据激发基础大语言模型中的潜在评判校准，在保持答案质量的同时提升了跨基准的校准效果。

大语言模型越来越多地被其他模型评估，这引发了一个自然的问题：一个模型能否预测评判者将如何对其自身输出进行评分？我们发现，这种能力在很大程度上在目标训练之前就已经存在：通过少量提示，基础模型在三个基准上预测外部评判者对开放式回答的多属性质量得分，其表现远高于随机水平。我们引入了自我评估激发（SEE）方法，该方法通过一个短周期来揭示这种潜在能力，该周期包括一个校准耦合的强化学习阶段（用于改进答案并预测评判者），随后是一个掩码蒸馏阶段（用于优化预测而不改变答案）。仅使用160个独特样本（比强化学习基线少了约31倍），SEE在三个基准上提升了保留校准效果，同时保持了答案质量。所激发的自我评估高度集中在模型自身的令牌分布内，并且对于从未训练过的评判者保持稳定，这表明它是一种可转移的质量概念，而非单一评判者的偏好。这些结果将符合评判者标准的自我评估重新定义为激发问题而非获取问题。

查看原文

查看缓存全文

缓存时间: 2026/06/09 08:41

论文页面 - 自我评估已然存在：以极少数据激发基础语言模型中的潜在裁判校准能力

来源：https://huggingface.co/papers/2606.05122

摘要

自我评估激发（SEE）方法通过校准耦合强化学习和掩码蒸馏提升了模型在质量评估中的校准能力，展现出超越特定裁判偏好的可迁移质量评估能力。

大型语言模型正越来越多地被其他模型评估，这自然引发了一个问题：模型能否预测裁判将如何对其自身输出进行评分？我们发现，在尚未进行任何针对性训练之前，这种能力已经存在：通过少量示例提示，基础模型就能预测外部裁判对开放回答的多属性质量评分，且在三项基准测试中的表现远超随机水平。我们引入了自我评估激发（SEE）方法，该方法通过短周期来发掘这一潜在能力：首先进行校准耦合的强化学习阶段，提升答案质量并预测裁判评分；随后进行掩码蒸馏阶段，在保持答案不变的前提下强化预测能力。仅使用160个独特样本（约为强化学习基线方法数据量的1/31），SEE就能在三项基准测试中提升留出样本的校准能力，同时保持答案质量。被激发的自我评估能力精准地定位在模型自身的词元分布范围内，并且在模型从未训练过的裁判面前依然保持稳定，这表明其体现的是一种可迁移的质量概念，而非某个特定裁判的偏好。这些结果将面向裁判对齐的自我评估从“习得”问题重新定义为“激发”问题。

查看 arXiv 页面 (https://arxiv.org/abs/2606.05122)查看 PDF (https://arxiv.org/pdf/2606.05122)GitHub1 (https://github.com/YiShan05/SEE_official)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.05122)

在您的智能体中获取此论文：

hf papers read 2606.05122

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

尚无模型链接此论文

请在模型 README.md 中引用 arxiv.org/abs/2606.05122 以将其链接至此页面。

引用此论文的数据集0

尚无数据集链接此论文

请在数据集 README.md 中引用 arxiv.org/abs/2606.05122 以将其链接至此页面。

引用此论文的 Spaces0

尚无 Space 链接此论文

请在 Space README.md 中引用 arxiv.org/abs/2606.05122 以将其链接至此页面。

包含此论文的收藏集0

尚无收藏集包含此论文

请将此论文添加至一个收藏集 (https://huggingface.co/new-collection) 以将其链接至此页面。

自我评估已然存在：用极少数据激发基础大语言模型中的潜在评判校准

论文页面 - 自我评估已然存在：以极少数据激发基础语言模型中的潜在裁判校准能力

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的 Spaces0

包含此论文的收藏集0

相似文章

基于语义级奖励的LLM校准

Critic Experience Bank: 自演进的步骤级置信度估计用于LLM Agents

大型语言模型中的置信度校准

DualEval：面向统一LLM评估的联合模型-项目校准

@dair_ai: 来自谷歌的新研究。LLMs 以高置信度产生幻觉，忽视自身知识边界，并错误报告不确定性…

提交意见反馈