通过探针目标微调，让LLM真正表达其自信程度。[研究]

Reddit r/MachineLearning 2026/05/29 05:15 论文

llm confidence-calibration fine-tuning lora probes hidden-states metacognition

摘要

这项研究提出了探针目标微调（LoRA）方法，使LLM能够口头表达其内部置信度，实现了对置信度输出的因果控制，并证明模型通常知道自己是正确还是错误，但未能表达出来。

与大家分享我关于探针目标微调（LoRa）在口头置信度校准方面的研究。如果你对经过指令微调的LLM的隐藏状态进行探针检测，它可以以0.76–0.88 AUROC区分正确与错误答案。但当你直接询问时，它往往对所有问题都回复99%的置信度。模型知道它是否真正知道答案，但不愿承认。我使用了探针的输出作为微调目标。这教会了模型说出它内部已知的信息。LoRA，几百个样本，在M3 Ultra上不到10分钟。我在4个系列（7B–70B）的8个模型上进行了测试。* 激活修补（Activation Patching）显示这是因果关系，而不仅仅是相关性。如果你在置信度位置交换隐藏状态，可以观察到置信度变化（层梯度ρ=0.976）。如果在随机位置交换，则不会发生任何变化。* 在70B模型上，softmax分布携带了有效的元认知信号，但argmax文本仍然停留在99%的置信度。模型在内部学习了路由，但无法突破文本瓶颈。* 在3个模型上进行了种子级别的复现。判别能力稳定，但置信度分布的形态对种子敏感。我预先注册了这两项研究（并注明了偏差），所有代码都已公开（代码：github.com/synthiumjp/metacog-engineering）。我尽量使其严谨且可复现。预印本在此：[https://zenodo.org/records/20436841](https://zenodo.org/records/20436841)

查看原文

通过探针目标微调，让LLM真正表达其自信程度。[研究]

相似文章

LLMs知道自己知道，但并未据此行动：一种用于测试时扩展的元认知框架

HyperLens：利用细粒度置信度轨迹量化大型语言模型的认知努力

基于不同微调策略和模型规模的LLM归因分析在自动代码合规性检查中的应用

评估 LLM 在受控实验中作为人类代理的可靠性

当正确信念崩溃时：临床压力下LLMs的认知韧性

提交意见反馈