通过探针目标微调,让LLM真正表达其自信程度。[研究]

Reddit r/MachineLearning 论文

摘要

这项研究提出了探针目标微调(LoRA)方法,使LLM能够口头表达其内部置信度,实现了对置信度输出的因果控制,并证明模型通常知道自己是正确还是错误,但未能表达出来。

与大家分享我关于探针目标微调(LoRa)在口头置信度校准方面的研究。如果你对经过指令微调的LLM的隐藏状态进行探针检测,它可以以0.76–0.88 AUROC区分正确与错误答案。但当你直接询问时,它往往对所有问题都回复99%的置信度。模型知道它是否真正知道答案,但不愿承认。我使用了探针的输出作为微调目标。这教会了模型说出它内部已知的信息。LoRA,几百个样本,在M3 Ultra上不到10分钟。我在4个系列(7B–70B)的8个模型上进行了测试。* 激活修补(Activation Patching)显示这是因果关系,而不仅仅是相关性。如果你在置信度位置交换隐藏状态,可以观察到置信度变化(层梯度ρ=0.976)。如果在随机位置交换,则不会发生任何变化。* 在70B模型上,softmax分布携带了有效的元认知信号,但argmax文本仍然停留在99%的置信度。模型在内部学习了路由,但无法突破文本瓶颈。* 在3个模型上进行了种子级别的复现。判别能力稳定,但置信度分布的形态对种子敏感。我预先注册了这两项研究(并注明了偏差),所有代码都已公开(代码:github.com/synthiumjp/metacog-engineering)。我尽量使其严谨且可复现。预印本在此:[https://zenodo.org/records/20436841](https://zenodo.org/records/20436841)
查看原文

相似文章

评估 LLM 在受控实验中作为人类代理的可靠性

arXiv cs.CL

本论文通过比较 LLM 生成的数据与人类在准确性感知调查中的反应,评估现成 LLM 是否能可靠地模拟受控行为实验中的人类反应。研究发现,虽然 LLM 能捕捉方向性效应和聚合信念更新模式,但它们的效应大小与人类尺度不一致,这有助于澄清合成 LLM 数据何时可以作为行为代理。

当正确信念崩溃时:临床压力下LLMs的认知韧性

arXiv cs.AI

本文研究了大型语言模型在临床环境中面对对抗性压力时如何维持正确信念,提出了R-FT微调方法以在平衡可纠正性的同时提升认知韧性,并在医学基准测试中展示了显著的鲁棒性提升。