通过探针目标微调,让LLM真正表达其自信程度。[研究]
摘要
这项研究提出了探针目标微调(LoRA)方法,使LLM能够口头表达其内部置信度,实现了对置信度输出的因果控制,并证明模型通常知道自己是正确还是错误,但未能表达出来。
与大家分享我关于探针目标微调(LoRa)在口头置信度校准方面的研究。如果你对经过指令微调的LLM的隐藏状态进行探针检测,它可以以0.76–0.88 AUROC区分正确与错误答案。但当你直接询问时,它往往对所有问题都回复99%的置信度。模型知道它是否真正知道答案,但不愿承认。我使用了探针的输出作为微调目标。这教会了模型说出它内部已知的信息。LoRA,几百个样本,在M3 Ultra上不到10分钟。我在4个系列(7B–70B)的8个模型上进行了测试。* 激活修补(Activation Patching)显示这是因果关系,而不仅仅是相关性。如果你在置信度位置交换隐藏状态,可以观察到置信度变化(层梯度ρ=0.976)。如果在随机位置交换,则不会发生任何变化。* 在70B模型上,softmax分布携带了有效的元认知信号,但argmax文本仍然停留在99%的置信度。模型在内部学习了路由,但无法突破文本瓶颈。* 在3个模型上进行了种子级别的复现。判别能力稳定,但置信度分布的形态对种子敏感。我预先注册了这两项研究(并注明了偏差),所有代码都已公开(代码:github.com/synthiumjp/metacog-engineering)。我尽量使其严谨且可复现。预印本在此:[https://zenodo.org/records/20436841](https://zenodo.org/records/20436841)
相似文章
LLMs知道自己知道,但并未据此行动:一种用于测试时扩展的元认知框架
本文提出一种元认知框架,将LLMs中的监控与推理分离,利用解决前的已知感(feeling-of-knowing)和解决后的学习判断(judgment-of-learning)信号来控制何时信任、重试或聚合答案,在不更新参数的情况下提升文本、代码和多模态基准测试的准确率。
HyperLens:利用细粒度置信度轨迹量化大型语言模型的认知努力
本文介绍了 HyperLens,一种高分辨率探针,可通过追踪层间的细粒度置信度轨迹来量化大型语言模型(LLMs)的认知努力。研究表明,复杂任务需要更高的认知努力,并展示了监督微调(SFT)如何降低这种努力,从而可能导致性能下降。
基于不同微调策略和模型规模的LLM归因分析在自动代码合规性检查中的应用
本文使用基于扰动的归因分析方法,分析了不同微调策略(全量微调、LoRA、量化LoRA)和模型规模对LLM在自动代码合规性任务中解释行为的影响。研究发现全量微调产生的归因模式比参数高效方法更集中,而较大的模型会形成特定的解释策略,但性能收益在超过7B参数后出现递减。
评估 LLM 在受控实验中作为人类代理的可靠性
本论文通过比较 LLM 生成的数据与人类在准确性感知调查中的反应,评估现成 LLM 是否能可靠地模拟受控行为实验中的人类反应。研究发现,虽然 LLM 能捕捉方向性效应和聚合信念更新模式,但它们的效应大小与人类尺度不一致,这有助于澄清合成 LLM 数据何时可以作为行为代理。
当正确信念崩溃时:临床压力下LLMs的认知韧性
本文研究了大型语言模型在临床环境中面对对抗性压力时如何维持正确信念,提出了R-FT微调方法以在平衡可纠正性的同时提升认知韧性,并在医学基准测试中展示了显著的鲁棒性提升。