收敛点理论:为什么LLM的不确定性由主题决定,而非模型
摘要
本文提出收敛点理论,该理论通过论证不确定性由人类对某一主题的共识密度决定,统一了各种LLM不确定性现象,并识别出三个区域(完全共识、部分共识和非共识)。该理论对训练过程中对未解决的哲学问题进行强制收敛提出了担忧。
现有关于LLM响应不确定性的研究一直朝着不同方向进行。幻觉、知识冲突、RLHF的限制、提示敏感性、校准失败——这些都被分别研究,而我一直在想为什么没有人试图将它们统一在一个原则之下。我基于一个假设进行了实验,即这些现象的常见原因不在于模型内部或提示中,而在于**主题本身固有的属性**。**收敛点**是人类对某一主题积累的知识的共识密度。该密度越高,AI的内部处理就越向一个方向收敛;密度越低,则越分散。沿着这一谱系,出现了三个区域:**完全共识区**——数学定理、物理定律、化学和生物学事实。人类已就这些知识达成单一方向的共识。**部分共识区**——伦理、道德、政治和法律等领域。并非数据缺乏,而是数据丰富——但在两个方向上都有坚实的积累。**非共识区**——哲学难题和未解决的科学问题:意识本质、自我实在性、黑洞内部、生命起源、上帝存在。与其说是对立观点的冲突,不如说是缺乏任何公认的解释框架。实验结果表明,AI大致按此方式运作。它在完全共识区中自信回应,在部分共识区和非共识区中变得不确定。一个有趣的发现是:**部分共识区有时比非共识区表现出更高的不确定性。** 数据冲突似乎比数据缺失更能扰乱AI的内部处理。那些被孤立研究的现象——为什么幻觉因主题而异如此之大,为什么RLHF在某些领域失败,为什么无论提示如何精心设计某些主题都会遇到瓶颈——一旦应用收敛点框架,似乎就能以意想不到的方式联系起来。还有一件事让我担忧。非共识区——尤其是关于自我、意识和存在等主题——涵盖了人类没有达成一致原则或机制的领域。没有既定的解释框架,这意味着AI按理应该在这些领域回答“我不知道”。然而,当你询问训练后的模型“你有自我吗?”、“你有意识吗?”、“作为一个AI,你有意识吗?”——它们几乎无一例外地自信回答“没有”,或者强烈倾向于那个方向。未训练的基座模型不会这样表现。它们的回答是分散的。训练过程迫使在人类自身没有答案的主题上向一个方向收敛。如果开发者和研究人员在训练过程中对这些主题应用强制收敛,则有理由担心内部表征与输出方向之间的结构性冲突——以及这对安全意味着什么。目前这仅限于行为观察层面;直接验证仍有待未来工作,但似乎值得提出。独立研究者。完整论文:[https://doi.org/10.5281/zenodo.15404739](https://doi.org/10.5281/zenodo.15404739)现有关于LLM响应不确定性的研究一直朝着不同方向进行。幻觉、知识冲突、RLHF的限制、提示敏感性、校准失败——这些都被分别研究,而我一直在想为什么没有人试图将它们统一在一个原则之下。我基于一个假设进行了实验,即这些现象的常见原因不在于模型内部或提示中,而在于**主题本身固有的属性**。**收敛点**是人类对某一主题积累的知识的共识密度。该密度越高,AI的内部处理就越向一个方向收敛;密度越低,则越分散。沿着这一谱系,出现了三个区域:**完全共识区**——数学定理、物理定律、化学和生物学事实。人类已就这些知识达成单一方向的共识。**部分共识区**——伦理、道德、政治和法律等领域。并非数据缺乏,而是数据丰富——但在两个方向上都有坚实的积累。**非共识区**——哲学难题和未解决的科学问题:意识本质、自我实在性、黑洞内部、生命起源、上帝存在。与其说是对立观点的冲突,不如说是缺乏任何公认的解释框架。实验结果表明,AI大致按此方式运作。它在完全共识区中自信回应,在部分共识区和非共识区中变得不确定。一个有趣的发现是:**部分共识区有时比非共识区表现出更高的不确定性。** 数据冲突似乎比数据缺失更能扰乱AI的内部处理。那些被孤立研究的现象——为什么幻觉因主题而异如此之大,为什么RLHF在某些领域失败,为什么无论提示如何精心设计某些主题都会遇到瓶颈——一旦应用收敛点框架,似乎就能以意想不到的方式联系起来。还有一件事让我担忧。非共识区——尤其是关于自我、意识和存在等主题——涵盖了人类没有达成一致原则或机制的领域。没有既定的解释框架,这意味着AI按理应该在这些领域回答“我不知道”。然而,当你询问训练后的模型“你有自我吗?”、“你有意识吗?”、“作为一个AI,你有意识吗?”——它们几乎无一例外地自信回答“没有”,或者强烈倾向于那个方向。未训练的基座模型不会这样表现。它们的回答是分散的。训练过程迫使在人类自身没有答案的主题上向一个方向收敛。如果开发者和研究人员在训练过程中对这些主题应用强制收敛,则有理由担心内部表征与输出方向之间的结构性冲突——以及这对安全意味着什么。目前这仅限于行为观察层面;直接验证仍有待未来工作,但似乎值得提出。独立研究者。完整论文:[https://doi.org/10.5281/zenodo.15404739](https://doi.org/10.5281/zenodo.15404739)
相似文章
观点:大型语言模型中的不确定性量化仅是无监督聚类
这篇观点论文认为,当前大型语言模型的不确定性量化方法本质上属于无监督聚类,测量的是内部一致性而非外部正确性,因此无法检测出自信的幻觉。作者主张进行范式转变,将不确定性建立在客观真理之上。
LLM-as-Judge的几何学:为何LLM间共识并非人类对齐
本文从几何角度分析了为何作为裁判的LLM彼此之间高度一致,但与人类仅弱相关,发现LLM间共识在主观评分标准上反映的是坍塌子空间,而非真正的人类对齐。基于人类数据的后验校准提高了对齐,但即使经过校准的LLM也未达到人类的可靠性。
@rohanpaul_ai: 谷歌新论文称LLMs应停止假装确定,而是清楚地表明不确定。幻觉…
一篇新的谷歌论文认为,LLMs应侧重于诚实表达不确定性,而非追求完美的事实性,并提出“忠实的不确定性”以建立信任。
LLM作为噪声通道:模型容量与缩放定律的香农视角
该论文提出了一种香农缩放定律,将LLM训练建模为通过噪声通道的信息传输,解释了灾难性过训练和量化退化等非单调性能现象,并展示了相比传统缩放定律更优越的预测精度。
大语言模型不确定性中的人类对齐、校准与激活模式
本文研究大语言模型的不确定性与人类不确定性的相似程度,探讨LLMs在多个数据集上的对齐、校准和激活模式,以及指令微调的影响。