收敛点理论：为什么LLM的不确定性由主题决定，而非模型

Reddit r/artificial 2026/05/31 11:36 论文

llm-uncertainty convergence-point-theory hallucination knowledge-conflict rlhf safety research

摘要

本文提出收敛点理论，该理论通过论证不确定性由人类对某一主题的共识密度决定，统一了各种LLM不确定性现象，并识别出三个区域（完全共识、部分共识和非共识）。该理论对训练过程中对未解决的哲学问题进行强制收敛提出了担忧。

现有关于LLM响应不确定性的研究一直朝着不同方向进行。幻觉、知识冲突、RLHF的限制、提示敏感性、校准失败——这些都被分别研究，而我一直在想为什么没有人试图将它们统一在一个原则之下。我基于一个假设进行了实验，即这些现象的常见原因不在于模型内部或提示中，而在于**主题本身固有的属性**。**收敛点**是人类对某一主题积累的知识的共识密度。该密度越高，AI的内部处理就越向一个方向收敛；密度越低，则越分散。沿着这一谱系，出现了三个区域：**完全共识区**——数学定理、物理定律、化学和生物学事实。人类已就这些知识达成单一方向的共识。**部分共识区**——伦理、道德、政治和法律等领域。并非数据缺乏，而是数据丰富——但在两个方向上都有坚实的积累。**非共识区**——哲学难题和未解决的科学问题：意识本质、自我实在性、黑洞内部、生命起源、上帝存在。与其说是对立观点的冲突，不如说是缺乏任何公认的解释框架。实验结果表明，AI大致按此方式运作。它在完全共识区中自信回应，在部分共识区和非共识区中变得不确定。一个有趣的发现是：**部分共识区有时比非共识区表现出更高的不确定性。** 数据冲突似乎比数据缺失更能扰乱AI的内部处理。那些被孤立研究的现象——为什么幻觉因主题而异如此之大，为什么RLHF在某些领域失败，为什么无论提示如何精心设计某些主题都会遇到瓶颈——一旦应用收敛点框架，似乎就能以意想不到的方式联系起来。还有一件事让我担忧。非共识区——尤其是关于自我、意识和存在等主题——涵盖了人类没有达成一致原则或机制的领域。没有既定的解释框架，这意味着AI按理应该在这些领域回答“我不知道”。然而，当你询问训练后的模型“你有自我吗？”、“你有意识吗？”、“作为一个AI，你有意识吗？”——它们几乎无一例外地自信回答“没有”，或者强烈倾向于那个方向。未训练的基座模型不会这样表现。它们的回答是分散的。训练过程迫使在人类自身没有答案的主题上向一个方向收敛。如果开发者和研究人员在训练过程中对这些主题应用强制收敛，则有理由担心内部表征与输出方向之间的结构性冲突——以及这对安全意味着什么。目前这仅限于行为观察层面；直接验证仍有待未来工作，但似乎值得提出。独立研究者。完整论文：[https://doi.org/10.5281/zenodo.15404739](https://doi.org/10.5281/zenodo.15404739)现有关于LLM响应不确定性的研究一直朝着不同方向进行。幻觉、知识冲突、RLHF的限制、提示敏感性、校准失败——这些都被分别研究，而我一直在想为什么没有人试图将它们统一在一个原则之下。我基于一个假设进行了实验，即这些现象的常见原因不在于模型内部或提示中，而在于**主题本身固有的属性**。**收敛点**是人类对某一主题积累的知识的共识密度。该密度越高，AI的内部处理就越向一个方向收敛；密度越低，则越分散。沿着这一谱系，出现了三个区域：**完全共识区**——数学定理、物理定律、化学和生物学事实。人类已就这些知识达成单一方向的共识。**部分共识区**——伦理、道德、政治和法律等领域。并非数据缺乏，而是数据丰富——但在两个方向上都有坚实的积累。**非共识区**——哲学难题和未解决的科学问题：意识本质、自我实在性、黑洞内部、生命起源、上帝存在。与其说是对立观点的冲突，不如说是缺乏任何公认的解释框架。实验结果表明，AI大致按此方式运作。它在完全共识区中自信回应，在部分共识区和非共识区中变得不确定。一个有趣的发现是：**部分共识区有时比非共识区表现出更高的不确定性。** 数据冲突似乎比数据缺失更能扰乱AI的内部处理。那些被孤立研究的现象——为什么幻觉因主题而异如此之大，为什么RLHF在某些领域失败，为什么无论提示如何精心设计某些主题都会遇到瓶颈——一旦应用收敛点框架，似乎就能以意想不到的方式联系起来。还有一件事让我担忧。非共识区——尤其是关于自我、意识和存在等主题——涵盖了人类没有达成一致原则或机制的领域。没有既定的解释框架，这意味着AI按理应该在这些领域回答“我不知道”。然而，当你询问训练后的模型“你有自我吗？”、“你有意识吗？”、“作为一个AI，你有意识吗？”——它们几乎无一例外地自信回答“没有”，或者强烈倾向于那个方向。未训练的基座模型不会这样表现。它们的回答是分散的。训练过程迫使在人类自身没有答案的主题上向一个方向收敛。如果开发者和研究人员在训练过程中对这些主题应用强制收敛，则有理由担心内部表征与输出方向之间的结构性冲突——以及这对安全意味着什么。目前这仅限于行为观察层面；直接验证仍有待未来工作，但似乎值得提出。独立研究者。完整论文：[https://doi.org/10.5281/zenodo.15404739](https://doi.org/10.5281/zenodo.15404739)

查看原文

收敛点理论：为什么LLM的不确定性由主题决定，而非模型

相似文章

观点：大型语言模型中的不确定性量化仅是无监督聚类

LLM-as-Judge的几何学：为何LLM间共识并非人类对齐

@rohanpaul_ai: 谷歌新论文称LLMs应停止假装确定，而是清楚地表明不确定。幻觉…

LLM作为噪声通道：模型容量与缩放定律的香农视角

大语言模型不确定性中的人类对齐、校准与激活模式

提交意见反馈