标签
本文研究了LLM解码过程中的早期令牌置信度信号是否能预测多智能体辩论系统中的推理质量,发现前几个生成令牌的置信度是基于评分标准的论文分数的最强预测因子。
本文研究了多智能体辩论系统中令牌级对数概率分布、LLM-as-judge评分标准分数和最终任务准确性之间的关系。它发现了一致的四阶段置信度轨迹以及Constructor与Auditor智能体之间的角色不对称性。
本文重新审视了LLM推理背景下的均匀信息密度(UID)假设,引入了一个基于熵的框架来量化信息流的均匀性。在七个推理基准上的实验发现,高质量的推理在步骤过渡上表现出局部均匀性,但在轨迹结构上呈现全局非均匀性,这表明LLM推理与人类交流模式存在根本性差异。