标签
本综述全面概述了LLM中的隐式推理,探讨了在连续隐藏状态中执行多步推理且无需显式token级监督的方法。
一位知乎答主半年前的预测——下一个Transformer将吸收循环、递归状态、稀疏路由和潜在推理——随着Loop Engineering的推进,正变得越来越有现实意义。本文探讨了未来的Transformer架构如何演变为混合模型:将线性复杂度的层用于背景上下文,注意力机制用于精确推理,再加上更细粒度的稀疏性和原生的System 2推理。
IV-CoT 将视觉条件分解为结构和语义级联,以改进结构感知的图像生成,使用仅训练阶段的草图监督来指导结构查询。在 GenEval 和 T2I-CompBench 上达到了最先进的结果。
论文揭示了基于transformer的推理模型(TRMs)中的潜在推理实际上充当了策略改进算子,并提出了一种算法,将学习和推理效率提升高达18倍。
SuperThoughts 将连续的思维链令牌压缩为潜在表示,并每步解码两个令牌,在数学推理基准上实现了约20-30%的思维链长度缩减,准确率损失极小,同时将推理吞吐量提高了一倍。
本文分析了隐式推理模型(LRM),并论证隐状态中的可观测模式并非推理的因果解释;它倡导在可解释性研究中采用匹配对照和因果测试。
SWITCH 是一种可切换隐式推理框架,它使用显式边界标记,通过基于在策略的强化学习实现可训练且可解释的递归隐状态推理,优于先前的方法。
本文识别了CoCoNuT潜在推理范式中的'概念瓶颈',即隐藏状态在多次传递中被覆盖,并提出了AGCLR,该方法添加了门控持久记忆流以保留中间事实。在GSM8K、HotpotQA和ProsQA上使用GPT-2进行评估,结果显示一致性改进,尤其是在多跳任务上。
本文讨论了LLM推理研究的一个转变:从通过思维链使推理显式化,转向探索无需语言痕迹的潜在推理,质疑可见性对于有效推理是否必要。
MIRAGE 是一个面向移动端 GUI 智能体的框架,它以紧凑的连续潜在表示取代冗长的思维链推理,并融入生成式世界模型视角,在执行操作前预测未来的屏幕状态。在 AndroidWorld 和 AndroidControl 基准测试中,该框架在减少超过 75% 生成 token 的同时,实现了具有竞争力或更优的性能表现。
提出NF-CoT,一种使用归一化流来建模LLMs中连续思维的潜在推理框架,保留了自回归优势,并以更低的成本实现了更好的代码生成性能。
本文介绍了自适应潜在智能体推理(ALAR),一种针对LLM智能体的双模式框架,它使用紧凑的潜在推理处理常规轮次,并选择性地升级为显式思维链以应对更困难的决策,实现了高达84.6%的令牌减少,同时保持任务准确性。
LaSR提出了一种针对上下文感知语音识别的潜在推理训练范式,围绕声学特征对齐思维链监督,以在无额外延迟的情况下提高术语识别能力,在Fun-Audio-Chat上优于标准微调。
几何潜在推理(GLR)为LLM中的潜在推理引入了一种几何路径近似方法,能够在数学推理基准上保持准确性的同时实现更短的生成。
本文介绍了语义步骤预测,该方法在推理步骤边界而非随机令牌位置上应用几何正则化,在ProcessBench上相比固定基线实现了168倍的多步潜在预测提升。
CoLaGuard 是一种新型护栏模型,它将多步安全推理转移到连续潜在空间中,与显式推理基线相比,实现了 12.9 倍的加速和 22.4 倍的 Token 缩减,同时在十个安全基准上匹配宏 F1 性能。
本文研究多模态大语言模型(MLLMs)是否能够利用Miller指数作为潜变量表示,从视觉输入推理晶体学断裂几何,评估其推断物理有效平面假设的能力,并判断该表示在陶瓷、玻璃、金属和混凝土等材料中的适用性。
论文介绍了TTE-Flash,一种用潜在思考令牌替换显式思维链推理的方法,以恒定推理成本生成推理感知的多模态表示,在MMEB-v2基准测试上优于显式CoT基线。
LaMR 提出了一种针对编码代理的结构化剪枝框架,将代码相关性分解为语义证据和依赖支持两个维度,使用专用的条件随机场和混合专家门控机制,在保持或提升任务性能的同时,最多可减少 31% 的 Token 使用量。
本论文提出了一种有限答案理论,用于分析语言模型在输出文本之前何时对答案做出承诺。作者使用 Qwen3-4B-Instruct 演示,答案偏好在最终输出生成之前已显著稳定下来,这为理解潜在推理过程和模型内部状态提供了见解。