Transformer中隐式演绎推理的缩放特性
摘要
本研究探讨了带有双向掩码的深度Transformer如何实现与显式思维链方法相媲美的隐式演绎推理。研究表明,算法对齐的模型能够在多种图拓扑结构和问题宽度上扩展推理能力。
查看缓存全文
缓存时间: 2026/05/08 14:27
论文页面 - Transformer 中隐式演绎推理的缩放特性
来源:https://huggingface.co/papers/2605.04330 发表于 5 月 5 日
·
提交者:https://huggingface.co/envomp
Enrico (https://huggingface.co/envomp)于 5 月 8 日
摘要
带有双向掩码的深度 Transformer 在各种图结构和问题规模下展现出与显式思维链方法相当的隐式演绎推理能力。
我们研究了深度受限 Transformer 中隐式演绎推理(https://huggingface.co/papers?q=implicit%20deductive%20reasoning)在霍恩子句(https://huggingface.co/papers?q=Horn%20clauses)上的缩放特性。通过系统地将可证明性与虚假特征去相关并强制执行算法对齐(https://huggingface.co/papers?q=algorithmic%20alignment),我们发现,在具有双向前缀掩码(https://huggingface.co/papers?q=bidirectional%20prefix%20mask)的足够深的模型中,隐式推理在不同图拓扑和问题宽度上接近显式 CoT 的性能,尽管在深度外推方面 CoT 仍然是必要的。
查看 arXiv 页面(https://arxiv.org/abs/2605.04330)查看 PDF(https://arxiv.org/pdf/2605.04330)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.04330)
在你的智能体中获取这篇论文:
hf papers read 2605\.04330
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
没有模型链接此论文
请在模型 README.md 中引用 arxiv.org/abs/2605.04330 以在此页面建立链接。
引用此论文的数据集0
没有数据集链接此论文
请在数据集 README.md 中引用 arxiv.org/abs/2605.04330 以在此页面建立链接。
引用此论文的空间0
没有空间链接此论文
请在空间 README.md 中引用 arxiv.org/abs/2605.04330 以在此页面建立链接。
包含此论文的收藏0
没有收藏包含此论文
请将这篇论文添加到一个收藏(https://huggingface.co/new-collection)中以在此页面建立链接。
相似文章
@machinestein: ICML 2026:TRMs中的潜在推理实际上是策略改进算子 为什么递归推理,尤其是…
论文揭示了基于transformer的推理模型(TRMs)中的潜在推理实际上充当了策略改进算子,并提出了一种算法,将学习和推理效率提升高达18倍。
思维的谱几何:相变、指令反转、Token级动力学与Transformers推理中的完美正确性预测
对11个大型语言模型的全面谱分析,揭示了Transformers在推理与事实回忆过程中隐层激活空间中的相变现象,发现了七个基本现象,包括谱压缩、指令微调反转以及仅基于谱特性的完美正确性预测(AUC=1.0)。
基于代理上下文的链式思维微调长上下文推理
提出ProxyCoT训练框架,通过先在小代理上下文中获取链式思维推理轨迹(通过强化学习或蒸馏),再通过监督微调将其锚定到完整长上下文中,从而提升大语言模型的长上下文推理能力。实验表明,该方法在降低计算成本的同时持续优于基线。
Transformer线性表示高度结构化的世界模型
本文证明,在数独求解轨迹上训练的Transformer构建了由领域约束组织的结构化世界模型,并识别出一个稀疏、单语义的电路,负责裸单决策规则。该工作为Transformer在组合任务上的推理提供了完全可解释的算法描述。
通过结构化元认知在通用智能体中实现深度推理
本文介绍了深度推理(Deep Reasoning),这是一种在推理阶段利用结构化元推理为通用智能体构建特定任务脚手架的方法。提出的智能体 Dolores 通过将认知分配到低负载的推理线程中,减少了幻觉并提升了在多个基准测试上的表现,优于现有方法。