Transformer中隐式演绎推理的缩放特性

Hugging Face Daily Papers 论文

摘要

本研究探讨了带有双向掩码的深度Transformer如何实现与显式思维链方法相媲美的隐式演绎推理。研究表明,算法对齐的模型能够在多种图拓扑结构和问题宽度上扩展推理能力。

我们研究了深度受限Transformer中关于Horn子句的隐式演绎推理的缩放特性。通过系统地将可证明性与虚假特征去相关并强制执行算法对齐,我们发现,在具有双向前缀掩码的足够深的模型中,隐式推理在多种图拓扑结构和问题宽度上接近显式CoT性能,尽管CoT对于深度外推仍然是必要的。
查看原文
查看缓存全文

缓存时间: 2026/05/08 14:27

论文页面 - Transformer 中隐式演绎推理的缩放特性

来源:https://huggingface.co/papers/2605.04330 发表于 5 月 5 日

·

提交者:https://huggingface.co/envomp

Enrico (https://huggingface.co/envomp)于 5 月 8 日

摘要

带有双向掩码的深度 Transformer 在各种图结构和问题规模下展现出与显式思维链方法相当的隐式演绎推理能力。

我们研究了深度受限 Transformer 中隐式演绎推理(https://huggingface.co/papers?q=implicit%20deductive%20reasoning)在霍恩子句(https://huggingface.co/papers?q=Horn%20clauses)上的缩放特性。通过系统地将可证明性与虚假特征去相关并强制执行算法对齐(https://huggingface.co/papers?q=algorithmic%20alignment),我们发现,在具有双向前缀掩码(https://huggingface.co/papers?q=bidirectional%20prefix%20mask)的足够深的模型中,隐式推理在不同图拓扑和问题宽度上接近显式 CoT 的性能,尽管在深度外推方面 CoT 仍然是必要的。

查看 arXiv 页面(https://arxiv.org/abs/2605.04330)查看 PDF(https://arxiv.org/pdf/2605.04330)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.04330)

在你的智能体中获取这篇论文:

hf papers read 2605\.04330

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型链接此论文

请在模型 README.md 中引用 arxiv.org/abs/2605.04330 以在此页面建立链接。

引用此论文的数据集0

没有数据集链接此论文

请在数据集 README.md 中引用 arxiv.org/abs/2605.04330 以在此页面建立链接。

引用此论文的空间0

没有空间链接此论文

请在空间 README.md 中引用 arxiv.org/abs/2605.04330 以在此页面建立链接。

包含此论文的收藏0

没有收藏包含此论文

请将这篇论文添加到一个收藏(https://huggingface.co/new-collection)中以在此页面建立链接。

相似文章

基于代理上下文的链式思维微调长上下文推理

arXiv cs.CL

提出ProxyCoT训练框架,通过先在小代理上下文中获取链式思维推理轨迹(通过强化学习或蒸馏),再通过监督微调将其锚定到完整长上下文中,从而提升大语言模型的长上下文推理能力。实验表明,该方法在降低计算成本的同时持续优于基线。

Transformer线性表示高度结构化的世界模型

arXiv cs.LG

本文证明,在数独求解轨迹上训练的Transformer构建了由领域约束组织的结构化世界模型,并识别出一个稀疏、单语义的电路,负责裸单决策规则。该工作为Transformer在组合任务上的推理提供了完全可解释的算法描述。

通过结构化元认知在通用智能体中实现深度推理

arXiv cs.CL

本文介绍了深度推理(Deep Reasoning),这是一种在推理阶段利用结构化元推理为通用智能体构建特定任务脚手架的方法。提出的智能体 Dolores 通过将认知分配到低负载的推理线程中,减少了幻觉并提升了在多个基准测试上的表现,优于现有方法。