Transformer中隐式演绎推理的缩放特性

Hugging Face Daily Papers 2026/05/05 00:00 论文

摘要

本研究探讨了带有双向掩码的深度Transformer如何实现与显式思维链方法相媲美的隐式演绎推理。研究表明，算法对齐的模型能够在多种图拓扑结构和问题宽度上扩展推理能力。

我们研究了深度受限Transformer中关于Horn子句的隐式演绎推理的缩放特性。通过系统地将可证明性与虚假特征去相关并强制执行算法对齐，我们发现，在具有双向前缀掩码的足够深的模型中，隐式推理在多种图拓扑结构和问题宽度上接近显式CoT性能，尽管CoT对于深度外推仍然是必要的。

查看原文

查看缓存全文

缓存时间: 2026/05/08 14:27

论文页面 - Transformer 中隐式演绎推理的缩放特性

来源：https://huggingface.co/papers/2605.04330 发表于 5 月 5 日

提交者：https://huggingface.co/envomp

Enrico (https://huggingface.co/envomp)于 5 月 8 日

摘要

带有双向掩码的深度 Transformer 在各种图结构和问题规模下展现出与显式思维链方法相当的隐式演绎推理能力。

我们研究了深度受限 Transformer 中隐式演绎推理（https://huggingface.co/papers?q=implicit%20deductive%20reasoning）在霍恩子句（https://huggingface.co/papers?q=Horn%20clauses）上的缩放特性。通过系统地将可证明性与虚假特征去相关并强制执行算法对齐（https://huggingface.co/papers?q=algorithmic%20alignment），我们发现，在具有双向前缀掩码（https://huggingface.co/papers?q=bidirectional%20prefix%20mask）的足够深的模型中，隐式推理在不同图拓扑和问题宽度上接近显式 CoT 的性能，尽管在深度外推方面 CoT 仍然是必要的。

查看 arXiv 页面（https://arxiv.org/abs/2605.04330）查看 PDF（https://arxiv.org/pdf/2605.04330）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2605.04330）

在你的智能体中获取这篇论文：

hf papers read 2605\.04330

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型链接此论文

请在模型 README.md 中引用 arxiv.org/abs/2605.04330 以在此页面建立链接。

引用此论文的数据集0

没有数据集链接此论文

请在数据集 README.md 中引用 arxiv.org/abs/2605.04330 以在此页面建立链接。

引用此论文的空间0

没有空间链接此论文

请在空间 README.md 中引用 arxiv.org/abs/2605.04330 以在此页面建立链接。

包含此论文的收藏0

没有收藏包含此论文

请将这篇论文添加到一个收藏（https://huggingface.co/new-collection）中以在此页面建立链接。

Transformer中隐式演绎推理的缩放特性

论文页面 - Transformer 中隐式演绎推理的缩放特性

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的空间0

包含此论文的收藏0

相似文章

@machinestein: ICML 2026：TRMs中的潜在推理实际上是策略改进算子为什么递归推理，尤其是…

思维的谱几何：相变、指令反转、Token级动力学与Transformers推理中的完美正确性预测

基于代理上下文的链式思维微调长上下文推理

Transformer线性表示高度结构化的世界模型

通过结构化元认知在通用智能体中实现深度推理

提交意见反馈

论文页面 - Transformer 中隐式演绎推理的缩放特性

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的空间0

包含此论文的收藏0

相似文章

@machinestein: ICML 2026：TRMs中的潜在推理实际上是策略改进算子 为什么递归推理，尤其是…

思维的谱几何：相变、指令反转、Token级动力学与Transformers推理中的完美正确性预测

基于代理上下文的链式思维微调长上下文推理

Transformer线性表示高度结构化的世界模型

通过结构化元认知在通用智能体中实现深度推理

提交意见反馈

@machinestein: ICML 2026：TRMs中的潜在推理实际上是策略改进算子为什么递归推理，尤其是…