何时思考，何时表达：学习大型语言模型推理中的披露策略

Hugging Face Daily Papers 2026/05/06 00:00 论文

摘要

本文提出了“并行交错推理（Side-by-Side Interleaved Reasoning）”方法，通过控制自回归模型中的信息揭示时机，以提高准确性和效率。实验表明，在使用 Qwen3 模型的基准测试中，通过将私密推理与部分信息披露相结合，模型性能得到了提升。

在单流自回归接口中，相同的 token 既用于更新模型状态，又构成不可逆转的公开承诺。这种耦合导致了一种“沉默税”：额外的深思熟虑会延迟首次输出与任务相关的内容，而朴素的早期流式输出则可能因过早承诺而扭曲后续生成。我们提出了“并行（SxS）交错推理”方法，在标准自回归生成过程中使信息披露时机成为一个可控的决策。SxS 在同一上下文中将部分信息披露与持续的私密推理交错进行，但仅在现有推理支持时才释放内容。为了学习这种节奏而不鼓励无意义的填充内容，我们构建了蕴含对齐的交错轨迹，通过将答案前缀与支持性推理前缀相匹配，随后进行监督微调（SFT）以习得双重动作语义，并利用强化学习（RL）在新格式下恢复推理性能。在两种 Qwen3 架构/规模（MoE Qwen3-30B-A3B、稠密 Qwen3-4B）以及域内（AIME25）和域外（GPQA-Diamond）基准测试中，SxS 均提升了基于 token 级代理指标（如更新间等待时间）的准确性与内容延迟帕累托权衡表现。

查看原文

查看缓存全文

缓存时间: 2026/05/08 08:00

论文页面 - 何时思考，何时表达：学习 LLM 推理的披露策略

来源：https://huggingface.co/papers/2605.03314

摘要

并排交错推理（Side-by-Side Interleaved Reasoning）使得自回归模型能够控制信息披露的时机，通过交错私有推理和延迟内容释放，提高了准确性和效率。

在单流自回归接口（https://huggingface.co/papers?q=autoregressive%20interfaces）中，相同的 token 既用于更新模型状态，又构成了不可逆的公开承诺。这种耦合产生了沉默税（silence tax）（https://huggingface.co/papers?q=silence%20tax）：额外的深思熟虑会推迟首个与任务相关的内容的出现，而简单的早期流式传输则可能导致过早的承诺，从而偏置后续生成。我们引入了并排（SxS）交错推理（https://huggingface.co/papers?q=Interleaved%20Reasoning），使得在标准自回归生成中，披露时机成为一种可控的决策。SxS 在相同上下文中将部分披露与持续的私有推理（https://huggingface.co/papers?q=private%20reasoning）交错进行，但仅当内容得到迄今为止的推理支持时才进行释放。为了学习这种节奏而不激励填充词，我们通过将答案前缀与支持性推理前缀进行匹配，构建蕴含对齐的交错轨迹，然后通过监督微调（SFT）学习双重动作语义，并通过强化学习（RL）在新格式下恢复推理性能。在两个 Qwen3 架构/规模（MoE（https://huggingface.co/papers?q=MoE）Qwen3-30B-A3B，稠密 Qwen3-4B）以及领域内（AIME25（https://huggingface.co/papers?q=AIME25））和领域外（GPQA-Diamond（https://huggingface.co/papers?q=GPQA-Diamond））基准测试中，SxS 改善了在 token 级代理指标（如更新间等待时间）下的准确率-内容延迟帕累托权衡。

查看 arXiv 页面（https://arxiv.org/abs/2605.03314）查看 PDF（https://arxiv.org/pdf/2605.03314）添加到集合（https://huggingface.co/login?next=%2Fpapers%2F2605.03314）

在你的 Agent 中获取这篇论文：

hf papers read 2605.03314

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 0

无模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2605.03314 即可从此页面链接。

引用此论文的数据集 0

无数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.03314 即可从此页面链接。

引用此论文的 Spaces 0

无 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2605.03314 即可从此页面链接。

包含此论文的集合 0

无集合包含此论文

将此论文添加到集合（https://huggingface.co/new-collection）即可从此页面链接。

何时思考，何时表达：学习大型语言模型推理中的披露策略

论文页面 - 何时思考，何时表达：学习 LLM 推理的披露策略

摘要

引用此论文的模型 0

引用此论文的数据集 0

引用此论文的 Spaces 0

包含此论文的集合 0

相似文章

隐藏思维并非秘密：LLM中的推理痕迹暴露

何时深度思考：面向LLM推理的抑制性深思

多轮推理中信息分片段到达时的处理：可扩展分片与记忆增强强化学习

偏离时回溯：缓解大语言模型推理蒸馏中的双重暴露偏差

学习细化隐藏状态以实现可靠的LLM推理

提交意见反馈