何时思考,何时表达:学习大型语言模型推理中的披露策略

Hugging Face Daily Papers 论文

摘要

本文提出了“并行交错推理(Side-by-Side Interleaved Reasoning)”方法,通过控制自回归模型中的信息揭示时机,以提高准确性和效率。实验表明,在使用 Qwen3 模型的基准测试中,通过将私密推理与部分信息披露相结合,模型性能得到了提升。

在单流自回归接口中,相同的 token 既用于更新模型状态,又构成不可逆转的公开承诺。这种耦合导致了一种“沉默税”:额外的深思熟虑会延迟首次输出与任务相关的内容,而朴素的早期流式输出则可能因过早承诺而扭曲后续生成。我们提出了“并行(SxS)交错推理”方法,在标准自回归生成过程中使信息披露时机成为一个可控的决策。SxS 在同一上下文中将部分信息披露与持续的私密推理交错进行,但仅在现有推理支持时才释放内容。为了学习这种节奏而不鼓励无意义的填充内容,我们构建了蕴含对齐的交错轨迹,通过将答案前缀与支持性推理前缀相匹配,随后进行监督微调(SFT)以习得双重动作语义,并利用强化学习(RL)在新格式下恢复推理性能。在两种 Qwen3 架构/规模(MoE Qwen3-30B-A3B、稠密 Qwen3-4B)以及域内(AIME25)和域外(GPQA-Diamond)基准测试中,SxS 均提升了基于 token 级代理指标(如更新间等待时间)的准确性与内容延迟帕累托权衡表现。
查看原文
查看缓存全文

缓存时间: 2026/05/08 08:00

论文页面 - 何时思考,何时表达:学习 LLM 推理的披露策略

来源:https://huggingface.co/papers/2605.03314

摘要

并排交错推理(Side-by-Side Interleaved Reasoning)使得自回归模型能够控制信息披露的时机,通过交错私有推理和延迟内容释放,提高了准确性和效率。

在单流自回归接口(https://huggingface.co/papers?q=autoregressive%20interfaces)中,相同的 token 既用于更新模型状态,又构成了不可逆的公开承诺。这种耦合产生了沉默税(silence tax)(https://huggingface.co/papers?q=silence%20tax):额外的深思熟虑会推迟首个与任务相关的内容的出现,而简单的早期流式传输则可能导致过早的承诺,从而偏置后续生成。我们引入了并排(SxS)交错推理(https://huggingface.co/papers?q=Interleaved%20Reasoning),使得在标准自回归生成中,披露时机成为一种可控的决策。SxS 在相同上下文中将部分披露与持续的私有推理(https://huggingface.co/papers?q=private%20reasoning)交错进行,但仅当内容得到迄今为止的推理支持时才进行释放。为了学习这种节奏而不激励填充词,我们通过将答案前缀与支持性推理前缀进行匹配,构建蕴含对齐的交错轨迹,然后通过监督微调(SFT)学习双重动作语义,并通过强化学习(RL)在新格式下恢复推理性能。在两个 Qwen3 架构/规模(MoE(https://huggingface.co/papers?q=MoE)Qwen3-30B-A3B,稠密 Qwen3-4B)以及领域内(AIME25(https://huggingface.co/papers?q=AIME25))和领域外(GPQA-Diamond(https://huggingface.co/papers?q=GPQA-Diamond))基准测试中,SxS 改善了在 token 级代理指标(如更新间等待时间)下的准确率-内容延迟帕累托权衡。

查看 arXiv 页面(https://arxiv.org/abs/2605.03314)查看 PDF(https://arxiv.org/pdf/2605.03314)添加到集合(https://huggingface.co/login?next=%2Fpapers%2F2605.03314)

在你的 Agent 中获取这篇论文:

hf papers read 2605.03314

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 0

无模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2605.03314 即可从此页面链接。

引用此论文的数据集 0

无数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.03314 即可从此页面链接。

引用此论文的 Spaces 0

无 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2605.03314 即可从此页面链接。

包含此论文的集合 0

无集合包含此论文

将此论文添加到集合(https://huggingface.co/new-collection)即可从此页面链接。

相似文章

隐藏思维并非秘密:LLM中的推理痕迹暴露

arXiv cs.AI

本文介绍了推理暴露提示(REP)方法,该方法利用代码格式的阴影模型演示,从大语言模型中引出隐藏的推理痕迹,表明接口级别的痕迹隐藏不足以阻止提取有用的推理信号。

何时深度思考:面向LLM推理的抑制性深思

arXiv cs.CL

IDPR是一个用于响应条件抑制性深思的框架,它首先生成快速的直观答案,然后使用一个抑制控制器来决定是否调用慢速推理,在保持准确性的同时实现效率提升。

多轮推理中信息分片段到达时的处理:可扩展分片与记忆增强强化学习

arXiv cs.CL

本文针对大语言模型在多轮对话中因信息分散而表现不佳的“迷失在对话”问题,提出了一种可扩展的分片流水线,将单轮问答数据集转化为多轮训练数据,并利用基于可验证奖励的强化学习训练一个维持紧凑滚动记忆的记忆增强策略,从而提高了多轮推理准确性,并零样本泛化到更困难的任务。