何时思考,何时表达:学习大型语言模型推理中的披露策略
摘要
本文提出了“并行交错推理(Side-by-Side Interleaved Reasoning)”方法,通过控制自回归模型中的信息揭示时机,以提高准确性和效率。实验表明,在使用 Qwen3 模型的基准测试中,通过将私密推理与部分信息披露相结合,模型性能得到了提升。
查看缓存全文
缓存时间: 2026/05/08 08:00
论文页面 - 何时思考,何时表达:学习 LLM 推理的披露策略
来源:https://huggingface.co/papers/2605.03314
摘要
并排交错推理(Side-by-Side Interleaved Reasoning)使得自回归模型能够控制信息披露的时机,通过交错私有推理和延迟内容释放,提高了准确性和效率。
在单流自回归接口(https://huggingface.co/papers?q=autoregressive%20interfaces)中,相同的 token 既用于更新模型状态,又构成了不可逆的公开承诺。这种耦合产生了沉默税(silence tax)(https://huggingface.co/papers?q=silence%20tax):额外的深思熟虑会推迟首个与任务相关的内容的出现,而简单的早期流式传输则可能导致过早的承诺,从而偏置后续生成。我们引入了并排(SxS)交错推理(https://huggingface.co/papers?q=Interleaved%20Reasoning),使得在标准自回归生成中,披露时机成为一种可控的决策。SxS 在相同上下文中将部分披露与持续的私有推理(https://huggingface.co/papers?q=private%20reasoning)交错进行,但仅当内容得到迄今为止的推理支持时才进行释放。为了学习这种节奏而不激励填充词,我们通过将答案前缀与支持性推理前缀进行匹配,构建蕴含对齐的交错轨迹,然后通过监督微调(SFT)学习双重动作语义,并通过强化学习(RL)在新格式下恢复推理性能。在两个 Qwen3 架构/规模(MoE(https://huggingface.co/papers?q=MoE)Qwen3-30B-A3B,稠密 Qwen3-4B)以及领域内(AIME25(https://huggingface.co/papers?q=AIME25))和领域外(GPQA-Diamond(https://huggingface.co/papers?q=GPQA-Diamond))基准测试中,SxS 改善了在 token 级代理指标(如更新间等待时间)下的准确率-内容延迟帕累托权衡。
查看 arXiv 页面(https://arxiv.org/abs/2605.03314)查看 PDF(https://arxiv.org/pdf/2605.03314)添加到集合(https://huggingface.co/login?next=%2Fpapers%2F2605.03314)
在你的 Agent 中获取这篇论文:
hf papers read 2605.03314
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型 0
无模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2605.03314 即可从此页面链接。
引用此论文的数据集 0
无数据集链接此论文
在数据集 README.md 中引用 arxiv.org/abs/2605.03314 即可从此页面链接。
引用此论文的 Spaces 0
无 Space 链接此论文
在 Space README.md 中引用 arxiv.org/abs/2605.03314 即可从此页面链接。
包含此论文的集合 0
无集合包含此论文
将此论文添加到集合(https://huggingface.co/new-collection)即可从此页面链接。
相似文章
隐藏思维并非秘密:LLM中的推理痕迹暴露
本文介绍了推理暴露提示(REP)方法,该方法利用代码格式的阴影模型演示,从大语言模型中引出隐藏的推理痕迹,表明接口级别的痕迹隐藏不足以阻止提取有用的推理信号。
何时深度思考:面向LLM推理的抑制性深思
IDPR是一个用于响应条件抑制性深思的框架,它首先生成快速的直观答案,然后使用一个抑制控制器来决定是否调用慢速推理,在保持准确性的同时实现效率提升。
多轮推理中信息分片段到达时的处理:可扩展分片与记忆增强强化学习
本文针对大语言模型在多轮对话中因信息分散而表现不佳的“迷失在对话”问题,提出了一种可扩展的分片流水线,将单轮问答数据集转化为多轮训练数据,并利用基于可验证奖励的强化学习训练一个维持紧凑滚动记忆的记忆增强策略,从而提高了多轮推理准确性,并零样本泛化到更困难的任务。
偏离时回溯:缓解大语言模型推理蒸馏中的双重暴露偏差
本文介绍了一种名为Motab的新型大语言模型推理蒸馏流水线,通过动态监控学生生成并在偏离时回溯到安全状态并借助教师干预,同时缓解离策略和在线策略暴露偏差,取得了约3%的平均性能提升。
学习细化隐藏状态以实现可靠的LLM推理
提出了ReLAR,一种强化引导的潜在细化框架,在解码前迭代更新LLM中的隐藏表示,与思维链方法相比,提高了推理可靠性和效率。