标签
介绍 SuCo,一种用于大型推理模型的两阶段训练框架,该框架利用最小充分思维链(Minimal Sufficient CoT)的概念,在减少推理令牌数的同时,提高数学、代码和科学基准测试上的准确性。
提出了AdaSR框架,使推理模型能够自适应地处理流式输入,以及HRPO(一种分层强化学习方法),用于优化思考分配,以实现准确性与效率的权衡。
本文提出一种自监督强化学习框架,利用一致性验证器(检查变换下几何和语义一致性的奖励函数)来提升大型推理模型的空间推理能力,无需真实标注。该方法接近监督微调的准确率,并能泛化到多种任务。
本文提出了 Behavior Forecasters,一种从推理轨迹中预测 LRM 未来行为(如答案一致性和输入敏感性)的学习方法,以更低的成本超越了 GPT-5.4 和 Claude Opus 4.6。
本文介绍了DyCon,一种无需训练的框架,利用步骤级嵌入来建模演化的任务难度,并动态控制大型推理模型(LRMs)的推理深度,有效减少过度思考,在不牺牲准确性的情况下提高效率。
这篇博客文章介绍了大型推理模型 (LRMs),它们与标准LLM的区别、训练方式以及使用时机。文中涵盖了DeepSeek R1和GPT-5.5 Thinking等例子。
介绍 ReasoningFlow,一个将大语言模型推理轨迹的篇章结构捕获为有向无环图的框架,从而能够细粒度分析推理行为(如自我反思和回溯)。基于对数千条轨迹的手动和自动标注,揭示了模型之间的结构相似性,并且大多数错误步骤并不贡献于最终答案。
ThoughtFold 提出了一种利用内省偏好学习的框架,旨在减少大型推理模型在思维链推理中的冗余探索,在 DeepSeek-R1-Distill-Qwen-7B 上实现了约 56% 的令牌减少,且准确率无损。
This paper introduces a prefix-level trajectory evaluation protocol to distinguish harmful overthinking from verbose but harmless overthinking in large reasoning models, showing that continued reasoning after reaching the correct answer can destabilize performance. The authors find that early stopping improves accuracy by up to 21% on multimodal benchmarks, and identify logical drift and visual reinterpretation as key causes of correctness deviations.
本文研究了大型推理模型(LRMs)中的生成-评估差距,发现尽管它们能近乎完美地生成解决方案,但由于答案确认偏差,它们无法稳健地评估推理过程。
本文提出EcoTab,一种表格感知的逐步路由框架,分别估计表格标记和文本标记的不确定性,以动态地在小型和大型模型之间路由推理步骤,在表格推理任务上实现了更好的准确性与效率权衡。
RoRo 提出了一种面向大型推理模型逐步模型路由的评分引导过程奖励框架,将过程奖励与结果奖励结合,通过 GRPO 训练路由策略,在推理基准测试中优于基线方法。
本文研究了思维链推理痕迹如何在不同模型间转移,采用受控的提供者-接收者框架来剖析成功转移背后的机制。
PathCal 是一种无需训练的解码控制器,通过区分反思标记类型并仅在局部不确定状态进行干预,校准大型推理模型的推理路径,在保持精度的同时提升效率。
本文研究大型推理模型如何在内部检测并纠正自身错误,识别出一个高度可解释的批判向量,该向量无需额外训练即可增强错误检测能力,并提升测试时扩展性能。
本文研究了对大型推理模型(LRM)的越狱攻击,揭示了攻击成功率与注意力模式相关。作者提出了一种基于强化学习的越狱方法,将注意力信号纳入奖励函数,并采用多样化的说服策略,在多个基准测试中实现了显著更高的攻击成功率。
PolitNuggets是一个多语言基准,用于评估大型推理模型在代理框架中发现和综合长尾政治事实的能力,通过为400位全球精英构建传记。该基准引入了如FactNet等评估协议,并揭示了当前系统在细粒度细节和效率方面存在困难。
本文研究了大型推理模型中的安全失效问题,即尽管最终答案安全,但推理轨迹中仍会出现有害内容,并提出了一种自适应多原则引导方法来缓解这些风险。
CiPO是一种新颖的机器遗忘框架,用于大型推理模型,它利用迭代偏好优化和反事实推理轨迹,在保持推理能力的同时选择性移除不想要的知识。该方法通过生成逻辑上有效的替代推理路径,解决了依赖于链式思维推理的模型中的遗忘挑战。