large-reasoning-models

#large-reasoning-models

SuCo：基于充分性的连续自适应推理

arXiv cs.CL ↗ · 2026-06-17 缓存

介绍 SuCo，一种用于大型推理模型的两阶段训练框架，该框架利用最小充分思维链（Minimal Sufficient CoT）的概念，在减少推理令牌数的同时，提高数学、代码和科学基准测试上的准确性。

0 人收藏 0 人点赞

#large-reasoning-models

AdaSR：基于分层相对策略优化的自适应流式推理

arXiv cs.CL ↗ · 2026-06-15 缓存

提出了AdaSR框架，使推理模型能够自适应地处理流式输入，以及HRPO（一种分层强化学习方法），用于优化思考分配，以实现准确性与效率的权衡。

0 人收藏 0 人点赞

#large-reasoning-models

质询的艺术：一致性增强空间推理中的事实性

arXiv cs.AI ↗ · 2026-06-11 缓存

本文提出一种自监督强化学习框架，利用一致性验证器（检查变换下几何和语义一致性的奖励函数）来提升大型推理模型的空间推理能力，无需真实标注。该方法接近监督微调的准确率，并能泛化到多种任务。

0 人收藏 0 人点赞

#large-reasoning-models

将未来行为预测作为学习任务

arXiv cs.AI ↗ · 2026-06-11 缓存

本文提出了 Behavior Forecasters，一种从推理轨迹中预测 LRM 未来行为（如答案一致性和输入敏感性）的学习方法，以更低的成本超越了 GPT-5.4 和 Claude Opus 4.6。

0 人收藏 0 人点赞

#large-reasoning-models

DyCon: 通过演化难度建模的动态推理控制

arXiv cs.AI ↗ · 2026-06-08 缓存

本文介绍了DyCon，一种无需训练的框架，利用步骤级嵌入来建模演化的任务难度，并动态控制大型推理模型（LRMs）的推理深度，有效减少过度思考，在不牺牲准确性的情况下提高效率。

0 人收藏 0 人点赞

#large-reasoning-models

@pallavishekhar_: 大型推理模型 (LRMs) 阅读链接：https://outcomeschool.com/blog/large-reasoning-models…

X AI KOLs Timeline ↗ · 2026-06-05 缓存

这篇博客文章介绍了大型推理模型 (LRMs)，它们与标准LLM的区别、训练方式以及使用时机。文中涵盖了DeepSeek R1和GPT-5.5 Thinking等例子。

0 人收藏 0 人点赞

#large-reasoning-models

ReasoningFlow: 用于理解LLM推理轨迹的篇章结构

arXiv cs.CL ↗ · 2026-06-05 缓存

介绍 ReasoningFlow，一个将大语言模型推理轨迹的篇章结构捕获为有向无环图的框架，从而能够细粒度分析推理行为（如自我反思和回溯）。基于对数千条轨迹的手动和自动标注，揭示了模型之间的结构相似性，并且大多数错误步骤并不贡献于最终答案。

0 人收藏 0 人点赞

#large-reasoning-models

ThoughtFold: 通过内省偏好学习折叠推理链

arXiv cs.AI ↗ · 2026-06-03 缓存

ThoughtFold 提出了一种利用内省偏好学习的框架，旨在减少大型推理模型在思维链推理中的冗余探索，在 DeepSeek-R1-Distill-Qwen-7B 上实现了约 56% 的令牌减少，且准确率无损。

0 人收藏 0 人点赞

#large-reasoning-models

Thinking Past the Answer: Evaluating Harmful Overthinking in Large Reasoning Models

arXiv cs.AI ↗ · 2026-06-03 缓存

This paper introduces a prefix-level trajectory evaluation protocol to distinguish harmful overthinking from verbose but harmless overthinking in large reasoning models, showing that continued reasoning after reaching the correct answer can destabilize performance. The authors find that early stopping improves accuracy by up to 21% on multimodal benchmarks, and identify logical drift and visual reinterpretation as key causes of correctness deviations.

0 人收藏 0 人点赞

#large-reasoning-models