mathematical-reasoning

#mathematical-reasoning

超越轨迹模仿：面向大模型推理的Strategy-Guided Policy Optimization

arXiv cs.AI ↗ · 7小时前缓存

介绍了针对大模型推理的Strategy-Guided Policy Optimization（SGPO），该方法用策略蒸馏替代轨迹模仿，提升了数学基准测试上的泛化能力。

0 人收藏 0 人点赞

#mathematical-reasoning

AI逻辑的蛮力方法确实遇到了瓶颈

Reddit r/ArtificialInteligence ↗ · 昨天

文章认为自回归语言模型无法真正理解形式数学，需要验证方法，并引用了诸如Aleph等依赖严格数学证明的系统。

0 人收藏 0 人点赞

#mathematical-reasoning

多语言中数学推理的LLM参数：共享还是独立？

arXiv cs.CL ↗ · 6天前缓存

本文提出了一种跨语言的LLM数学推理机制分析，发现数学相关参数在不同语言之间存在部分重叠，主要集中于中间层。英语拥有最大规模的数学相关参数集，而低资源语言则拥有较小的参数集。

0 人收藏 0 人点赞

#mathematical-reasoning

MathVis-Fine：通过渐进式依赖引导训练对齐视觉监督与必要性，实现多模态数学推理

arXiv cs.AI ↗ · 2026-06-17 缓存

本文介绍了MathVis-Fine，一个用于多模态数学推理中细粒度视觉依赖建模的框架，同时包含一个新数据集和一个两阶段渐进式训练范式，该范式根据每个样本固有的视觉依赖水平平衡答案正确性奖励和视觉接地奖励。

0 人收藏 0 人点赞

#mathematical-reasoning

打破自回归诅咒：动态认知熵编排的可擦除强化学习用于LLMs

arXiv cs.AI ↗ · 2026-06-17 缓存

本文提出E³RL，一种使用动态认知熵阈值的强化学习方法，使LLMs能够在生成过程中切除局部逻辑缺陷，克服长程推理中的自回归诅咒，并在AIME等数学推理基准上取得最先进的结果。

0 人收藏 0 人点赞

#mathematical-reasoning

PowerOPD: 使用有界幂变换稳定在线策略蒸馏

arXiv cs.LG ↗ · 2026-06-17 缓存

PowerOPD 引入了一种有界幂变换来稳定大型语言模型的在线策略蒸馏，在降低计算成本的同时，实现了准确性和样本效率的显著提升。

0 人收藏 0 人点赞

#mathematical-reasoning

@agarwl_: 自蒸馏方法目前对思维模型无效 https://arxiv.org/abs/2603.24472 https://openreview.net/forum?i…

X AI KOLs Timeline ↗ · 2026-06-15 缓存

本文研究了为何自蒸馏会降低大语言模型的推理能力，发现它会抑制认知性言语化（不确定性表达），导致数学推理任务中的性能下降高达40%。

0 人收藏 0 人点赞

#mathematical-reasoning

LLM推理的周期表：推理范式、方法与失败模式的系统综述

arXiv cs.CL ↗ · 2026-06-11 缓存

一项综合分析超过300篇关于LLM推理的论文，提出了推理范式的分类体系，包括Chain-of-Thought、Multi-Hop、Mathematical、Commonsense等，并总结了常见的失败模式和研究空白。

0 人收藏 0 人点赞

#mathematical-reasoning

ComBench：一个用于奥林匹克级组合数学严谨证明推理与构造实现的基准

arXiv cs.AI ↗ · 2026-06-10 缓存

ComBench 是一个奥林匹克级组合数学基准测试，包含100道题目，旨在评估大语言模型的严谨证明推理与构造实现能力。结果表明，像GPT-5.5这样的前沿模型仅达到65.4%的总体平均分，并且这两种能力是截然不同的。

0 人收藏 0 人点赞

#mathematical-reasoning

PADD：面向无路由教师指导MoE学生学习的路径对齐解压缩蒸馏

arXiv cs.CL ↗ · 2026-06-10 缓存

提出PADD框架，用于将知识从密集教师模型蒸馏到混合专家（MoE）学生模型，解决了教师无路由器情况下学习路由策略的挑战。该方法包含四个阶段，在数学推理基准测试上展示了改进效果。

0 人收藏 0 人点赞

#mathematical-reasoning

N-GRPO：嵌入级邻居混合以增强策略优化

Hugging Face Daily Papers ↗ · 2026-06-09 缓存

N-GRPO 在 GRPO 框架中引入语义邻居混合，以增强数学推理多样性并保持语义一致性，在数学基准和分布外任务上均取得了提升。

0 人收藏 0 人点赞

#mathematical-reasoning

从正确性到效用：基于增益的LLM推理前缀评估

arXiv cs.CL ↗ · 2026-06-08 缓存

本文介绍了前缀效用模型（PUM），该模型基于前缀的效用（解题率的提升）而非局部正确性来评估LLM推理前缀。PUM在数学推理任务中的选择、搜索和强化学习方面表现出色。

0 人收藏 0 人点赞

#mathematical-reasoning

RASFT：面向推理的滚动自适应监督微调

arXiv cs.LG ↗ · 2026-06-08 缓存

RASFT是一种新颖的大型语言模型监督微调框架，它根据模型自身的推理能力调整专家监督，在数学和代码推理基准测试中相比标准SFT和强化学习方法取得了更好的性能。

0 人收藏 0 人点赞

#mathematical-reasoning

微调陷阱：评估负迁移与PEFT在Sub-1B数学推理中的作用

arXiv cs.LG ↗ · 2026-06-08 缓存

本文对Sub-1B模型在数学推理任务上进行了基准测试，揭示全量微调会主动损害300M参数以下模型的性能，而LoRA和DoRA等参数高效微调（PEFT）则提供了稳定性。作者建议对所有对齐的Sub-1B模型默认使用PEFT，并警告不要对小于500M参数的架构使用全量微调，以防止灾难性遗忘。

0 人收藏 0 人点赞

#mathematical-reasoning

CrowdMath: 一个众包数学研究讨论数据集

arXiv cs.AI ↗ · 2026-06-08 缓存

介绍了CrowdMath，一个包含164条专家标注的进展链条的数据集，来自MIT PRIMES–AoPS CrowdMath项目，捕捉了协作数学问题解决过程。对六个前沿模型进行基准测试，发现它们在下一帖子预测上达到83-88%的准确率，但在帖子角色分类上仅有0.42的macro-F1，突显了在理解协作进展方面的差距。

0 人收藏 0 人点赞

#mathematical-reasoning