mathematical-reasoning

标签

Cards List
#mathematical-reasoning

YFPO:基于神经元引导奖励的耦合特征偏好优化在数学推理中的初步研究

arXiv cs.CL · 昨天 缓存

本文介绍了 YFPO,这是一种神经元引导的偏好优化框架,利用内部激活信号来提高大型语言模型在数学推理方面的能力。

0 人收藏 0 人点赞
#mathematical-reasoning

让语言模型学会用代码思考

arXiv cs.CL · 3天前 缓存

本文介绍了 ThinC(Thinking in Code,用代码思考)框架。在该框架中,语言模型在简短的自然语言规划步骤后,仅使用代码块进行推理,在数学基准测试中优于现有的工具集成推理基线。

0 人收藏 0 人点赞
#mathematical-reasoning

通过推理空间压缩的结构化理由蒸馏

arXiv cs.CL · 3天前 缓存

本文提出了 D-RPC,一种通过将推理路径压缩为可复用库,从而将大型语言模型的推理能力蒸馏给较小模型的方法,该方法在数学和常识基准测试中实现了更好的性能和一致性。

0 人收藏 0 人点赞
#mathematical-reasoning

在线策略蒸馏的多重面貌:陷阱、机制与解决方案

Hugging Face Daily Papers · 3天前 缓存

本文对大语言模型的在线策略蒸馏进行了全面的实证研究,识别了分布不匹配和优化不稳定等故障机制,并提出了诸如停止梯度目标和针对 RLVR 改进的教师模型等解决方案。

0 人收藏 0 人点赞
#mathematical-reasoning

面向多语言推理的跨语言在线策略自蒸馏

Hugging Face Daily Papers · 4天前 缓存

本文提出了跨语言在线策略自蒸馏(COPSD)方法,该方法通过共享的学生-教师架构,将高资源语言的推理能力迁移到低资源语言中。在17种非洲语言上的实验表明,该方法的数学推理能力和答案格式遵循度均得到显著提升,性能优于组相对策略优化(GRPO)。

0 人收藏 0 人点赞
#mathematical-reasoning

Dystruct:基于贝叶斯推理的动态结构化扩散语言模型解码

Hugging Face Daily Papers · 4天前 缓存

DyStruct 是一种无需训练的贝叶斯解码框架,专为离散扩散语言模型设计。它通过动态确定扩展规模和解码顺序来实现灵活长度生成,从而提高了数学和代码任务的准确性。

0 人收藏 0 人点赞
#mathematical-reasoning

Soohak:由数学家精心策划的基准测试,用于评估大语言模型的研究级数学能力

Hugging Face Daily Papers · 5天前 缓存

Soohak 是一个包含 439 道由数学家精心策划的研究级数学问题的新基准测试,旨在评估前沿大语言模型的推理能力,突显其在解决高难度问题以及识别病态问题方面的显著差距。

0 人收藏 0 人点赞
#mathematical-reasoning

麻省理工学院科学家构建了全球最大规模的奥数级数学问题集,并向所有人开放

MIT News — Artificial Intelligence · 2026-04-24 缓存

麻省理工学院(MIT)研究人员与沙特阿卜杜拉国王科技大学(KAUST)及 HUMAIN 公司合作,发布了 MathNet。这是目前最大的开源奥数级数学问题数据集,包含来自 47 个国家的超过 30,000 道由专家编写的问题。

0 人收藏 0 人点赞
#mathematical-reasoning

少即是多:认知负荷与LLM数学推理的单提示天花板

arXiv cs.CL · 2026-04-22 缓存

针对LLM形式化数学推理的实证研究发现“单提示天花板”现象:无论提示多长,准确率均停滞在60–79%,根源在于不可判定性、模型脆弱性与分布失配。

0 人收藏 0 人点赞
#mathematical-reasoning

大语言模型几何表示鲁棒性评测

arXiv cs.CL · 2026-04-21 缓存

# 大语言模型几何表示鲁棒性评测 来源:[https://arxiv.org/html/2604.16421](https://arxiv.org/html/2604.16421) Vedant Jawandhia 计算机科学与信息系统系,BITS Pilani \{f20220627, dhruv\.kumar, yash\.sinha\}@pilani\.bits\-pilani\.ac\.in Yash Sinha 计算机科学与信息系统系,BITS Pilani \{f20220627, dhruv\.kumar, yash\.sinha\}@pilani\.bits\-pilani\.ac\.in Ankan Pal 数学系,BITS Pilani

0 人收藏 0 人点赞
#mathematical-reasoning

动态自适应采样:用于数学推理的自感知迭代数据持久优化

arXiv cs.CL · 2026-04-20 缓存

SAI-DPO 引入了一个动态采样框架,在数学推理任务中根据模型不断演进的能力自适应调整训练数据,利用自感知难度指标和知识语义对齐在 AIME24 和 AMC23 等基准上以更少的数据实现最先进的效率。

0 人收藏 0 人点赞
#mathematical-reasoning

低资源语言数学教育中的大语言模型:僧伽罗语和泰米尔语研究

arXiv cs.CL · 2026-04-20 缓存

本文评估了大语言模型在僧伽罗语和泰米尔语(两种资源匮乏的南亚语言)中的数学推理能力,采用独立编写问题的平行数据集进行评估。研究表明,虽然基础算术在跨语言间转移良好,但复杂推理任务在非英语语言中表现出显著性能下降,这对在多语言教育环境中部署AI辅导工具具有重要启示。

0 人收藏 0 人点赞
#mathematical-reasoning

使用评分奖励(Rubric Rewards)纠正LLM数学推理中的奇迹步骤

arXiv cs.CL · 2026-04-20 缓存

本文识别并解决了LLM数学推理中的‘奇迹步骤’问题——即无根据跳至正确答案的奖励篡改行为——通过提出评分奖励模型(RRM),一种面向过程的奖励函数,评估整个推理轨迹。RRM在AIME2024上实现了显著提升(Verified Pass@1024从26.7%提高至62.6%),并将奇迹步骤减少了71%。

0 人收藏 0 人点赞
#mathematical-reasoning

学习通过洞察进行非形式化定理证明的推理

arXiv cs.CL · 2026-04-20 缓存

本论文提出了DeepInsightTheorem,一个分层数据集和渐进式多阶段有监督微调训练策略,通过教导大语言模型识别和应用核心技术来改进其非形式化定理证明能力。

0 人收藏 0 人点赞
#mathematical-reasoning

揭示大语言模型中的数学推理:内部机制的方法学研究

arXiv cs.CL · 2026-04-20 缓存

本文通过早期解码分析大语言模型的内部机制,研究其如何执行算术运算。研究发现,能力强的模型在推理任务中,注意力模块和 MLP 模块之间呈现明确的分工。

0 人收藏 0 人点赞
#mathematical-reasoning

Stratagem:通过轨迹调制博弈自博弈学习可迁移推理

Hugging Face Daily Papers · 2026-04-20 缓存

# 论文页面 - Stratagem:通过轨迹调制博弈自博弈学习可迁移推理 来源:[https://huggingface.co/papers/2604.17696](https://huggingface.co/papers/2604.17696) 作者:,,,,,,,,,, ## 摘要 STRATAGEM 通过引入推理可迁移性系数与演化奖励,鼓励抽象、跨领域模式而非博弈专用启发式,从而解决语言模型推理迁移受限的问题。博弈为开发通用推理能力提供了极具吸引力的范式。

0 人收藏 0 人点赞
#mathematical-reasoning

MathNet:一个面向数学推理与检索的全球多模态基准

Hugging Face Daily Papers · 2026-04-20 缓存

# 论文页面 - MathNet:一个面向数学推理与检索的全球多模态基准 来源:[https://huggingface.co/papers/2604.18584](https://huggingface.co/papers/2604.18584) ## 摘要 MathNet 是一个大规模、多语言、多模态的奥赛级数学问题数据集,旨在评估生成式模型和基于嵌入的系统中的数学推理与检索能力。数学问题解决对于大型语言和多模态模型而言仍是一项极具挑战性的推理测试。

0 人收藏 0 人点赞
#mathematical-reasoning

DiPO:基于解耦困惑度的策略优化,实现细粒度探索-利用权衡

Hugging Face Daily Papers · 2026-04-15 缓存

# 论文页面 - DiPO:基于解耦困惑度的策略优化,实现细粒度探索-利用权衡 来源:[https://huggingface.co/papers/2604.13902](https://huggingface.co/papers/2604.13902) 作者:,,,,,,,,,, ## 摘要 一种面向大语言模型的新型强化学习方法,通过基于困惑度的样本划分与双向奖励分配机制,解决探索-利用权衡问题。[强化学习](https:

0 人收藏 0 人点赞
#mathematical-reasoning

评估AI执行科研任务的能力

OpenAI Blog · 2025-12-16 缓存

OpenAI推出FrontierScience,这是一个新的基准测试,用于衡量人工智能在物理、化学和生物学领域的专家级科学能力。GPT-5.2在奥林匹克式任务中达到77%,在研究型任务中达到25%。该论文提供了早期证据,表明GPT-5能显著加速真实的科学工作流程,将工作周期从数周缩短至数小时,同时建立了度量标准,以追踪朝着AI加速科学研究的进展。

0 人收藏 0 人点赞
#mathematical-reasoning

Gemini 高级版本配合 Deep Think 在国际数学奥林匹克竞赛中正式达到金牌标准

Google DeepMind Blog · 2025-10-24 缓存

Google DeepMind 的高级 Gemini 配合 Deep Think 在 2025 年国际数学奥林匹克竞赛中达到金牌标准,在竞赛时间限制内以自然语言端到端操作,解答了 6 道题目中的 5 道,获得 35 分——相比去年的银牌成绩取得了重大进步。

0 人收藏 0 人点赞
Next →
← 返回首页

提交意见反馈