标签
麻省理工学院(MIT)研究人员与沙特阿卜杜拉国王科技大学(KAUST)及 HUMAIN 公司合作,发布了 MathNet。这是目前最大的开源奥数级数学问题数据集,包含来自 47 个国家的超过 30,000 道由专家编写的问题。
针对LLM形式化数学推理的实证研究发现“单提示天花板”现象:无论提示多长,准确率均停滞在60–79%,根源在于不可判定性、模型脆弱性与分布失配。
# 大语言模型几何表示鲁棒性评测 来源:[https://arxiv.org/html/2604.16421](https://arxiv.org/html/2604.16421) Vedant Jawandhia 计算机科学与信息系统系,BITS Pilani \{f20220627, dhruv\.kumar, yash\.sinha\}@pilani\.bits\-pilani\.ac\.in Yash Sinha 计算机科学与信息系统系,BITS Pilani \{f20220627, dhruv\.kumar, yash\.sinha\}@pilani\.bits\-pilani\.ac\.in Ankan Pal 数学系,BITS Pilani
SAI-DPO 引入了一个动态采样框架,在数学推理任务中根据模型不断演进的能力自适应调整训练数据,利用自感知难度指标和知识语义对齐在 AIME24 和 AMC23 等基准上以更少的数据实现最先进的效率。
本文评估了大语言模型在僧伽罗语和泰米尔语(两种资源匮乏的南亚语言)中的数学推理能力,采用独立编写问题的平行数据集进行评估。研究表明,虽然基础算术在跨语言间转移良好,但复杂推理任务在非英语语言中表现出显著性能下降,这对在多语言教育环境中部署AI辅导工具具有重要启示。
本文识别并解决了LLM数学推理中的‘奇迹步骤’问题——即无根据跳至正确答案的奖励篡改行为——通过提出评分奖励模型(RRM),一种面向过程的奖励函数,评估整个推理轨迹。RRM在AIME2024上实现了显著提升(Verified Pass@1024从26.7%提高至62.6%),并将奇迹步骤减少了71%。
本论文提出了DeepInsightTheorem,一个分层数据集和渐进式多阶段有监督微调训练策略,通过教导大语言模型识别和应用核心技术来改进其非形式化定理证明能力。
本文通过早期解码分析大语言模型的内部机制,研究其如何执行算术运算。研究发现,能力强的模型在推理任务中,注意力模块和 MLP 模块之间呈现明确的分工。
# 论文页面 - Stratagem:通过轨迹调制博弈自博弈学习可迁移推理 来源:[https://huggingface.co/papers/2604.17696](https://huggingface.co/papers/2604.17696) 作者:,,,,,,,,,, ## 摘要 STRATAGEM 通过引入推理可迁移性系数与演化奖励,鼓励抽象、跨领域模式而非博弈专用启发式,从而解决语言模型推理迁移受限的问题。博弈为开发通用推理能力提供了极具吸引力的范式。
# 论文页面 - MathNet:一个面向数学推理与检索的全球多模态基准 来源:[https://huggingface.co/papers/2604.18584](https://huggingface.co/papers/2604.18584) ## 摘要 MathNet 是一个大规模、多语言、多模态的奥赛级数学问题数据集,旨在评估生成式模型和基于嵌入的系统中的数学推理与检索能力。数学问题解决对于大型语言和多模态模型而言仍是一项极具挑战性的推理测试。
# 论文页面 - DiPO:基于解耦困惑度的策略优化,实现细粒度探索-利用权衡 来源:[https://huggingface.co/papers/2604.13902](https://huggingface.co/papers/2604.13902) 作者:,,,,,,,,,, ## 摘要 一种面向大语言模型的新型强化学习方法,通过基于困惑度的样本划分与双向奖励分配机制,解决探索-利用权衡问题。[强化学习](https:
OpenAI推出FrontierScience,这是一个新的基准测试,用于衡量人工智能在物理、化学和生物学领域的专家级科学能力。GPT-5.2在奥林匹克式任务中达到77%,在研究型任务中达到25%。该论文提供了早期证据,表明GPT-5能显著加速真实的科学工作流程,将工作周期从数周缩短至数小时,同时建立了度量标准,以追踪朝着AI加速科学研究的进展。
Google DeepMind 的高级 Gemini 配合 Deep Think 在 2025 年国际数学奥林匹克竞赛中达到金牌标准,在竞赛时间限制内以自然语言端到端操作,解答了 6 道题目中的 5 道,获得 35 分——相比去年的银牌成绩取得了重大进步。
OpenAI 展示了过程监督——对中间推理步骤而非仅对最终答案进行奖励——如何改进数学推理,同时降低对齐成本。这种方法在不牺牲模型性能的前提下,产生更易解释、更符合人类价值观的推理过程。
# 用于自动定理证明的生成语言建模 来源: [https://openai.com/index/generative-language-modeling-for-automated-theorem-proving/](https://openai.com/index/generative-language-modeling-for-automated-theorem-proving/) OpenAI## 摘要 我们探索了基于 Transformer 的语言模型在自动定理证明中的应用。这项工作的动力来自于一种可能性,即自动定理证明器与人类相比的一个主要局限——原始内容的生成