imo

#imo

我们比较了不同LLM在IMO 2026上的表现 [R]

Reddit r/MachineLearning ↗ · 5天前

本研究评估了前沿和开放权重LLM在IMO 2026题目上的表现，证明像AutoFyn这样的专用工具链能显著提升次前沿模型的性能，不过在最难的题目上仍然存在幻觉问题。

0 人收藏 0 人点赞

#imo

X AI KOLs Timeline ↗ · 6天前缓存

一项比较显示，LLM在2026年IMO上的表现因评估框架的不同而有巨大差异，结构化多智能体设置比简单网页界面获得的分数高得多，表明当前收益在前沿被更好的编排所吸收。

0 人收藏 0 人点赞

#imo

X AI KOLs Timeline ↗ · 2026-07-21 缓存

AI模型Fable、Sol、K3和Axiom在2026年国际数学奥林匹克竞赛中全部取得满分42/42的成绩，首次完全解决了该竞赛，且成本低廉。其中Claude Fable 5速度最快，GPT 5.6 Sol成本最低。

0 人收藏 0 人点赞

#imo

X AI KOLs Timeline ↗ · 2026-07-12 缓存

本文比较了两种用于数学问题求解的AI方法：DeepMind的AlphaProof，它在Lean证明语言中使用强化学习；以及OpenAI的原始大型语言模型，该模型在没有正式方法的情况下在2025年国际数学奥林匹克竞赛中获得金牌。

0 人收藏 0 人点赞

#imo

X AI KOLs Timeline ↗ · 2026-07-01 缓存

文章从伽罗瓦的群论故事切入，深入探讨了AI在数学领域的能力边界，区分了“连接闪电”（跨领域连接）和“建造山峰”（创造新框架）两种进展类型，分析了RLVR训练方法的局限性，并提出了“可磨性”概念来解释AI在数学和代码上的快速进步。

0 人收藏 0 人点赞

#imo

Hacker News Top ↗ · 2026-06-12 缓存

MaxProof 引入了一种测试时缩放框架，该框架结合了证明生成、验证和修复，使用生成-验证器强化学习，使 M3 模型在 IMO 2025 和 USAMO 2026 上超过了人类金牌阈值。

0 人收藏 0 人点赞

#imo

Reddit r/singularity ↗ · 2026-05-18

Gemini 3.2 Flash 可以解答 IMO 2025 第6题，但只有 GPT-5.5-Pro 能够在没有脚手架或工程框架的情况下完成。

0 人收藏 0 人点赞

#imo

Reddit r/LocalLLaMA ↗ · 2026-04-22

MIT 与 IMO 联合推出 MathNet，汇集 40 多国、40 年国际数学奥林匹克赛题与详解，数据量较现有数据集扩大 5 倍。

0 人收藏 0 人点赞

#imo

Google DeepMind Blog ↗ · 2025-10-24 缓存

Google DeepMind 的高级 Gemini 配合 Deep Think 在 2025 年国际数学奥林匹克竞赛中达到金牌标准，在竞赛时间限制内以自然语言端到端操作，解答了 6 道题目中的 5 道，获得 35 分——相比去年的银牌成绩取得了重大进步。

0 人收藏 0 人点赞