标签
本文提出了一种全流程方案,用于向思维模型教授工具推理,该方法应用于 Qwen3 模型时,在 AIME 2025 等基准测试上实现了最先进的性能。
文章认为,高效的AI智能体需要克制和明确的“停止条件”,而非无限的自主性,并指出Ling-2.6-1T是一个适合保守规划角色的模型。
MIT CSAIL 研究人员提出 RLCR 方法,在强化学习中引入布雷尔分数(Brier scores),训练 AI 模型输出经过校准的置信度估计,在显著降低过度自信的同时,不牺牲准确率。
OpenAI 为 First Proof 挑战提交了证明尝试,该挑战是一项研究级别的数学竞赛,旨在测试 AI 是否能生成正确且可验证的证明。OpenAI 的内部模型成功解决了至少五个问题(共十个),展示了其在持续推理和严谨数学思维方面的显著进展。
Gemini 2.5 Deep Think 在 2025 年国际大学生编程竞赛世界总决赛中取得金牌级别成绩,在五小时的竞赛中解决了 12 个问题中的 10 个,展示了抽象推理和问题解决能力的显著进步。
Google 正在为 Gemini 应用中的 Google AI Ultra 订阅者推出 Deep Think,这是一项新的推理能力,采用并行思维技术,在 2025 IMO 基准测试中达到铜牌级性能。完整的金牌级版本正与精选数学家分享用于研究目的。