ai-reasoning

标签

Cards List
#ai-reasoning

向思维模型教授工具推理:工具集成推理的全流程方案

arXiv cs.CL · 2天前 缓存

本文提出了一种全流程方案,用于向思维模型教授工具推理,该方法应用于 Qwen3 模型时,在 AIME 2025 等基准测试上实现了最先进的性能。

0 人收藏 0 人点赞
#ai-reasoning

最佳智能体模型是懂得何时停止的那一个

Reddit r/AI_Agents · 2天前

文章认为,高效的AI智能体需要克制和明确的“停止条件”,而非无限的自主性,并指出Ling-2.6-1T是一个适合保守规划角色的模型。

0 人收藏 0 人点赞
#ai-reasoning

教人工智能模型说“我不确定”

MIT News — Artificial Intelligence · 2026-04-22 缓存

MIT CSAIL 研究人员提出 RLCR 方法,在强化学习中引入布雷尔分数(Brier scores),训练 AI 模型输出经过校准的置信度估计,在显著降低过度自信的同时,不牺牲准确率。

0 人收藏 0 人点赞
#ai-reasoning

我们首次提交的 First Proof 证明

OpenAI Blog · 2026-02-20 缓存

OpenAI 为 First Proof 挑战提交了证明尝试,该挑战是一项研究级别的数学竞赛,旨在测试 AI 是否能生成正确且可验证的证明。OpenAI 的内部模型成功解决了至少五个问题(共十个),展示了其在持续推理和严谨数学思维方面的显著进展。

0 人收藏 0 人点赞
#ai-reasoning

Gemini 在国际大学生编程竞赛世界总决赛中获得金牌级别成绩

Google DeepMind Blog · 2025-10-24 缓存

Gemini 2.5 Deep Think 在 2025 年国际大学生编程竞赛世界总决赛中取得金牌级别成绩,在五小时的竞赛中解决了 12 个问题中的 10 个,展示了抽象推理和问题解决能力的显著进步。

0 人收藏 0 人点赞
#ai-reasoning

在 Gemini 应用中尝试 Deep Think

Google DeepMind Blog · 2025-10-23 缓存

Google 正在为 Gemini 应用中的 Google AI Ultra 订阅者推出 Deep Think,这是一项新的推理能力,采用并行思维技术,在 2025 IMO 基准测试中达到铜牌级性能。完整的金牌级版本正与精选数学家分享用于研究目的。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈