MAI-Thinking-1

Hacker News Top 模型

摘要

微软AI推出MAI-Thinking-1,这是一个350亿活跃参数的推理模型,从头训练,无需蒸馏,在软件工程和数学基准测试中表现强劲,同时强调干净数据和自给自足。

<a href="https:&#x2F;&#x2F;microsoft.ai&#x2F;wp-content&#x2F;uploads&#x2F;2026&#x2F;06&#x2F;main_20260602_2.pdf" rel="nofollow">https:&#x2F;&#x2F;microsoft.ai&#x2F;wp-content&#x2F;uploads&#x2F;2026&#x2F;06&#x2F;main_2026060...</a><p>推出七款全新的MAI模型: <a href="https:&#x2F;&#x2F;microsoft.ai&#x2F;news&#x2F;building-a-hillclimbing-machine-launching-seven-new-mai-models&#x2F;" rel="nofollow">https:&#x2F;&#x2F;microsoft.ai&#x2F;news&#x2F;building-a-hillclimbing-machine-la...</a>
查看原文
查看缓存全文

缓存时间: 2026/06/02 21:34

# 推出 MAI-Thinking-1 | 微软 AI 来源:https://microsoft.ai/news/introducing-mai-thinking-1/ 今天,我们推出 MAI-Thinking-1,这是微软 AI 的推理模型。它是一款中等规模的模型,在其重量级别中跻身最强模型之列。它在关键的软件工程基准测试上可与领先模型匹敌,展现出先进的数学推理能力,并且在我们的盲测人工对比评估中优于 Sonnet 4.6。我们从头开始,使用企业级、干净且具有商业许可的数据对其进行训练,并且没有从第三方模型进行蒸馏。 MAI-Thinking-1 是我们迈向人本超级智能这一更广泛工作的一步:旨在服务人类和组织,而非取代他们的先进 AI 能力。该模型在两个方面都至关重要:它能做什么,以及它是如何构建的。 ## Hill-Climbing Machine 不仅仅是单一模型,我们很高兴推出我们的 Hill-Climbing Machine:一个共同设计的流水线,旨在使模型开发的每一个组成部分都可攀登,从而让能力随时间持续、可靠地提升。目标是建立一个可重复的系统,能够吸收更好的数据、更强的奖励、更强大的环境以及更多的算力。 我们的理念由三大支柱引导。 **第一,能力应被学习,而非继承。** 虽然继承式智能获取更快,但它缺乏实际使用所需的可引导性:模仿者根本上受限于其教师的设计选择,难以适应新情况。MAI-Thinking-1 的训练没有使用第三方模型的蒸馏,迫使我们的模型真正学会处理手头的任务。 **第二,数据干净。** MAI-Thinking-1 使用干净且经过适当许可的数据进行训练,预训练阶段排除了 AI 生成的内容。这在质量、来源和可控性方面至关重要。如果我们无法解释模型是由什么塑造的,就无法完全理解其行为,也无法令人信服地改进它。 **第三,整个技术栈的自给自足。** 从模型与微软自有加速器的协同设计,到我们的强化学习框架,我们将精力集中在内部训练基础设施上。这是构建我们 Hill-Climbing Machine 的关键部分,以确保我们能够完全优化和端到端地塑造系统,从而最好地满足我们的需求。 ## 中等规模模型,具备强大的软件工程性能 MAI-Thinking-1 是一个具有 35B 活跃参数、约 1T 总参数的稀疏混合专家模型,其推理内存占用远小于更大规模的模型。尽管如此,我们的模型在 SWE-Bench Pro 上与 Claude Opus 4.6 势均力敌。这对开发者和企业意义重大,因为模型大小决定了高级编码辅助能力可以在何处部署、使用频率如何,以及它能否从例外任务迁移到日常工作中。 我们在智能体编码所需的训练环境上投入了大量资源。每个经过验证的环境都是确定性的、可执行的,并通过真实测试套件进行评分。这使模型能够练习开发者实际进行的多步骤工作:阅读代码、编辑文件、运行测试、观察失败以及从中间错误中恢复。 ## 先进的数学推理能力 MAI-Thinking-1 在 AIME 2025 上达到 97.0%,在 AIME 2026 上达到 94.5%,在其重量级别中展现出强大的数学和科学推理能力。在此类基准上的强劲表现让我们有信心:我们的训练循环能够从我们自己的数据、奖励和评估流程出发,真正实现推理能力的提升——从头攀登——并且这种智能会随着时间泛化到其他领域。

相似文章

微软的全新MAI模型

Simon Willison's Blog

微软宣布推出两款全新大语言模型(LLMs):MAI-Thinking-1(350亿参数推理模型)和MAI-Code-1-Flash(50亿参数代码模型)。两款模型均基于企业级、无污染的干净数据训练,且未使用第三方蒸馏技术。据称,在盲评中,MAI-Thinking-1的受欢迎程度超过了Sonnet 4.6。

微软首款高级推理 AI 正式登场

The Verge

微软在 Build 2026 大会上发布了旗舰推理 AI 模型 MAI-Thinking-1,同时推出其他六款新模型,这标志着微软在自研模型开发上迈出了重要一步。

JetBrains/Mellum2-12B-A2.5B-Thinking

Hugging Face Models Trending

JetBrains releases Mellum2-12B-A2.5B-Thinking, an open-source Mixture-of-Experts reasoning model with 131k context length, trained with RLVR for explicit chain-of-thought reasoning.