小米新开源、智能体式AI编码工具MiMo Code在超长200+步骤任务中击败Claude Code(14分钟阅读)

TLDR AI 工具

摘要

小米开源了MiMo Code,一款采用新颖记忆架构的AI编码助手,在长期任务上表现优于Claude Code,并免费提供MiMo-V2.5模型。

MiMo Code V0.1.0是小米开源的一款终端原生AI编码助手。它在关键智能体编码基准测试中超越Claude Code,尤其是在长期、多步骤任务上。MiMo Code具有跨会话记忆系统,使用独立子代理记录项目进展中的决策、问题和范围。该模型在GitHub上以MIT许可证提供。
查看原文
查看缓存全文

缓存时间: 2026/06/12 14:50

# 小米开源新AI编程工具MiMo Code:在超长200+步骤任务中击败Claude Code 来源:https://venturebeat.com/technology/xiaomis-new-open-source-agentic-ai-coding-harness-mimo-code-beats-claude-code-at-ultra-long-200-step-tasks 小米的MiMo AI团队已开源**MiMo Code V0.1.0**(https://mimo.xiaomi.com/blog/mimo-code-long-horizon),这是一款终端原生AI编程助手。这家中国电子巨头声称,在关键智能编程基准测试中,尤其是面对长周期、多步骤任务(200+步骤)时,该工具性能优于Anthropic的Claude Code——至少其内部测试版及对576名开发者的调查结果如此。 它还附带限时免费使用MiMo-V2.5的权限,这是小米的多模态旗舰模型,拥有百万token上下文窗口,无需注册即可使用。 该工具于2026年6月10日在官方@XiaomiMiMo账户(https://x.com/XiaomiMiMo/status/2064799879352959085)的X平台帖子中发布,帖子称该工具"不仅仅是终端中的AI编程助手——它将成为你合作过的最智能的编程伙伴。" MiMo Code现已在**GitHub**(https://github.com/XiaomiMiMo/MiMo-Code)上以**MIT许可证**(https://github.com/XiaomiMiMo/MiMo-Code/blob/main/LICENSE)开源,可通过单条终端命令(`curl -fsSL https://mimo.xiaomi.com/install | bash`)在macOS和Linux上安装,或通过npm(`npm install -g @mimo-ai/cli`)在Windows上安装。 该项目是开源OpenCode代理的一个分支,小米在此基础上扩展了自有内存架构、工作流模式和模型框架。 ## **AI编程代理的"失忆症"终结?** 任何热衷"心流编程"的开发者都会证实,AI编程代理在长时间会话中性能会下降:随着上下文窗口填满,早期决策、约定和任务状态会被压缩或完全丢失,迫使开发者重新解释项目。 小米认为这种方法在规模上注定失败。MiMo团队在其**发布博客**(https://mimo.xiaomi.com/blog/mimo-code-long-horizon)中指出:"我们需要的不是更好的压缩,而是一个显式的存储-检索机制,决定哪些信息应写入持久化结构,以及何时该被召回。" MiMo Code通过跨会话内存系统来解决这个问题,该系统底层由SQLite FTS5全文搜索驱动,包含四个层次:项目内存(持久化`MEMORY.md`文件)、会话检查点、草稿笔记和每任务进度日志。 笔记功能是关键:系统并非让主编程代理暂停工作来记笔记,而是部署一个独立的"检查点写入"子代理。 可以把主编程代理想象成一位建造豪宅的施工承包商,而检查点写入子代理则是专职建筑师。当主代理专注于搭建实际结构时,子代理实时更新蓝图,记录决策、问题以及项目进展中的实际情况。 当上下文窗口接近极限——承包商在未完工的豪宅中迷路时——它可以咨询子代理并重新找到自己的位置。在MiMo Code中,系统只需根据包含相关上下文的结构化检查点重建环境,确保操作连续性不受损失。 两个自我改进机制完善了该系统:一个`/dream`命令,定期(大约每七天)审查历史会话、去重并将其压缩到长期记忆中;以及一个"distill"功能,从过去的会话中挖掘可自动化的重复工作流,类似于OpenAI(https://openai.com/index/chatgpt-memory-dreaming/)和Anthropic(https://venturebeat.com/technology/anthropic-introduces-dreaming-a-system-that-lets-ai-agents-learn-from-their-own-mistakes)近期在其各种模型中采用的方法。 ## **在软件工程(SWE)基准测试中表现亮眼** 根据小米技术博文公布的基准数据,MiMo Code搭配MiMo-V2.5-Pro在所有三项测试中均优于Claude Code搭配Claude Sonnet 4.6: MiMo Code vs. Claude Code 基准性能对比 MiMo Code vs. Claude Code 基准性能对比。图片来源:小米 - **SWE-bench Verified:** **82%** vs. 79% - **SWE-bench Pro:** **62%** vs. 55% - **Terminal Bench 2:** **73%** vs. 69% 框架本身贡献了可衡量的增益。在同一MiMo-V2.5-Pro模型下,MiMo Code在SWE-bench Pro上得分为62%(Claude Code为57%),在Terminal Bench 2上为73%(Claude Code为68%)——大约各高出5个百分点,这完全归功于代理系统而非模型本身。 值得注意的是,小米并未公布与OpenAI的Codex或Google的Gemini CLI的对比——在其所有材料中,Claude Code是唯一被点名的竞争对手,这个基准测试对象的选择意味深长。 独立参考点说明了原因。在tbench.ai维护的**官方Terminal-Bench 2.0排行榜**(https://www.tbench.ai/leaderboard/terminal-bench/2.0)上,OpenAI的Codex CLI运行GPT-5.5得分为82.2%——比MiMo Code自称的73%高出约9个百分点——而OpenAI自家的GPT-5.5发布声明也在同一基准测试上声称82.7%。 但在SWE-Bench Pro上,情况则相反:OpenAI报告GPT-5.5得分为58.6%,低于MiMo Code + MiMo-V2.5-Pro声称的62%。(MiMo Code目前尚未出现在任一官方排行榜上,自行运行的数据与排行榜提交结果的交叉比较存在通常的配置差异问题。) 或许比离线基准测试更有趣的是:小米表示,其在内部beta测试期间进行了一项人类双盲A/B评估,涵盖576名开发人员在474个真实私有仓库中的工作,生成了1,213对评估过的、与Claude Code的正面PK结果(使用相同目标模型)。 在200个执行步骤以内,两个系统大约各占50%——但**在超过200个步骤后,MiMo Code的胜率升至65%以上**,这支持了公司关于其内存和状态管理架构在长周期工作中具有优势的论点。 小米自己也承认,标准基准测试"仍衡量一次性问题解决能力",并未捕捉该工具的多会话设计目标。 一如既往,这些都是供应商自行报告的数据,尚未经过独立验证,且框架之间的正面比较对配置十分敏感。但这些说法与更广泛的行业趋势一致:在智能编程性能方面,脚手架和框架工程正变得与原始模型能力同等重要。 ## **与现有开发者系统及语音控制的轻松集成** 从用户体验角度来看,MiMo Code的设计宗旨是融入开发者已有的工作环境。它直接在终端中运行,读写文件、执行命令和管理Git。 该工具开箱即用,无需配置,自动连接到"MiMo Auto"——一个限时免费通道,由小米的多模态MiMo V2.5模型驱动,该模型拥有百万token的超大上下文窗口。对于从现有环境迁移的开发者来说,过渡是无缝的:MiMo Code会自动导入来自Claude Code的MCP服务器、自定义技能和API配置。 其他值得注意的功能包括: - **Compose模式:** 按下Tab键可将代理切换到规范驱动的工作流,开发者描述一个高层目标,系统自动执行完整的开发周期——设计、规划、编码、测试和审查——遵循小米所称的"前置重规划、后置稳定验证"策略。 - **语音控制:** 基于小米的MiMo-ASR语音识别和TenVAD语音活动检测,开发者可以口头输入和修改指令,并说出"发送"和"执行"等命令,实现完全免提操作(适用于登录用户)。 据小米称,代理框架本身带来的增益是可衡量的。在同一下层MiMo模型的两套框架中,该公司表示MiMo Code在SWE-Bench Pro上得分为62%(Claude Code为57%),在Terminal Bench 2上为73%(Claude Code为68%)——每项大约高出5个百分点,这完全归因于代理系统而非模型。 一如既往,这些都是供应商自行报告的数据,尚未经过独立验证,且框架之间的正面比较对配置十分敏感。但这一说法与更广泛的行业趋势一致:在智能编程性能方面,脚手架和框架工程正变得与原始模型能力同等重要。 ## **价格极具竞争力** 对许多开发者来说,更大的吸引力可能在于捆绑的福利。 MiMo Code附带"MiMo Auto",这是一个零配置通道,提供限时免费使用MiMo-V2.5的权限——小米于2026年4月底发布的多模态原生模型,采用稀疏混合专家架构,总参数达3100亿(每次推理仅激活150亿参数),拥有100万token上下文窗口。小米将其定位为在多模态智能工作中与Anthropic的Claude Sonnet 4.6匹敌。 正如**VentureBeat在MiMo-V2.5系列4月发布时的报道**(https://venturebeat.com/technology/open-source-xiaomi-mimo-v2-5-and-v2-5-pro-are-among-the-most-efficient-and-affordable-at-agentic-claw-tasks),这些模型采用MIT许可证,是智能任务中最高效、最实惠的选择之一。 更大的MiMo-V2.5-Pro——一个1.02万亿参数的混合专家模型,包含420亿激活参数和混合注意力架构——在小米的ClawEval智能基准测试中以63.8%的成功率领先开源领域,同时每个轨迹仅消耗约70,000 token,比Anthropic的Claude Opus 4.6、Google的Gemini 3.1 Pro或OpenAI的GPT-5.4取得类似结果所需的token量少约40-60%。 值得注意的是,V2.5-Pro的后训练明确旨在灌输"框架意识"——训练模型在Claude Code或OpenCode等智能框架中管理自身的内存和上下文——因此围绕该能力优化的小米自有框架成为合乎逻辑的下一步。 定价同样激进:MiMo-V2.5起始价为每百万输入token 0.40美元,每百万输出token 2.00美元;V2.5-Pro在256K上下文内为输入/输出每百万1.00美元/3.00美元,超出部分翻倍,缓存命中可将输入成本降至每百万低至0.20-0.40美元,使其成为全球最便宜的前沿模型之一。 ## **VentureBeat 前沿AI模型API定价快照** | 模型 | 输入 | 输出 | 总成本 | 来源 | |------|------|------|--------|------| | MiMo-V2.5 Flash | $0.10 | $0.30 | $0.40 | 小米MiMo (https://platform.xiaomimimo.com/docs/en-US/pricing) | | deepseek-v4-flash | $0.14 | $0.28 | $0.42 | DeepSeek (https://api-docs.deepseek.com/quick_start/pricing) | | deepseek-v4-pro | $0.435 | $0.87 | $1.305 | DeepSeek (https://api-docs.deepseek.com/quick_start/pricing) | | MiniMax-M3 | $0.30 | $1.20 | $1.50 | MiniMax (https://platform.minimax.io/subscribe/token-plan?tab=api-enterprise) | | Gemini 3.1 Flash-Lite | $0.25 | $1.50 | $1.75 | Google (https://ai.google.dev/gemini-api/docs/pricing) | | Qwen3.7-Plus | $0.40 | $1.60 | $2.00 | 阿里云 (https://modelstudio.console.alibabacloud.com/ap-southeast-1?tab=doc#/doc/?type=model&url=2840914_2&modelId=qwen3.7-plus&serviceSite=international) | | MiMo-V2.5 | $0.40 | $2.00 | $2.40 | 小米MiMo (https://platform.xiaomimimo.com/docs/en-US/pricing) | | Grok 4.3 (低上下文) | $1.25 | $2.50 | $3.75 | xAI (https://docs.x.ai/developers/models/grok-4.3) | | MiMo-V2.5 Pro (≤256K) | $1.00 | $3.00 | $4.00 | 小米MiMo (https://platform.xiaomimimo.com/docs/en-US/pricing) | | GLM-5 | $1.00 | $3.20 | $4.20 | Z.ai (https://docs.z.ai/guides/overview/pricing) | | Kimi-K2.6 | $0.95 | $4.00 | $4.95 | Moonshot/Kimi (https://platform.kimi.ai/docs/pricing/chat-k26) | | GLM-5.1 | $1.40 | $4.40 | $5.80 | Z.ai (https://docs.z.ai/guides/overview/pricing) | | Grok 4.3 (高上下文) | $2.50 | $5.00 | $7.50 | xAI (https://docs.x.ai/developers/models/grok-4.3) | | **MiMo-V2.5 Pro (>256K)** | **$2.00** | **$6.00** | **$8.00** | **小米MiMo** (https://platform.xiaomimimo.com/docs/en-US/pricing) | | Qwen3.7-Max | $2.50 | $7.50 | $10.00 | 阿里云 (https://modelstudio.console.alibabacloud.com/ap-southeast-1?spm=a2ty_o05.31384571.0.0.52649f6b7G0D55&tab=doc#/doc/?type=model&url=2840914_2&modelId=qwen3.7-max&serviceSite=international) | | Gemini 3.5 Flash | $1.50 | $9.00 | $10.50 | Google (https://ai.google.dev/gemini-api/docs/pricing) | | Gemini 3.1 Pro Preview (≤200K) | $2.00 | $12.00 | $14.00 | Google (https://ai.google.dev/gemini-api/docs/pricing) | | GPT-5.4 | $2.50 | $15.00 | $17.50 | OpenAI (https://openai.com/api/pricing/) | | Gemini 3.1 Pro Preview (>200K) | $4.00 | $18.00 | $22.00 | Google (https://ai.google.dev/gemini-api/docs/pricing) | | Claude Opus 4.8 | $5.00 | $25.00 | $30.00 | Anthropic (https://platform.claude.com/docs/en/about-claude/pricing) | | GPT-5.5 | $5.00 | $30.00 | $35.00 | OpenAI (https://openai.com/api/pricing/) | | Claude Fable 5 / Claude Mythos 5 | $10.00 | $50.00 | $60.00 | Anthropic (https://platform.claude.com/docs/en/about-claude/models/overview) | 对于完全不想要小米模型的开发者,MiMo Code也支持第三方后端——包括来自DeepSeek、Moonshot的Kimi和智谱的GLM的token方案——以及任何兼容OpenAI的API,继承了其父项目OpenCode的"自带模型"灵活性。 ## **终端AI编程代理战争走向全球** MiMo Code的发布正值终端编程代理领域日益拥挤:Anthropic的Claude Code、OpenAI的Codex CLI、Google的Gemini CLI,以及OpenCode和Aider等开源玩家。 新鲜的是入场者。小米——全球第三大智能手机制造商,拥有快速增长的电动汽车业务——自2025年4月发布MiMo-7B推理模型以来,一直在有条不紊地建设其MiMo AI部门,随后推出了MiMo-VL视觉语言系列、MiMo-V2-Flash、2026年3月的万亿参数MiMo-V2-Pro,以及4月的V2.5旗舰家族。 该团队由Fuli Luo领导,他是DeepSeek颠覆性R1项目的资深人士,他将小米的前沿技术突破描述为"静悄悄的伏击"——并辅以与V2.5发布同时宣布的向开发者提供100万亿免费token的资助计划。 这一策略与**DeepSeek**(https://venturebeat.com/infrastructure/how-deepseeks-radical-architecture-is-shattering-silicon-valleys-token-moat)、**阿里巴巴的Qwen**(https://venturebeat.com/technology/alibabas-qwen3-7-plus-supports-text-video-and-imagery-inputs-at-low-cost-of-0-4-1-6-per-1m-token-but-its-proprietary)、**MiniMax**(https://venturebeat.com/technology/minimax-m3-debuts-eclipsing-gpt-5-5-and-gemini-3-1-pro-on-key-benchmark-performance-for-just-5-10-of-the-cost)和**Moonshot AI的Kimi系列**(https://venturebeat.com/ai/kimi-k2-6-runs-agents-for-days-and-exposes-the-limits-of-enterprise-orchestration)如出一辙:以美国实验室价格的一小部分,在宽松许可下发布真正有能力的模型和工具,并将由此获得的开发者关注度转化为持久的生态系统。 通过将开源代理框架与免费前沿级模型配对,小米实际上消除了许可证和使用成本的双重门槛——至少目前如此。 ## **对企业和技术决策者的意义** 对于工程领导者而言,MiMo Code是一个低风险、潜在高价值的评估对象:MIT风格的许可证允许修改和商业集成,OpenCode的血统意味着架构是可审查的,价格具有显著竞争力,而内存架构解决的是AI编程中最顽固的痛点之一:长时间会话中的状态丢失。 最重要的是,与Claude Code的直接比较经验表明,在长周期开发任务中可能会看到显著的效率提升,这正是复杂企业系统所在之处。实时更新工程蓝图的能力——来自独立的检查点子代理——不仅仅是理论上的好处:它直接应对了当前AI编程工具最令人沮丧的限制之一。 对于正在权衡深度绑定某个AI供应商风险的组织来说,MiMo Code提供了一条不同的路径:它使用你自己的API密钥和模型,可以连接到你选择的后端,并且在任何专有环境承诺可能变得尴尬的时刻采用MIT许可证。 实际上,小米的策略是双重的:在开源许可证下技术性地发布一个具有竞争力的代理框架,同时提供免费访问其旗舰模型——将开发者直接引入其MaaS(模型即服务)生态系统,而无需前期成本,也不要求购买意图。 当然,"限时免费"必然意味着付费墙会到来。但在此之前,MiMo Code提供了一个快速的、零风险的评估周期——对于希望了解开源代理框架在内部开发环境中能够(以及无法)实现什么的工程团队来说,这是一个有价值的调试工具。 无论如何,底线很明确:自2025年DeepSeek的R1以来,中国AI实验室一直在以更低的价格提供竞争性能力。MiMo Code将竞争带入了新的层面——这次是围绕代理框架而非原始模型本身。而且它并非孤例:据报道,阿里巴巴的Qwen团队正在开发一款基于代理的编程工具,DeepSeek也在加强其Cline集成。在AI编程领域,技术栈中"代理层"的战争才刚刚开始。

相似文章