@seclink: 小米的发展势头很猛啊! 2026-06-02 mimo-v2.5-asr 发布 模型简介: 中英双语 + 方言: 持中英双语识别及吴语、粤语、闽南语、四川话等多种中国方言,以及中英混合代码切换 歌词转写: 高精度中英文歌词转写,支持人声与…
摘要
小米发布 MiMo 系列模型更新,包括 mimo-v2.5-asr(支持多种方言和歌词转写)、mimo-v2.5-pro(万亿参数、1M上下文)、mimo-v2.5(全模态感知)、以及 TTS 系列模型,显著提升了 Agent 性能和复杂声学场景下的识别能力。
查看缓存全文
缓存时间: 2026/06/12 17:01
小米的发展势头很猛啊!
2026-06-02 mimo-v2.5-asr 发布
模型简介:
中英双语 + 方言: 持中英双语识别及吴语、粤语、闽南语、四川话等多种中国方言,以及中英混合代码切换
歌词转写: 高精度中英文歌词转写,支持人声与伴奏混合场景
复杂声学环境: 在强噪声、远场、多说话人等挑战性声学条件下表现稳健
知识密集内容: 精准识别古诗词、专业术语、人名地名等知识密集型内容,自动生成标点
详见:
Xiaomi MiMo API 开放平台 Token Plan 全球上线
Source: https://mimo.mi.com/docs/zh-CN/updates/model
模型发布
2026-06-02 mimo-v2.5-asr 发布
模型简介:
- **中英双语 + 方言:**持中英双语识别及吴语、粤语、闽南语、四川话等多种中国方言,以及中英混合代码切换
- **歌词转写:**高精度中英文歌词转写,支持人声与伴奏混合场景
- **复杂声学环境:**在强噪声、远场、多说话人等挑战性声学条件下表现稳健
- **知识密集内容:**精准识别古诗词、专业术语、人名地名等知识密集型内容,自动生成标点
2026-04-23 mimo-v2.5-pro 发布
模型简介:
- **万亿参数,高效架构 :**1T 总参数 | 42B 激活 | 1M 超长上下文
- **极致 Agent 性能:**在高强度智能体场景下,表现媲美 Claude Opus4.6
2026-04-23 mimo-v2.5 发布
模型简介:
- **原生全模态感知 + 1M 上下文:**支持图像、视频、音频、文本的原生理解,实现跨模态精准感知与长程推理,综合感知能力跻身行业前沿
- 强大的全模态 Agent 能力:具备原生 Agent 执行能力,可高效完成浏览、理解、推理与操作等复杂任务,日常任务表现比肩mimo-v2.5-pro
- **性能与效率兼备:**在保持领先能力的同时,实现更优的 token 效率,位于性能与效率的 Pareto 前沿
2026-04-23 MiMo-V2.5-TTS 系列发布
模型简介:
- **精品音色 TTS:**内置多款高质量精品音色,具备强大的风格指令理解与遵循能力,支持对语速、情绪、语气等进行精细化控制,满足多场景表达需求
- **音色设计:**支持通过一句话快速定义并生成全新音色,让音色创作更加直观、高效
- **音色克隆:**基于少量音频样本即可高保真复刻目标音色,在保持音色特征一致性的同时,具备良好的泛化与稳定性
2026-03-18 mimo-v2-pro 发布
模型简介:
- 采用 1:7 的 Global Attention 与 Sliding Window Attention (SWA) 混合结构;
- 1T 的总参数量(42B 激活参数);
- 1M 超长上下文长度。
模型详情:https://mimo.mi.com/#/docs/news/v2-pro-release
2026-03-18 mimo-v2-omni 发布
模型简介:
- 支持 256K 上下文长度;
- 支持文本、视觉、语音模态。
模型详情:https://mimo.mi.com/#/docs/news/v2-omni-release
2026-03-18 mimo-v2-tts 发布
模型简介:
- 上亿小时预训练、自研多码本语音建模架构;
- 具备风格控制、唱歌、音色克隆等独特能力。
模型定价:限时免费。
模型详情:https://mimo.mi.com/#/docs/news/v2-tts-release
2026-02-04 mimo-v2-flash 更新
- Thinking 模式代码能力升级:针对编程场景进行了专门优化,Thinking 模式在 SWE-Bench Verified 上的评分提升至78.6,代码生成的解决率和质量均有显著提高。
- 工具调用准确率大幅提升:解决了工具使用的稳定性问题,Thinking 模式下的工具调用准确率从 64% 跃升至97.0%,大幅增强了模型在 Agent 场景下的执行可靠性。
- 指令遵循与抗幻觉能力增强: - 提升了对特定指令的遵循能力,AA-IFBench 评分达到72。 - 增强了事实性回答的严谨度,非幻觉率(Non-Hallucination Rate)提升至52%。
- 复杂任务处理优化:在 Thinking 模式下,针对 Arena-Hard (Hard Prompt) 的处理能力有所增强,评分提升至60.6,在处理高难度逻辑问题时表现更佳。
- 思维链长度缩短:通过优化思维链生成策略,显著降低了冗余 Token 的消耗。在 AIME25、HMMT 等基准测试中,平均生成长度缩减了13% 至 30%,在保持模型效果的同时,有效降低了 Token 成本。
mimo-v2-flash-0204mimo-v2-flash-0112mimo-v2-flash****SWE-Bench Verified Non-Thinking****73.773.373.4SWE-Bench Verified Thinking****78.674.2-Arena-Hard(Hard Prompt) Non-Thinking****49.352.746.0Arena-Hard(Creative Writing) Non-Thinking****85.086.078.3Aren-Hard(Hard Prompt) Thinking****60.658.354.1Arena-Hard(Creative Writing) Thinking****85.890.486.2AA-IFBench****72-64AA-Omniscience Accuracy****19-27AA-Omniscience Non-Hallucination Rate****52%-9%Tool call success rate Thinking97.0%**64%44% **Benchmarkmimo-v2-flash (Acc)****mimo-v2-flash (Avg Tokens)****mimo-v2-flash-0204 (Acc)****mimo-v2-flash-0204 (Avg Tokens)****Length Reduction Ratio (%)****AIME2594.82698491.11887930.04%****HMMT_Feb_2594.22929492.92147026.71%****LiveCodeBench-AA83.22148884.91833514.67%****GPQA-Diamond83.71586283.81365913.89%
注:模型调用方式和模型名称不变
2026-01-12 mimo-v2-flash 更新
- **通用能力增强:**提升了模型通用任务下的处理能力。
- **Thinking 模式代码能力升级:**针对编程场景,强化了 Thinking 模式下的代码生成质量。
- **Claude Code 深度适配:**全面支持在 Claude Code 中使用 Thinking 模式。 - 最佳实践:建议将 Thinking 设为默认模式,以获得更稳定、更卓越的代码生成体验。
- **其他Code Agent体验优化:**同步提升了 Kilo、Cline、Roo 等代码辅助工具(Code Scaffolds)的交互体验与生成效果。
- **稳定性与指令遵循提升:**增强了模型的输出稳定性,大幅提高了对特定输出格式的遵循能力。
mimo-v2-flash-0112mimo-v2-flashSWE-Bench Verified Non-Thinking****73.373.4SWE-Bench Verified Thinking****74.2-Arena-Hard(Hard Prompt) Non-Thinking****52.746.0Arena-Hard(Creative Writing) Non-Thinking****86.078.3Arena-Hard(Hard Prompt) Thinking****58.354.1Arena-Hard(Creative Writing) Thinking****90.486.2
2025-12-16 mimo-v2-flash 发布
模型简介:
- 采用 1:5 的 Global Attention 与 Sliding Window Attention (SWA) 混合结构,128 窗口大小,原生 32K 外扩 256K 训练;
- 引入 3 层 MTP,实现 2.5 ~ 3.7 倍的推理加速;
模型定价:输入 $0.1/M tokens,输出 $0.3/M tokens。
模型详情:mimo-v2-flash: 高效推理、代码与 Agent 基座模型
调用指南:首次调用 API
相似文章
@seclink: 小米发布了 mimo-code ,可以下载代码用起来
小米发布了 MiMoCode,一个具有跨会话记忆的开源 AI 编码助手,可在 GitHub 上获取,并通过一行命令或 npm 安装。
XiaomiMiMo/MiMo-V2.5-Pro
小米发布了 MiMo-V2.5-Pro,这是一个开源的 MoE 语言模型,拥有 1.02T 总参数和 1M token 上下文长度,专为复杂的智能体(Agent)和软件工程任务进行了优化。
@lxfater: 网易有道开源了子曰4大模型,27B参数内,数理 SOTA 但真正让我觉得有趣的是它那个语音功能!! 克隆个声音不稀奇,ElevenLabs 早能做 但它们都有个通病,跨语种会串口音 拿你的中文声音去说日语,它带着一口中国腔,一听就是外国人…
网易有道开源了子曰4大模型,27B参数,数理性能达到SOTA;其语音功能支持3秒跨语言声音克隆,14种语言且无口音问题,同时开源了全场景智能体龙虾。
@aigclink: 阿里通义实验室最新发布了款ASR:Fun-ASR 1.5,核心能力:方言工业级可用 单模型即可无缝覆盖30种语言、汉语七大方言体系及20+ 地方口音,古诗词吟诵也能精准转写 典型方言场景CER相对上代下降56.2%,有5种方言准确率破 9…
阿里通义实验室发布Fun-ASR 1.5,单模型覆盖30种语言、汉语七大方言及20余种地方口音,典型方言场景字错率较上代下降56.2%,5种方言准确率突破90%。
@FeitengLi: Hy-MT2 新的开源多语言翻译模型 能力可以跟顶尖大模型匹配、支持 33 种语言之间的互译,而且具备灵活的 Instruct 能力,实现了 2-bit 量化不足 500MB 的空间占用 可以很好的跑在端侧 https://modelsc…
Hy-MT2 is a new open-source multilingual translation model from Tencent Hy that supports 33 languages, offers flexible instruction capabilities, and achieves 2-bit quantization under 500MB for on-device deployment.