使用小米MiMo v2.5 Pro处理300亿+ token:从Claude/GPT转向智能浏览器自动化(以及保持稳定的.md工作流)

Reddit r/AI_Agents 模型

摘要

作者分享了大量使用小米MiMo v2.5 Pro大语言模型进行智能浏览器自动化和全栈开发的经验,强调其成本效益(80%+缓存命中率)和处理长上下文任务的能力,同时指出它需要结构化提示。

过去两个月里,我一直在高强度使用小米的MiMo v2.5 Pro。我已经处理了大约300亿个token。背景是,我经营着两家公司(Bit n Byte 和 Regix AI)。我们专注于Web开发、自动化和AI代理。我的目标很简单:优化运营、降低成本、构建可靠的系统。*大厂(Claude、ChatGPT、Gemini)的问题在于成本。*当你运行日常编码任务、繁重的自动化循环和多代理工作流时,那些API账单会迅速累积。我需要一个经济实惠但仍能处理复杂推理和工具使用的模型。这让我找到了小米的MiMo v2.5 Pro,*它目前在全球排名第9,在开源LLM中排名第3。(Artificial Analysis)*以下是我消耗了300亿+ token后的真实体验。 **突出特点:浏览器自动化** 这是MiMo让我惊讶的地方。我使用一个开源智能浏览器BrowserOS。与我测试过的其他代理(如OpenClaw)不同,MiMo v2.5 Pro可以在登录状态下实际“看到”并滚动浏览网页。这是一个巨大的优势。我让它访问我登录的Twitter和LinkedIn账户。它成功滚动、搜索并提取了与我的业务领域相关的潜在客户。大多数其他模型在这里失败,因为它们无法处理登录会话的动态DOM变化,或者卡在无限滚动上。我还创建了一个基于Puppeteer的浏览器自动化工具,其他模型未能成功创建,但MiMo非常出色地处理了基于Puppeteer的导航和操作序列。 **如何保持稳定:.md工作流** MiMo不是一个“聊完就忘”的模型。它需要结构化提示。如果你给出模糊的提示,它会偏离轨道。为了减少幻觉并最大化准确性,我开发了一套严格的系统: 1. **主上下文文件(.md):** 在开始任何重大项目之前,我会创建详细的`.md`文件。为了实现个性化,我使用`soul.md`和`memory.md`,其中包含关于我的业务目标、语气、目标受众和运营约束的所有信息。 2. **模式注入:** 对于数据库密集型任务(例如Supabase/PostgreSQL),我将整个模式复制到一个`.md`文件中。这可以防止模型凭空创建表或列。 3. **先做研究:** 我经常使用ChatGPT或其他模型进行初步研究/宏观概述,然后将整合后的信息输入MiMo进行执行。 4. **引用策略:** 在每个提示中,我都会显式引用这些`.md`文件。这使代理保持脚踏实地,防止范围蔓延。如果你把它当作一个需要清晰文档的初级开发人员,它会发挥出色。 **实际成果** * **长上下文稳定性:** 我曾有会话连续运行了**81分钟以上**(见截图)。代理在做出决策、调用工具、检查文件和调试时没有丢失上下文。它没有产生幻觉或偏离主题,这对于长时间运行的代理循环来说是罕见的。 * **全栈开发:** 我使用这个模型构建了三个完整的内部工具: * 一个基于WordPress的无头CMS网站 * 内部办公自动化工具 * Linux VPS管理脚本 * **Cron作业:** 我有持续运行的cron作业,依赖BrowserOS中的这种稳定性。 **权衡:速度 vs. 成本** 它并不完美。测试过它的朋友也注意到,它感觉比Cursor或其他优化的IDE集成要慢。需要耐心。你必须精确;一个模糊的指令可能导致大型项目出错。它不太擅长“猜测”;需要方向指导。(我使用的是OpenCode)价格与Deepseek v4 pro相同。成本效益无与伦比。小米最近将价格下调了高达99%。 * 输入(缓存未命中):~$0.435 / 1M token * 输入(缓存命中):~$0.0036 / 1M token * 输出:~$0.87 / 1M token 在我的仪表盘中,我看到**80%+的缓存命中率**。可能是因为我在不同会话中重复使用那些`.md`上下文文件,我的实际成本非常低。MiMo有更好的缓存比率。这使得它适用于日常任务,而Claude或GPT会很快消耗预算。他们刚刚宣布了一个更快的推理引擎,达到**1000+ token/秒**,这应该能解决速度方面的抱怨。 **最终结论** MiMo v2.5 Pro值得吗? * **是的,** 如果你正在构建代理工作流,需要浏览器自动化的高可靠性,并且愿意投入时间来结构化你的提示/上下文文件。与昂贵的专有模型相比,其性价比目前无与伦比。 * **不,** 如果你想要即时聊天般的速度来处理快速代码片段,或者更喜欢一个只需最少指导就能“正常工作”的模型。 注意:这是我个人的经验。我好奇是否有人测试了新的1000+ tok/s更新与浏览器代理的结合?与你当前用于代理任务的日常使用模型相比,它表现如何?
查看原文

相似文章

XiaomiMiMo/MiMo-V2.5-Pro

Hugging Face Models Trending

小米发布了 MiMo-V2.5-Pro,这是一个开源的 MoE 语言模型,拥有 1.02T 总参数和 1M token 上下文长度,专为复杂的智能体(Agent)和软件工程任务进行了优化。