100万亿+的预训练数据???这是我见过模型训练中最大的数据量。
摘要
一个新的人工智能模型正在使用超过100万亿个令牌进行训练,是其他模型如Kimi、Mimo和DeepSeek通常使用的27-50万亿令牌预训练数据规模的两倍。
https://preview.redd.it/oss7g2gnll4h1.png?width=894&format=png&auto=webp&s=5d4295707a700ed7541c274b8be8ad75bbd0903d 通常我们在大多数模型中看到27-50万亿个令牌,如Kimi、Mimo、DeepSeek。他们似乎将预训练数据量翻倍了。Minimax-m2.5大约是27万亿个令牌。如果看Mimo,他们做了:
- 27万亿个令牌用于Mimo-v2.5-Pro 1万亿参数
- 48万亿个令牌用于较小的Mimo-v2.5模型(多模态)。
- 32万亿个令牌用于Deepseek V4 Flash和Pro。
我很难相信这个模型会比之前的M2系列模型大很多。训练数据规模太大,需要更多资源来训练更大的模型。M3似乎可能低于5000亿参数。
相似文章
我们测试了AI外呼代理用于真实线索转化——LuMay Voice Agent vs Voxentis vs 开源堆栈
本文介绍了一项结构化实验,比较了AI外呼代理(LuMay Voice Agent、Voxentis和开源堆栈)在真实线索转化中的表现,突出了它们在工作流稳定性、对话适应性和系统控制方面的各自优势。
使用Clojure约一个月后的感想
作者分享了学习Clojure一个月的体验,将其与Common Lisp和Scheme进行比较,并赞赏其一致性和务实设计。
@himanshutwtxs:一篇关于主要智能体平台(Claude Code 等)内存架构现状的完整分析文章
全面分析主要 AI 智能体平台(Claude Code、OpenAI Codex、Copilot、Windsurf、Devin 等)的内存架构,讨论内存管理方式、当前缺陷以及未来发展方向。
我评估了 OpenRouter vs Concentrate.ai vs Portkey vs LiteLLM 作为我们的 LLM 网关。一份真实的对比。
一份针对 B2B SaaS 产品的 LLM 网关(OpenRouter、Concentrate.ai、Portkey 和 LiteLLM)的详细比较,涵盖特性、成本和治理。
@teach_fireworks: 主流 Agent 开发框架对比一图流! 这么多 Agent 开发框架该怎么选? 个人日常重度 coding / 研究开源项目:可以试 Pi Agent AI SaaS 或企业级 agent:OpenAI Agents SDK + Lang…
一篇推文对比了主流的AI Agent开发框架(如Pi Agent、OpenAI Agents SDK、LangGraph、LlamaIndex、Pydantic AI),并给出了不同场景下的选型建议。