标签
deepreinforce-ai 发布了 Ornith-1.0-35B-GGUF,这是一个最先进的开源编程智能体模型,它使用自我改进的强化学习来联合优化框架和解决方案生成,在编程基准测试上达到了SOTA性能。
Empero发布了Qwythos-9B-Claude-Mythos-5,这是一个基于Fable-5和Mythos-5会话日志的合成思维链数据,使用1M上下文微调的全参数推理模型。
Empero AI 发布了 Qwythos-9B,这是一个经过微调的推理模型,具有100万令牌的上下文和无审查能力,在基准测试中相比于其基础模型 Qwen3.5-9B 有显著提升。
据报道,使用 SYNTH 训练的 600M 参数推理模型在巴黎地铁的工业应用中超越了 397B 模型和 Sonnet 4.5,凸显了小型专用模型的有效性。
微博AI发布了VibeThinker-3B,一个拥有30亿参数的开源推理模型,采用MIT许可证,在数学、编程和STEM推理基准测试上取得了有竞争力的结果。
WeiboAI 发布了 VibeThinker-3B,一个在本地测试编码任务的小型 3B 推理模型,在算法问题上取得了 3/3 的成绩。
MSL发布了其极限推理模型Muse Spark Contemplating的准备情况报告,该报告对其在生物学和网络安全领域的能力进行了基准测试。
OpenAI 分享了其播客节目的链接,该节目讲述了一个推理模型如何解决了一个80年未解的难题。可在 Spotify、Apple Podcasts 和 YouTube 上收听。
微软 AI 发布了 MAI-Thinking-1,一个拥有 350 亿活跃参数/1 万亿总参数的 MoE 推理模型,在 STEM 和编码任务上具有竞争力,使用 Ray 进行分布式训练和编排。
微软在 Build 2026 上宣布了两款新的设备端 AI 模型:Aion 1.0 Instruct(一款开放权重的小型语言模型)和 Aion 1.0 Plan(一款 140 亿参数的推理与工具调用模型,适用于本地智能体工作流)。
微软AI推出MAI-Thinking-1,这是一个350亿活跃参数的推理模型,从头训练,无需蒸馏,在软件工程和数学基准测试中表现强劲,同时强调干净数据和自给自足。
本文讨论了在智能体工作流中使用 Ring-2.6-1T 添加重推理的位置,以防范状态损坏、工具合约不匹配或最终外部动作等故障点。
NVIDIA 宣布推出 Alpamayo 2 Super,这是一款面向 L4 级自动驾驶出租车的 32B 开源推理模型,具备 360 度感知、元动作等功能,并提供包括 AlpaGym 仿真和 OmniDreams 场景生成在内的全套技术栈。
微软计划在Build大会上发布新的AI模型,包括其首个推理模型MAI-Thinking-1,以及Windows 11开发者体验改进和Copilot更新。
关于AI智能体中推理预算分配位置的讨论,引用了拥有高/极高推理努力模式的万亿参数模型Ring-2.6-1T。
JetBrains发布了Mellum 2 12B A2.5B,这是一个专注于编码的小型MoE模型,其推理性能与Qwen 3.5 9B相当,但在其他任务上较弱。
关于将失败类别(工具选择错误、重新规划错误、最终答案验证)路由到 Ring-2.6-1T 的讨论,Ring-2.6-1T 是一个用于智能体工作流的万亿参数推理模型,具有高推理努力模式。
Liquid AI 发布了 LFM2.5-8B-A1B,这是一款边缘 MoE 模型,基于 38T tokens 训练,拥有 128K 上下文窗口,改进了工具调用和推理能力,可在 Hugging Face 上获取。
这是对使用单个可调深度的万亿参数推理模型(如 Ring-2.6-1T)与在多个专用模型之间切换这两种方案的权衡思考,探讨哪种方法对代理工作流更简洁或更具成本效益。
OpenAI声称其未发布的推理模型解决了数学中具有80年历史的平面单位距离问题,并产生了一个优于传统基于网格排列的原始证明。