标签
Nex-AGI 发布了 Nex-N2,一个开源的智能体模型系列 (Nex-N2-Pro 和 Nex-N2-mini),采用 Agentic Thinking 框架,统一了推理、工具使用和环境执行,在智能体和编码基准测试中达到顶级性能。
Ante是一个用Rust编写的轻量级、自包含的终端代理工具,设计上追求快速且无依赖。它在Terminal Bench 2.0中排名第一,尽管处于预览阶段且尚未开源,但对用户反馈保持高度响应。
一篇 Meta 论文显示,编程代理在重复使用过去尝试的简短摘要而非原始日志时性能显著提升,使用 Claude 4.5 Opus 在 SWE-Bench 和 Terminal-Bench 上取得了显著改进。
Qwen3.6-35B-A3B 和 Qwen3.5-9B 模型已正式登上 Terminal-Bench 2.0 排行榜,其中 little-coder 在 35B 变体上取得 24.6% 的成绩,超越了 Gemini 2.5 Pro 和 Qwen3-Coder-480B;而 9B 模型则表明,10B 以下的本地模型能够与高难度代理基准竞争。
HALO利用RLM通过分析执行轨迹并建议改进来优化AI智能体集群,在Terminal-Bench和AppWorld等多个基准测试上实现了10%以上的提升。