标签
新型Sonnet 5模型以不到一半的成本在Terminal-Bench上达到Opus 4.8级别的性能,改进了对提示注入攻击的拒绝能力,现在已在Cline中可用。
Orinth-1.0-35b MoE 在 Terminal-Bench 2.1 和 SWE Atlas 基准测试上优于 Qwen 3.6 35b。
GLM-5.2 以更低成本在 45 个编码代理任务上与 Claude Opus 持平,其中 43 个任务结果完全相同。
Ai2和华盛顿大学发布论文Tmax,提出目前最强的开源终端智能体RL训练配方。仅用9B参数模型在Terminal-Bench 2.0上击败更大模型,关键在于低成本生成大量可验证训练数据,而非模型规模或算法。
GLM-5.2 是首个在 Terminal-Bench 上超过 80% 的开源权重模型,超越了所有其他开源模型乃至 Gemini,使其以极低的成本成为前沿水准的模型。
Sentra的Code Memory系统将GPT-5.5在Terminal-Bench 2.1上的性能提升至88.31%,而成本仅为四分之一,超越了Anthropic受限的Mythos 5模型。该记忆层减少了52%的输入Token,成本降低了72.6%,同时提升了任务成功率。
Nex-AGI 发布了 Nex-N2,一个开源的智能体模型系列 (Nex-N2-Pro 和 Nex-N2-mini),采用 Agentic Thinking 框架,统一了推理、工具使用和环境执行,在智能体和编码基准测试中达到顶级性能。
Ante是一个用Rust编写的轻量级、自包含的终端代理工具,设计上追求快速且无依赖。它在Terminal Bench 2.0中排名第一,尽管处于预览阶段且尚未开源,但对用户反馈保持高度响应。
一篇 Meta 论文显示,编程代理在重复使用过去尝试的简短摘要而非原始日志时性能显著提升,使用 Claude 4.5 Opus 在 SWE-Bench 和 Terminal-Bench 上取得了显著改进。
Qwen3.6-35B-A3B 和 Qwen3.5-9B 模型已正式登上 Terminal-Bench 2.0 排行榜,其中 little-coder 在 35B 变体上取得 24.6% 的成绩,超越了 Gemini 2.5 Pro 和 Qwen3-Coder-480B;而 9B 模型则表明,10B 以下的本地模型能够与高难度代理基准竞争。
HALO利用RLM通过分析执行轨迹并建议改进来优化AI智能体集群,在Terminal-Bench和AppWorld等多个基准测试上实现了10%以上的提升。