terminal-bench

#terminal-bench

@LottoLabs: 这里有一个有趣的模型，35b a3b 专为智能体使用而训练。它在 Terminal Bench2 上获得 60.7 分，而 qwen 3.6 27b 得分为 59.3。关键……

X AI KOLs Following ↗ · 7小时前缓存

Nex-AGI 发布了 Nex-N2，一个开源的智能体模型系列 (Nex-N2-Pro 和 Nex-N2-mini)，采用 Agentic Thinking 框架，统一了推理、工具使用和环境执行，在智能体和编码基准测试中达到顶级性能。

0 人收藏 0 人点赞

#terminal-bench

一个用Rust编写的代理工具，100%自包含，并登顶终端基准测试

Reddit r/AI_Agents ↗ · 3天前

Ante是一个用Rust编写的轻量级、自包含的终端代理工具，设计上追求快速且无依赖。它在Terminal Bench 2.0中排名第一，尽管处于预览阶段且尚未开源，但对用户反馈保持高度响应。

0 人收藏 0 人点赞

#terminal-bench

@rohanpaul_ai: Meta 论文显示，当编程代理重复使用过去尝试的简短摘要而不是原始日志时，其性能会显著提升……

X AI KOLs Following ↗ · 2026-05-23 缓存

一篇 Meta 论文显示，编程代理在重复使用过去尝试的简短摘要而非原始日志时性能显著提升，使用 Claude 4.5 Opus 在 SWE-Bench 和 Terminal-Bench 上取得了显著改进。

0 人收藏 0 人点赞

#terminal-bench

Qwen3.6-35B-A3B 和 9B 已正式登上公开的 Terminal-Bench 2.0 排行榜！

Reddit r/LocalLLaMA ↗ · 2026-05-16

Qwen3.6-35B-A3B 和 Qwen3.5-9B 模型已正式登上 Terminal-Bench 2.0 排行榜，其中 little-coder 在 35B 变体上取得 24.6% 的成绩，超越了 Gemini 2.5 Pro 和 Qwen3-Coder-480B；而 9B 模型则表明，10B 以下的本地模型能够与高难度代理基准竞争。

0 人收藏 0 人点赞

#terminal-bench

@samhogan: https://x.com/samhogan/status/2055064462844219603

X AI KOLs Timeline ↗ · 2026-05-14 缓存

HALO利用RLM通过分析执行轨迹并建议改进来优化AI智能体集群，在Terminal-Bench和AppWorld等多个基准测试上实现了10%以上的提升。

0 人收藏 0 人点赞

terminal-bench

@LottoLabs: 这里有一个有趣的模型，35b a3b 专为智能体使用而训练。它在 Terminal Bench2 上获得 60.7 分，而 qwen 3.6 27b 得分为 59.3。关键……

一个用Rust编写的代理工具，100%自包含，并登顶终端基准测试

@rohanpaul_ai: Meta 论文显示，当编程代理重复使用过去尝试的简短摘要而不是原始日志时，其性能会显著提升……

Qwen3.6-35B-A3B 和 9B 已正式登上公开的 Terminal-Bench 2.0 排行榜！

@samhogan: https://x.com/samhogan/status/2055064462844219603

提交意见反馈