terminal-bench

#terminal-bench

@cline：新型Sonnet 5以不到一半的成本在Terminal-Bench上达到Opus 4.8级别的性能。对--y…

X AI KOLs Following ↗ · 3小时前缓存

新型Sonnet 5模型以不到一半的成本在Terminal-Bench上达到Opus 4.8级别的性能，改进了对提示注入攻击的拒绝能力，现在已在Cline中可用。

0 人收藏 0 人点赞

#terminal-bench

@MiaAI_lab: Orinth-1.0-35b MoE 看起来比 Qwen 3.6 35b 好得多，特别是在 Terminal-Bench 2.1 和 SWE Atlas 上。

X AI KOLs Timeline ↗ · 5天前缓存

Orinth-1.0-35b MoE 在 Terminal-Bench 2.1 和 SWE Atlas 基准测试上优于 Qwen 3.6 35b。

0 人收藏 0 人点赞

#terminal-bench

GLM-5.2 在 45 个 terminal-bench 编码代理任务上与 Claude Opus 持平，成本不到一半（内含完整方法及失败日志）

Reddit r/ArtificialInteligence ↗ · 6天前

GLM-5.2 以更低成本在 45 个编码代理任务上与 Claude Opus 持平，其中 43 个任务结果完全相同。

0 人收藏 0 人点赞

#terminal-bench

@cuisitekp: 9B 的模型，把比它大好几倍的模型干下去了。 Ai2 和华盛顿大学那拨做 OLMo / Tülu 的人，放出一篇新论文叫 Tmax，自称是目前最强的开源「终端 agent」RL 训练配方。成绩：一个 9B 模型在 Terminal-Be…

X AI KOLs Timeline ↗ · 6天前缓存

Ai2和华盛顿大学发布论文Tmax，提出目前最强的开源终端智能体RL训练配方。仅用9B参数模型在Terminal-Bench 2.0上击败更大模型，关键在于低成本生成大量可验证训练数据，而非模型规模或算法。

0 人收藏 0 人点赞

#terminal-bench

GLM-5.2 是首个在 Terminal-Bench 上突破 80% 的开源权重模型，超越了所有其他开源模型。

Reddit r/LocalLLaMA ↗ · 2026-06-16

GLM-5.2 是首个在 Terminal-Bench 上超过 80% 的开源权重模型，超越了所有其他开源模型乃至 Gemini，使其以极低的成本成为前沿水准的模型。

0 人收藏 0 人点赞

#terminal-bench

@ashwingop: https://x.com/ashwingop/status/2065080505113125105

X AI KOLs Timeline ↗ · 2026-06-11 缓存

Sentra的Code Memory系统将GPT-5.5在Terminal-Bench 2.1上的性能提升至88.31%，而成本仅为四分之一，超越了Anthropic受限的Mythos 5模型。该记忆层减少了52%的输入Token，成本降低了72.6%，同时提升了任务成功率。

0 人收藏 0 人点赞

#terminal-bench

@LottoLabs: 这里有一个有趣的模型，35b a3b 专为智能体使用而训练。它在 Terminal Bench2 上获得 60.7 分，而 qwen 3.6 27b 得分为 59.3。关键……

X AI KOLs Following ↗ · 2026-06-08 缓存

Nex-AGI 发布了 Nex-N2，一个开源的智能体模型系列 (Nex-N2-Pro 和 Nex-N2-mini)，采用 Agentic Thinking 框架，统一了推理、工具使用和环境执行，在智能体和编码基准测试中达到顶级性能。

0 人收藏 0 人点赞

#terminal-bench

一个用Rust编写的代理工具，100%自包含，并登顶终端基准测试

Reddit r/AI_Agents ↗ · 2026-06-05

Ante是一个用Rust编写的轻量级、自包含的终端代理工具，设计上追求快速且无依赖。它在Terminal Bench 2.0中排名第一，尽管处于预览阶段且尚未开源，但对用户反馈保持高度响应。

0 人收藏 0 人点赞

#terminal-bench

@rohanpaul_ai: Meta 论文显示，当编程代理重复使用过去尝试的简短摘要而不是原始日志时，其性能会显著提升……

X AI KOLs Following ↗ · 2026-05-23 缓存

一篇 Meta 论文显示，编程代理在重复使用过去尝试的简短摘要而非原始日志时性能显著提升，使用 Claude 4.5 Opus 在 SWE-Bench 和 Terminal-Bench 上取得了显著改进。

0 人收藏 0 人点赞

#terminal-bench

Qwen3.6-35B-A3B 和 9B 已正式登上公开的 Terminal-Bench 2.0 排行榜！

Reddit r/LocalLLaMA ↗ · 2026-05-16

Qwen3.6-35B-A3B 和 Qwen3.5-9B 模型已正式登上 Terminal-Bench 2.0 排行榜，其中 little-coder 在 35B 变体上取得 24.6% 的成绩，超越了 Gemini 2.5 Pro 和 Qwen3-Coder-480B；而 9B 模型则表明，10B 以下的本地模型能够与高难度代理基准竞争。

0 人收藏 0 人点赞

#terminal-bench

@samhogan: https://x.com/samhogan/status/2055064462844219603

X AI KOLs Timeline ↗ · 2026-05-14 缓存

HALO利用RLM通过分析执行轨迹并建议改进来优化AI智能体集群，在Terminal-Bench和AppWorld等多个基准测试上实现了10%以上的提升。

0 人收藏 0 人点赞

terminal-bench

提交意见反馈