@ashwingop: https://x.com/ashwingop/status/2065080505113125105

X AI KOLs Timeline 新闻

摘要

Sentra的Code Memory系统将GPT-5.5在Terminal-Bench 2.1上的性能提升至88.31%,而成本仅为四分之一,超越了Anthropic受限的Mythos 5模型。该记忆层减少了52%的输入Token,成本降低了72.6%,同时提升了任务成功率。

https://t.co/ZVFA6duEo5
查看原文
查看缓存全文

缓存时间: 2026/06/11 19:43

我们给 GPT-5.5 装了记忆,它竟然比肩了那个“不得使用”的模型

Terminal-Bench 2.1 得分 88.31%,成本仅四分之一,以及关于何种结构带来规模效应的说明

现在世界上有一个最强的编程模型,但你不被允许使用它。Anthropic 通过一个经过审查的合作伙伴计划发布了 Mythos 5,附带受限访问和代号,据报道在 Terminal-Bench 2.1 上得分为 88.0%,这是终端编程代理最难公开基准之一。我们其他人可以买到的版本 Fable 5,在其安全分类器生效后,分数会低几个百分点。市场上最强的编程智能,现在字面意义上成了“不得使用的模型”,除非 Anthropic 认为你足够安全。

本周我们进行了另一项实验。我们采用了 GPT-5.5,这个在验证排行榜上以 83.4% 领先的公开模型,只改变了一件事:给它装上了我们在 Sentra 开发的记忆系统。它的得分为 88.31%,同时花费减少了 72.6%,而且我们认为我们还没有完全优化这个记忆系统,所以还有很大的提升空间。

先说一些注意事项,因为它们很重要。我们的运行数据和 Anthropic 的发布数据都是基于不同测试框架的内部评估,尚未经过 Terminal-Bench 团队的验证。我们正在通过官方验证流程提交,并发布所有运行轨迹,以便你可以检查代理实际做了什么。关于这一结果的报告涵盖了所有这些细节。现在开始讲故事。

实验

Terminal-Bench 2.1 包含 89 个任务,运行在容器化的 Linux 环境中:构建系统、调试、系统管理工作、安全挑战、科学计算。每个任务运行五次,你的分数是全部 445 次试验的平均奖励。当前经过验证的排行榜领先者是运行 GPT-5.5(xhigh 推理强度)的 Codex CLI,得分为 83.4%。

我们采取了完全相同的配置——相同的代理、相同的模型、相同的推理强度、相同的测试框架、相同的评分器——只是让 Sentra Code Memory 作为工具可用。代码仓库在代理启动前被索引,一个监视器在代理编辑时保持记忆更新。代理无需重新扫描仓库来重建已有的上下文,只需查询即可。

只改变了一个变量,所有主要指标都随之变化。运行在 445 次试验中成功了 393 次,平均奖励为 88.31%,而重新计算的基线为 83.37%,提高了 4.94 个百分点,多成功了 22 次。总模型成本从 1,862.98 美元降至 510.30 美元,因此每次成功试验的成本从 5.02 美元降至 1.30 美元。按照排行榜的显示惯例,令牌使用量下降了 41.2%。运行也变得更加稳定:所有五次试验都成功的任务从 63 个增加到 68 个,所有试验都失败的任务从 5 个减少到 3 个,并且在基线从未成功解决的五项任务中,装有记忆的代理破解了四项。

它并非全面更好。二十个任务有改进,八个退步,六十一个持平,净增 22 次成功试验。退步集中在一个小集群中,我们正在正式提交前进行分析,如果你想核对数据,报告中附录 A 包含了每项任务的详细数字。

一个统计指标解释了运行的大部分情况。输入令牌下降了 52.1%,而输出令牌仅下降了 13.0%。代理读取的内容减半,但构建的内容相同。节省并非来自减少工作量;而是来自不再第四次读取同一个仓库。你可以在任务层面看到这一点。在 compile-compcert 任务中(涉及构建一个经过形式验证的 C 编译器),基线以 99.89 美元的成本获得了五分之四的成功,而装有记忆的运行以 13.47 美元的成本获得了五次全胜。在 train-fasttext 任务中,基线五次试验全部失败,花费了 138.90 美元,而装有记忆的代理以 14.70 美元的成本获得了两次成功。基线并不更笨。它只是在花前沿模型的价格去重新发现它已经见过的东西。

记忆到底是什么

Sentra Code Memory 是一个用于代理工作的记忆构建层。它不是更大的上下文窗口,也不是仓库的静态地图。当代理工作时,系统将任务环境分解成有意义的单元:文件、符号、命令、编辑、失败、构建信号、测试结果、任务目标以及它们之间的关系。目标不是保留代理见过的每一个令牌。目标是保留那些以后可能重要的工作部分,将它们与证据关联起来,并在代理还在行动时以可用的形式交还给它们。一个普通的代码图可以告诉代理一个函数调用了另一个函数。而这个层保存了更广泛的工作状态:代理到目前为止学到了什么,哪些假设已经失败,哪些测试是相关的,运行过程中发生了什么变化,以及哪些证据支持某个回忆。它更接近于任务范围内的语义记忆,而不是仓库索引。

在内部,我们将这个过程描述为语义分解,然后是本体论透镜投影。分解将环境分解为任务适当抽象层次上的有意义对象和事件。然后,透镜通过领域特定的重要视图来组织这些对象。在代码中,该透镜涵盖模块、依赖项、运行时错误、测试、配置和编辑历史。在销售工作流中,它将涵盖客户、承诺、异议、利益相关者和续约风险。该机制本身与代码类别无关。代码只是价值最容易衡量的领域,也是该层可以直接插入现有代理循环而不影响其他任何地方的领域。代理仍然通过相同的界面进行规划、编辑文件、运行命令和验证其工作。记忆作为另一个可调用的回忆表面,就放在这个循环旁边。

这就是为什么三个指标同时移动的原因,这在代理基准测试中几乎从未发生过。分数的提升通常是通过更多采样、更长运行或更重推理来获得的。看起来像是代理推理预算的一大部分实际上花在了重建上下文上:重新推导仓库结构、重新读取命令历史、重新确定哪个测试重要。把这种结构交给代理,模型就真正从工作起点开始,因此准确率上升,同时成本和令牌下降,都来自同一个改变。

需要明确我们并不声称什么:这不是对“苦涩教训”的反对。萨顿是正确的,依靠计算能力的通用方法胜过手工制作的巧妙之处,我们运行中负责工作的模型本身就是这一教训的产物。我们的主张更窄,而且我们认为更有趣。苦涩教训是关于能力应该如何获取。它没有说你应该在单次运行中将多少这种能力浪费在五次重建相同的上下文上。记忆层不是手工编码的任务知识;它是一种通用机制,在结构上一次花费计算能力,这样模型就不必反复在重新发现上花费。规模设定了上限。结构决定了你实际能得到多少上限,以及以什么价格。

88.31 分的位置在哪里

对于每一个不是我们的数据,我们将引导你查看 BenchmarkList 汇总的 Terminal-Bench 2.1 追踪器,它在一个地方收集了自行报告的发布数据和独立的 Vals 运行结果。结合经过验证的排行榜结果、供应商发布数据以及独立的 Vals 运行,本周的排名如下:

  • Claude Opus 4.8:82.7%
  • GPT-5.5 via Codex CLI,已验证排行榜领先者:83.4%
  • Claude Fable 5,任何人都能购买的新模型:在 Anthropic 自己的表格上为 84.3%,在 Vals 独立运行中为 80.5%
  • Claude Mythos 5,与 Fable 权重相同但受限:88.0%
  • 装有 Sentra Code Memory 的 GPT-5.5:88.31%

从这个排名中可以得出两个主张,它们的强度并不相同,所以我分别说明。对于公众实际可以使用的每一个模型,差距是四到五个百分点,而且这还是在你注意到对 Fable 5 的独立测量结果低于发布表格之前。这个主张是可靠的。第二个主张需要更谨慎:与 Mythos 5 本身相比,我们在不同的测试框架上高出 0.31 个百分点,比较的是两个未经验证的内部评估。如果你愿意,可以称之为平局,但平局本身就是故事。一个带有记忆层的公共租赁模型,本不应与世界上受限制最严格的前沿模型有任何关系,然而事实就是如此。你被允许使用的模型和你被禁止使用的模型之间的差距,结果大约相当于一个记忆的大小。

注意:我们的结果正等待 Terminal-Bench 团队的验证(如果你知道如何加快速度,请告诉我们)。

为什么我们不开源

现在是我们会在每个评论区收到的问题,诚实地回答。不,Sentra Code Memory 不会开源。我们理解其中的讽刺。我们刚刚花了半篇文章批评限制访问,而我们现在也在限制访问。区别在于,我们没有把商业决策包装成其他东西。我们是一家公司。这是核心基础设施。我们打算出售它。

长话短说。Code Memory 是更大产品的一个表面:一个公司大脑,组织中每个人(无论是人类还是代理)的工作都输入到一个可共享、可查询的结构中。每个决策都与理由相连,每个答案都与证据相连,系统附带访问控制、审计跟踪和正常运行时间保证,满足在丢失上下文会花费真金白银的场所的要求。

开源我们的基础层会降低每个企业内部构建同样东西的门槛。为了显得高尚而放弃你的护城河不是战略,而是虚荣。

我们也看到了对称性,在有人指出之前。我们在上面一节中调侃了一个实验室限制对能力的访问,而我们现在也在限制对能力的访问,只是没有伪装。这是公平的批评。每个人都会设限;唯一的变量是他们讲述自己为何如此的故事,而我们的故事根本没有。我们要发布的内容是让你能验证我们的部分:这份完整的技术报告,包含所有 89 个任务的每次试验结果,以及我们官方 Terminal-Bench 验证提交的完整运行轨迹,产品本身也会很快发布。源代码保持关闭。证据不会。

接下来会发生什么

我们技术报告的第 3 节有方法论,第 8 节有局限性,附录 A 有全部 89 个任务,如果你想逐个试验审计我们。轨迹会随验证运行一起发布。如果你想提前接触 Sentra Code Memory,或者想就本文中的任何数字与我们争论,可以私信我或发送邮件至 [email protected]

我们从代码开始,因为代码在组织中拥有最清晰的效用函数:让测试通过。这种清晰性使得结果易于衡量,这也是代码仅仅是第一个领域的原因。同样的举措——先有结构,再有智能——正是公司大脑为你组织所知却又不断遗忘的其他一切所做的。那部分更难基准测试。也是我们觉得更有趣的部分,也是我们要去的方向。

Sentra Code Memory 在 Terminal-Bench 2.1 上的技术评估报告(2026 年 6 月)。Sentra 的结果等待官方基准验证;基线数据根据已发布的 Codex CLI + GPT-5.5 (xhigh) 每任务试验数据重新计算。所有第三方模型数据来自 BenchmarkList 的 Terminal-Bench 2.1 追踪器,该追踪器汇总了 Anthropic 2026 年 6 月 9 日发布表格和 Vals 独立运行数据。

在 Sentra,我们正在构建可以被描述为“公司大脑”的东西——一个共享的智能/记忆层,位于所有沟通渠道、知识库、行动和代理轨迹之上,以理解组织中每个人实际如何工作以及工作如何实际完成,近乎实时地构建整个公司的活的世界模型。

相似文章

利用 GPT-5.1-Codex-Max 构建更多

OpenAI Blog

OpenAI 推出 GPT-5.1-Codex-Max,这是一款新的智能代理编码模型,具有改进的推理能力、token 效率,以及通过“压缩”机制在数百万个 token 上保持连贯工作的能力。该模型更快速、更智能,可以持续运行数小时甚至数天的长时间任务,代表了 AI 辅助软件工程的重大进步。

GPT-5.5 或许消耗更少的 token,但它始终烧掉更多的钱

Reddit r/artificial

尽管 OpenAI 声称 GPT-5.5 在 token 效率上有所提升,但实际使用成本仍比 GPT-5.4 高出 49% 至 92%;与此同时,Anthropic 的 Claude Opus 4.7 对于较长提示词的实际成本也上涨了 12% 至 27%。这一现象反映出前沿模型价格普遍上涨的趋势,而两家公司均面临巨额预计亏损。