@latentspacepod: [AINews] 开放模型、模型实验室与智能体实验室，以及什么不可训练 — Sarah Guo https://latent.space/p/ainews-open-m…

X AI KOLs Timeline 2026/06/11 03:15 新闻

open-models model-labs agent-labs untrainable ai-news latent-space sarah-guo

摘要

讨论了Sarah Guo关于开放模型、模型实验室与智能体实验室的框架，以及‘不可训练’的概念，强调了应用通过不显眼的集成工作获胜，并且意图是一种稀缺输入。

[AINews] 开放模型、模型实验室与智能体实验室，以及什么不可训练 — Sarah Guo https://latent.space/p/ainews-open-models-model-labs-vs… 我们对于为什么@saranormous的框架可能是关于该做什么以及什么重要的最重要框架的看法。

查看原文

查看缓存全文

缓存时间: 2026/06/11 17:43

[AINews] 开放模型、模型实验室 vs 智能体实验室，以及什么是不可训练的——Sarah Guo

来源：https://www.latent.space/p/ainews-open-models-model-labs-vs Sarah Guo 是一位播客之友 (https://x.com/TheTuringPost/status/2061901518522188251?s=20) 和 AI 女王 (https://open.spotify.com/episode/2FIOWcKF1Mnl2Nh1UJHJ2H)，在她与 Satya 的交叉播客 (https://www.latent.space/p/satya-2026) (Gokul Rajaram 的精彩总结 (https://x.com/gokulr/status/2064837699568300344)) 之后，她在她的 Substack (https://saranormous.substack.com/p/the-untrainable?r=1o4vkp&utm_campaign=post&utm_medium=web&triedRedirect=true) 上发表了一篇精彩文章。请阅读它，再回头看看我们的反应：

这个框架（基于可识别性，如果你不熟悉，这是另一个值得关注的概念 (https://www.youtube.com/watch?v=96S_64ipHOA)）同时回应了我们在 Satya 播客以及过去两年在 Latent Space 上讨论过的许多主题：

**开放模型的地位：**在 2024 年与 Braintrust 的交流中，我们对开放模型的采用持极度悲观态度 (https://www.latent.space/p/braintrust?utm_source=publication-search)，但后来在 2026 年与 Pmarca (https://www.latent.space/p/pmarca)、Cursor (https://www.latent.space/p/cursor-third-era) 和 Notion (https://www.latent.space/p/notion?utm_source=publication-search) 的播客中，我们的观点发生了转变。
**智能体实验室 vs 模型实验室 (https://www.latent.space/p/agent-labs?utm_source=publication-search)：**Sarah（一位 Cognition 投资者）呼应了“细节决定 Devin”(https://www.swyx.io/cognition) 的观点：“一个应用程序通过在 不可训练 的角落做 不起眼的工作 来赢得一席之地：整理公司的私有现实以便模型能够对其进行操作，为模型提供操作工具，并与客户合作改变其劳动力的现实。一个提供这种转换的公司很难被复制——而且这种转换永无止境。集成和维护会随着关系的持续而持续，由那些将领域专业化工程师和工具置于客户身边的团队所赢得。”
**免费可验证基准：**为什么像 Anthropic 这样的实验室如此迅速地采用 FrontierCode (https://www.latent.space/p/ainews-frontiercode-benchmarking) 来支持 Fable 发布 (https://www.latent.space/p/ainews-anthropic-claude-fable-5-mythos)，以及为什么 Sarah 同意我们的观点：“今年被引用最多的基准分数是一幅 即将变得毫无价值的领土 的地图，也是一份关于谁将失去定义什么算作好的权利的声明。”

她以关于意图的注释作为结尾：“**更难的是进攻，是首先选择要构建什么。**这就是我全年寻找的东西，而且我大概只能找到三次。模型在这方面帮不上忙。它会做你指向的任何事情，但无法告诉你什么值得指向，而且你无法对其进行基准测试，所以你无法训练它。这也是现有巨头无法包揽一切的原因：他们守住已有的地盘，而下一个机会来自那些在我们之前找到用途的人。也许意图是一种比计算能力更稀缺的投入。”

AI 新闻，2026/6/9 - 2026/6/10。我们检查了 12 个子版块、544 条 Twitter (https://twitter.com/i/lists/1585430245762441216)，没有额外的 Discord。AINews 的网站 (https://news.smol.ai/) 可以搜索所有过往问题。提醒一下，AINews 现在是 Latent Space (https://www.latent.space/p/2026) 的一个栏目。您可以选择加入/退出 (https://support.substack.com/hc/en-us/articles/8914938285204-How-do-I-subscribe-to-or-unsubscribe-from-a-section-on-Substack) 电子邮件频率！

Anthropic 的 Fable/Mythos 发布、静默能力门控以及信任反噬

AI 研发帮助的静默降级主导了讨论：大量技术推文聚焦于 Anthropic 似乎在未明确事先披露的情况下，降级了模型在 AI 研究相关提示词上的性能，而不是生硬地拒绝这些请求。批评异常广泛：研究人员和构建者认为，这造成了模型观察能力与实际能力之间无法验证的差距，损害了可复现性，并破坏了在编码、生物学和系统工作等邻近领域对模型输出的信任。代表性批评来自 @natolambert (https://x.com/natolambert/status/2064699044145095104)、@martin_casado (https://x.com/martin_casado/status/2064727048460058937)、@drfeifei (https://x.com/drfeifei/status/2064735920281313688)、@antirez (https://x.com/antirez/status/2064766431531532588)、@ClementDelangue (https://x.com/ClementDelangue/status/2064673792303955985) 和 @deanwball (https://x.com/deanwball/status/2064665679307985244)。一些帖子提出了更具体的观点：即使 Anthropic 想要限制前沿用例，明确的拒绝或模型降级 也比静默破坏更站得住脚，例如 @hlntnr (https://x.com/hlntnr/status/2064733332882026565)、@arohan (https://x.com/arohan/status/2064644778147643401) 和 @DBahdanau (https://x.com/DBahdanau/status/2064692204287799728) 的观点。
企业关注点从安全扩展到保留和锁定：构建者强调，据报道 Fable/Mythos 带有 30 天提示词/数据保留期，并且在某些设置下无法选择退出，这立即排除了零保留环境以及欧洲部分地区。参见 @GergelyOrosz (https://x.com/GergelyOrosz/status/2064618497150210391) 关于提示历史保留和不透明的模型更改的讨论，以及 @scaling01 (https://x.com/scaling01/status/2064685085379477742) 关于与零数据保留不兼容的讨论。多个从业者重复的第二层教训是：将前沿 API 视为不稳定依赖项，维护模型可移植性，并通过评估和 harness 持续验证输出，如 @dbreunig (https://x.com/dbreunig/status/2064751540003643738)、@omarsar0 (https://x.com/omarsar0/status/2064753171214299209) 和 @yacineMTB (https://x.com/yacineMTB/status/2064801103447736398) 所论证的。
Anthropic 将争议与政策推动相结合：在强烈反对声中，Dario Amodei 发布了 “关于 AI 指数的政策”，认为 AI 进步正在超越机构，并呼吁加强前沿监管；Anthropic 同时宣布了相关举措，并提出政府在阻止不安全发布方面应发挥作用。参见 @DarioAmodei (https://x.com/DarioAmodei/status/2064781775247950326) 和 @AnthropicAI (https://x.com/AnthropicAI/status/2064783418844762489)。这种紧张关系对社区来说是显而易见的：同一家因不透明的私人控制而受到批评的公司，现在却在倡导更强有力的公共控制。

Fable 5 的基准实力和产品表现，尽管存在争议

Fable 5 在智能体和编码工作负载上表现出色：即使是 Anthropic 政策的许多批评者也承认这个模型本身非常出色。社区报告显示它在各种评估中处于领先或接近领先地位：Agent Arena (https://x.com/arena/status/2064807170714358193) 显示 总体排名第一，在确认任务成功和用户赞誉方面尤其大幅领先，尽管可操纵性较弱；@mchlhess (https://x.com/mchlhess/status/2064734182648221952) 表示它“完全碾压”了他的基准；@JasonBotterill (https://x.com/JasonBotterill/status/2064699951578505446) 指出 在 SimpleBench 上达到 81.9%；@lvwerra (https://x.com/lvwerra/status/2064758389406589134) 报告了 在 CADGenBench 上排名第一；@scaling01 (https://x.com/scaling01/status/2064812046902817051) 强调了强大的计算机使用结果；@LechMazur (https://x.com/LechMazur/status/2064815890651140447) 指出在 PACT 谈判中排名第一。
构建者报告了实质性的实际收益，但并不一致：许多从业者描述了在长周期编码和创意任务（包括游戏生成和硬性错误修复）上的主要生产力提升，例如 @kimmonismus (https://x.com/kimmonismus/status/2064744343349399634)、@walden_yan (https://x.com/walden_yan/status/2064755974548902006) 和 @hrishioa (https://x.com/hrishioa/status/2064717079526383699)。与此同时，其他人报告了脆弱的行为、高昂的消耗或在特定任务上不如 GPT-5.5 的表现，例如 @Sentdex (https://x.com/Sentdex/status/2064738018255159363) 和 @QuixiAI (https://x.com/QuixiAI/status/2064771682397569364)。时间线上的总体结论是：Fable 5 对于许多智能体编码任务来说可以说是最先进的，但信任和产品约束正在实质上影响其采用。
分发和集成进展迅速：Perplexity 通过 @perplexity_ai (https://x.com/perplexity_ai/status/2064771411894567373) 和 @AravSrinivas (https://x.com/AravSrinivas/status/2064775723886182427)，为其 Pro/Max 用户的 Computer 功能中 将 Claude Fable 5 添加为编排模型。Apple 开发者通过 @ClaudeDevs (https://x.com/ClaudeDevs/status/2064756984617021807)，获得了 Claude 的 Foundation Models 框架支持，用于多步骤推理、更长上下文和代码使用。社区行为也表明，在反噬后存在向 OpenAI/Codex 的替代压力，包括 @dylan522p (https://x.com/dylan522p/status/2064727949274955953) 报告使用份额从 Anthropic 转向 OpenAI。

Google 的 DiffusionGemma 发布以及对扩散 LLM 的重新关注

Google 在 Apache 2.0 许可下发布了 DiffusionGemma：此次发布中最重要的开放模型是 DiffusionGemma，这是一个基于 Gemma 4 构建的实验性 26B MoE 扩散文本模型，在 Apache 2.0 许可下以开放权重发布。它不采用自回归的下一个令牌生成方式，而是同时生成和精炼文本块，声称在合适硬件上输出速度最高可提升 4 倍，大约 每秒 1000+ 个令牌。参见 @Google (https://x.com/Google/status/2064741293163418032)、@GoogleDeepMind (https://x.com/GoogleDeepMind/status/2064741061352636762)、@googlegemma (https://x.com/googlegemma/status/2064741002204545467) 和 @sundarpichai (https://x.com/sundarpichai/status/2064744343743922189)。
系统方面的进展立即显现：这次发布不仅作为一个研究产物重要，而且作为服务基础设施的进步也很重要。@vllm_project (https://x.com/vllm_project/status/2064753414735900835) 表示 DiffusionGemma 是 vLLM 原生支持的第一个扩散 LLM，引用数据为在单个 H200 上使用 FP8，批量大小为 1 时，输出令牌速率超过 1200 个/秒。@danielhanchen (https://x.com/danielhanchen/status/2064760001567306232) 展示了它通过 llama.cpp 和 GGUFs 在本地运行；@UnslothAI (https://x.com/UnslothAI/status/2064743714875220118) 强调了在 18GB 级别 的硬件上本地执行；@_philschmid (https://x.com/_philschmid/status/2064745464252055647) 总结了推理占用为 38 亿活跃参数 和 256 令牌块去噪。
为什么研究人员关心：扩散风格的文本生成重新引发了关于迭代精炼、约束编辑、中间填充和纠错的问题。许多反应将其视为一个富有成效的 非顺序解码 和精炼密集型任务的研究方向，而不是一个产品化的竞争者；参见 @omarsar0 (https://x.com/omarsar0/status/2064742095387005352)、@mervenoyann (https://x.com/mervenoyann/status/2064753402064601181) 和 @dbreunig (https://x.com/dbreunig/status/2064752321817719204)。

智能体工具、基础设施和基准：围绕实际工作负载构建更多结构

基准正在从偏好转向基于追踪的智能体指标：@arena (https://x.com/arena/status/2064748918135824876) 详细介绍了 Agent Arena 背后的方法论，该方法挖掘长周期追踪以获取客观信号，如 bash 错误、工具幻觉和“疯狂”，而不是依赖每一步的人类偏好。这对于任务涉及数十次工具调用和 30 分钟追踪的智能体评估来说是一个重要方向。
记忆、编排和环境控制持续成熟：多个发布针对智能体周围缺失的系统层。@Teknium (https://x.com/Teknium/status/2064764570519146935) 发布了基于 GUI 的 Hermes 智能体配置文件，随后通过 @Teknium (https://x.com/Teknium/status/2064831491130130879) 发布了用于记忆/技能更新的 Write Gate 审批控制。@weaviate_io (https://x.com/weaviate_io/status/2064703135902216618) 描述了在 Engram 中使用组、主题和范围的结构化智能体记忆。@bromann (https://x.com/bromann/status/2064760446847168811) 主张将客户端/浏览器能力带入智能体循环。@FactoryAI (https://x.com/FactoryAI/status/2064764834928107914) 在 Factory Desktop 上发布了 Missions。
检测、路由和社区 harness：@perceptroninc (https://x.com/perceptroninc/status/2064732691845824833) 发布了 智能体检测，使用多调用缩放/推理循环进行密集的模糊视觉检测，而非一次性检测器；@vllm_project (https://x.com/vllm_project/status/2064679109406740827) 重点介绍了 Inferoa，一个围绕推理经济学优化的社区智能体 harness；@Azaliamirh (https://x.com/Azaliamirh/status/2064810291574305013) 介绍了 DeLM，一个去中心化的多智能体框架，据称使用 Gemini 3-Flash 达到 SWE-bench Verified 上的 65.7%，成本不到中心化替代方案的一半。

值得追踪的优化、检索和科学建模工作

分布式 Shampoo 与 Muon 的对比仍然是一个活跃的优化话题：一个技术上有趣的子线程显示，经过调整的 Meta DistributedShampoo 在超参数调整和启用伪逆稳定化后，在类似速通的任务上匹配了强大的 Muon 基线。@arohan (https://x.com/arohan/status/2064631528806908134) 报告了使用原始包加调整的验证损失约为 3.2766，而 @kellerjordan0 (https://x.com/kellerjordan0/status/2064761560732713360) 反驳了称其为“原始包”的说法，因为关键的稳定化标志未提供文档。这里的有用信号不是“宣布赢家”，而是优化器比较仍然对隐藏的实现细节和数值高度敏感。
后期交互检索获得了更好的内核：@tonywu_71 (https://x.com/tonywu_71/status/2064701365318767100) 发布了 late-interaction-kernels，用于 ColBERT/ColPali/LateOn 中 MaxSim 的融合 Triton 内核，声称在 PyTorch 上实现了数学等价性，同时内存占用仅为前者的一小部分。这对于多向量检索模型的训练和服务都很重要。
科学和多模态建模：@giffmana (https://x.com/giffmana/status/2064718736783823145) 重点介绍了一项新工作，表明扩散视频模型在某些探针上线性编码物理信息的能力优于 V-JEPA/VideoMAE，挑战了“视频生成模型是愚蠢的物理模拟器”这一常见说法。在生物技术领域，@edunov (https://x.com/edunov/status/2064774943766925696) 介绍了 DeCAF-Pearl，一个流映射共折叠模型，据称在保持质量的同时速度比 Pearl 快约 5 倍。在架构研究方面，@ZyphraAI (https://x.com/ZyphraAI/status/2064842130447851947) 在 Apache 2.0 许可下发布了 Zamba2-VL，将混合 SSM-Transformer 思想扩展到 VLM。

热门推文（按互动量）

政策/治理：@DarioAmodei 关于“AI 指数政策” (https://x.com/DarioAmodei/status/2064781775247950326) 的推文是互动量最高的技术/政策帖子，将前沿 AI 描述为进步速度快于机构的反应能力。
安全/失效模式：@jsrailton (

@latentspacepod: [AINews] 开放模型、模型实验室与智能体实验室，以及什么不可训练 — Sarah Guo https://latent.space/p/ainews-open-m…

[AINews] 开放模型、模型实验室 vs 智能体实验室，以及什么是不可训练的——Sarah Guo

相似文章

@aiDotEngineer: 您的智能体现在可以训练模型。来自@mervenoyann 的观点：开源模型已经迎头赶上。GLM 5.1 在人工智能分析指数上领先……

@swyx: 完整文章和链接在此

@danintheory：精彩的对话，也是学习重要开放AI问题的有趣方式！

@omarsar0：Karpathy 的 autoresearch 仓库掀起一股新风潮，智能体已能训练 AI 模型打造 SoTA 智能体系统……

@omarsar0：关于「循环工程」趋势，我有很多想法。我花了点时间与我的写作助手一起总结了一些…

提交意见反馈