@latentspacepod: [AINews] 开放模型、模型实验室与智能体实验室,以及什么不可训练 — Sarah Guo https://latent.space/p/ainews-open-m…

X AI KOLs Timeline 新闻

摘要

讨论了Sarah Guo关于开放模型、模型实验室与智能体实验室的框架,以及‘不可训练’的概念,强调了应用通过不显眼的集成工作获胜,并且意图是一种稀缺输入。

[AINews] 开放模型、模型实验室与智能体实验室,以及什么不可训练 — Sarah Guo https://latent.space/p/ainews-open-models-model-labs-vs… 我们对于为什么@saranormous的框架可能是关于该做什么以及什么重要的最重要框架的看法。
查看原文
查看缓存全文

缓存时间: 2026/06/11 17:43

[AINews] 开放模型、模型实验室 vs 智能体实验室,以及什么是不可训练的——Sarah Guo

来源:https://www.latent.space/p/ainews-open-models-model-labs-vs Sarah Guo 是一位播客之友 (https://x.com/TheTuringPost/status/2061901518522188251?s=20) 和 AI 女王 (https://open.spotify.com/episode/2FIOWcKF1Mnl2Nh1UJHJ2H),在她与 Satya 的交叉播客 (https://www.latent.space/p/satya-2026) (Gokul Rajaram 的精彩总结 (https://x.com/gokulr/status/2064837699568300344)) 之后,她在她的 Substack (https://saranormous.substack.com/p/the-untrainable?r=1o4vkp&utm_campaign=post&utm_medium=web&triedRedirect=true) 上发表了一篇精彩文章。请阅读它,再回头看看我们的反应:

这个框架(基于可识别性,如果你不熟悉,这是另一个值得关注的概念 (https://www.youtube.com/watch?v=96S_64ipHOA))同时回应了我们在 Satya 播客以及过去两年在 Latent Space 上讨论过的许多主题:

  • **开放模型的地位:**在 2024 年与 Braintrust 的交流中,我们对开放模型的采用持极度悲观态度 (https://www.latent.space/p/braintrust?utm_source=publication-search),但后来在 2026 年与 Pmarca (https://www.latent.space/p/pmarca)、Cursor (https://www.latent.space/p/cursor-third-era) 和 Notion (https://www.latent.space/p/notion?utm_source=publication-search) 的播客中,我们的观点发生了转变。
  • **智能体实验室 vs 模型实验室 (https://www.latent.space/p/agent-labs?utm_source=publication-search):**Sarah(一位 Cognition 投资者)呼应了“细节决定 Devin”(https://www.swyx.io/cognition) 的观点:“一个应用程序通过在 不可训练 的角落做 不起眼的工作 来赢得一席之地:整理公司的私有现实以便模型能够对其进行操作,为模型提供操作工具,并与客户合作改变其劳动力的现实。一个提供这种转换的公司很难被复制——而且这种转换永无止境。集成和维护会随着关系的持续而持续,由那些将领域专业化工程师和工具置于客户身边的团队所赢得。”
  • **免费可验证基准:**为什么像 Anthropic 这样的实验室如此迅速地采用 FrontierCode (https://www.latent.space/p/ainews-frontiercode-benchmarking) 来支持 Fable 发布 (https://www.latent.space/p/ainews-anthropic-claude-fable-5-mythos),以及为什么 Sarah 同意我们的观点:“今年被引用最多的基准分数是一幅 即将变得毫无价值的领土 的地图,也是一份关于谁将失去定义什么算作好的权利的声明。”

她以关于意图的注释作为结尾:“**更难的是进攻,是首先选择要构建什么。**这就是我全年寻找的东西,而且我大概只能找到三次。模型在这方面帮不上忙。它会做你指向的任何事情,但无法告诉你什么值得指向,而且你无法对其进行基准测试,所以你无法训练它。这也是现有巨头无法包揽一切的原因:他们守住已有的地盘,而下一个机会来自那些在我们之前找到用途的人。也许意图是一种比计算能力更稀缺的投入。”

AI 新闻,2026/6/9 - 2026/6/10。我们检查了 12 个子版块、544 条 Twitter (https://twitter.com/i/lists/1585430245762441216),没有额外的 Discord。AINews 的网站 (https://news.smol.ai/) 可以搜索所有过往问题。提醒一下,AINews 现在是 Latent Space (https://www.latent.space/p/2026) 的一个栏目。您可以 选择加入/退出 (https://support.substack.com/hc/en-us/articles/8914938285204-How-do-I-subscribe-to-or-unsubscribe-from-a-section-on-Substack) 电子邮件频率!

Anthropic 的 Fable/Mythos 发布、静默能力门控以及信任反噬

  • AI 研发帮助的静默降级主导了讨论:大量技术推文聚焦于 Anthropic 似乎在未明确事先披露的情况下,降级了模型在 AI 研究相关提示词上的性能,而不是生硬地拒绝这些请求。批评异常广泛:研究人员和构建者认为,这造成了模型观察能力与实际能力之间无法验证的差距,损害了可复现性,并破坏了在编码、生物学和系统工作等邻近领域对模型输出的信任。代表性批评来自 @natolambert (https://x.com/natolambert/status/2064699044145095104)、@martin_casado (https://x.com/martin_casado/status/2064727048460058937)、@drfeifei (https://x.com/drfeifei/status/2064735920281313688)、@antirez (https://x.com/antirez/status/2064766431531532588)、@ClementDelangue (https://x.com/ClementDelangue/status/2064673792303955985) 和 @deanwball (https://x.com/deanwball/status/2064665679307985244)。一些帖子提出了更具体的观点:即使 Anthropic 想要限制前沿用例,明确的拒绝或模型降级 也比静默破坏更站得住脚,例如 @hlntnr (https://x.com/hlntnr/status/2064733332882026565)、@arohan (https://x.com/arohan/status/2064644778147643401) 和 @DBahdanau (https://x.com/DBahdanau/status/2064692204287799728) 的观点。
  • 企业关注点从安全扩展到保留和锁定:构建者强调,据报道 Fable/Mythos 带有 30 天提示词/数据保留期,并且在某些设置下无法选择退出,这立即排除了零保留环境以及欧洲部分地区。参见 @GergelyOrosz (https://x.com/GergelyOrosz/status/2064618497150210391) 关于提示历史保留和不透明的模型更改的讨论,以及 @scaling01 (https://x.com/scaling01/status/2064685085379477742) 关于与零数据保留不兼容的讨论。多个从业者重复的第二层教训是:将前沿 API 视为不稳定依赖项,维护模型可移植性,并通过评估和 harness 持续验证输出,如 @dbreunig (https://x.com/dbreunig/status/2064751540003643738)、@omarsar0 (https://x.com/omarsar0/status/2064753171214299209) 和 @yacineMTB (https://x.com/yacineMTB/status/2064801103447736398) 所论证的。
  • Anthropic 将争议与政策推动相结合:在强烈反对声中,Dario Amodei 发布了 “关于 AI 指数的政策”,认为 AI 进步正在超越机构,并呼吁加强前沿监管;Anthropic 同时宣布了相关举措,并提出政府在阻止不安全发布方面应发挥作用。参见 @DarioAmodei (https://x.com/DarioAmodei/status/2064781775247950326) 和 @AnthropicAI (https://x.com/AnthropicAI/status/2064783418844762489)。这种紧张关系对社区来说是显而易见的:同一家因不透明的私人控制而受到批评的公司,现在却在倡导更强有力的公共控制。

Fable 5 的基准实力和产品表现,尽管存在争议

  • Fable 5 在智能体和编码工作负载上表现出色:即使是 Anthropic 政策的许多批评者也承认这个模型本身非常出色。社区报告显示它在各种评估中处于领先或接近领先地位:Agent Arena (https://x.com/arena/status/2064807170714358193) 显示 总体排名第一,在确认任务成功和用户赞誉方面尤其大幅领先,尽管可操纵性较弱;@mchlhess (https://x.com/mchlhess/status/2064734182648221952) 表示它“完全碾压”了他的基准;@JasonBotterill (https://x.com/JasonBotterill/status/2064699951578505446) 指出 在 SimpleBench 上达到 81.9%;@lvwerra (https://x.com/lvwerra/status/2064758389406589134) 报告了 在 CADGenBench 上排名第一;@scaling01 (https://x.com/scaling01/status/2064812046902817051) 强调了强大的计算机使用结果;@LechMazur (https://x.com/LechMazur/status/2064815890651140447) 指出在 PACT 谈判中排名第一
  • 构建者报告了实质性的实际收益,但并不一致:许多从业者描述了在长周期编码和创意任务(包括游戏生成和硬性错误修复)上的主要生产力提升,例如 @kimmonismus (https://x.com/kimmonismus/status/2064744343349399634)、@walden_yan (https://x.com/walden_yan/status/2064755974548902006) 和 @hrishioa (https://x.com/hrishioa/status/2064717079526383699)。与此同时,其他人报告了脆弱的行为、高昂的消耗或在特定任务上不如 GPT-5.5 的表现,例如 @Sentdex (https://x.com/Sentdex/status/2064738018255159363) 和 @QuixiAI (https://x.com/QuixiAI/status/2064771682397569364)。时间线上的总体结论是:Fable 5 对于许多智能体编码任务来说可以说是最先进的,但信任和产品约束正在实质上影响其采用
  • 分发和集成进展迅速:Perplexity 通过 @perplexity_ai (https://x.com/perplexity_ai/status/2064771411894567373) 和 @AravSrinivas (https://x.com/AravSrinivas/status/2064775723886182427),为其 Pro/Max 用户的 Computer 功能中 将 Claude Fable 5 添加为编排模型。Apple 开发者通过 @ClaudeDevs (https://x.com/ClaudeDevs/status/2064756984617021807),获得了 Claude 的 Foundation Models 框架支持,用于多步骤推理、更长上下文和代码使用。社区行为也表明,在反噬后存在向 OpenAI/Codex 的替代压力,包括 @dylan522p (https://x.com/dylan522p/status/2064727949274955953) 报告使用份额从 Anthropic 转向 OpenAI。

Google 的 DiffusionGemma 发布以及对扩散 LLM 的重新关注

  • Google 在 Apache 2.0 许可下发布了 DiffusionGemma:此次发布中最重要的开放模型是 DiffusionGemma,这是一个基于 Gemma 4 构建的实验性 26B MoE 扩散文本模型,在 Apache 2.0 许可下以开放权重发布。它不采用自回归的下一个令牌生成方式,而是同时生成和精炼文本块,声称在合适硬件上输出速度最高可提升 4 倍,大约 每秒 1000+ 个令牌。参见 @Google (https://x.com/Google/status/2064741293163418032)、@GoogleDeepMind (https://x.com/GoogleDeepMind/status/2064741061352636762)、@googlegemma (https://x.com/googlegemma/status/2064741002204545467) 和 @sundarpichai (https://x.com/sundarpichai/status/2064744343743922189)。
  • 系统方面的进展立即显现:这次发布不仅作为一个研究产物重要,而且作为服务基础设施的进步也很重要。@vllm_project (https://x.com/vllm_project/status/2064753414735900835) 表示 DiffusionGemma 是 vLLM 原生支持的第一个扩散 LLM,引用数据为在单个 H200 上使用 FP8,批量大小为 1 时,输出令牌速率超过 1200 个/秒。@danielhanchen (https://x.com/danielhanchen/status/2064760001567306232) 展示了它通过 llama.cpp 和 GGUFs 在本地运行;@UnslothAI (https://x.com/UnslothAI/status/2064743714875220118) 强调了在 18GB 级别 的硬件上本地执行;@_philschmid (https://x.com/_philschmid/status/2064745464252055647) 总结了推理占用为 38 亿活跃参数256 令牌块去噪
  • 为什么研究人员关心:扩散风格的文本生成重新引发了关于迭代精炼、约束编辑、中间填充和纠错的问题。许多反应将其视为一个富有成效的 非顺序解码 和精炼密集型任务的研究方向,而不是一个产品化的竞争者;参见 @omarsar0 (https://x.com/omarsar0/status/2064742095387005352)、@mervenoyann (https://x.com/mervenoyann/status/2064753402064601181) 和 @dbreunig (https://x.com/dbreunig/status/2064752321817719204)。

智能体工具、基础设施和基准:围绕实际工作负载构建更多结构

  • 基准正在从偏好转向基于追踪的智能体指标:@arena (https://x.com/arena/status/2064748918135824876) 详细介绍了 Agent Arena 背后的方法论,该方法挖掘长周期追踪以获取客观信号,如 bash 错误、工具幻觉和“疯狂”,而不是依赖每一步的人类偏好。这对于任务涉及数十次工具调用和 30 分钟追踪的智能体评估来说是一个重要方向。
  • 记忆、编排和环境控制持续成熟:多个发布针对智能体周围缺失的系统层。@Teknium (https://x.com/Teknium/status/2064764570519146935) 发布了基于 GUI 的 Hermes 智能体配置文件,随后通过 @Teknium (https://x.com/Teknium/status/2064831491130130879) 发布了用于记忆/技能更新的 Write Gate 审批控制。@weaviate_io (https://x.com/weaviate_io/status/2064703135902216618) 描述了在 Engram 中使用组、主题和范围的结构化智能体记忆。@bromann (https://x.com/bromann/status/2064760446847168811) 主张将客户端/浏览器能力带入智能体循环。@FactoryAI (https://x.com/FactoryAI/status/2064764834928107914) 在 Factory Desktop 上发布了 Missions
  • 检测、路由和社区 harness:@perceptroninc (https://x.com/perceptroninc/status/2064732691845824833) 发布了 智能体检测,使用多调用缩放/推理循环进行密集的模糊视觉检测,而非一次性检测器;@vllm_project (https://x.com/vllm_project/status/2064679109406740827) 重点介绍了 Inferoa,一个围绕推理经济学优化的社区智能体 harness;@Azaliamirh (https://x.com/Azaliamirh/status/2064810291574305013) 介绍了 DeLM,一个去中心化的多智能体框架,据称使用 Gemini 3-Flash 达到 SWE-bench Verified 上的 65.7%,成本不到中心化替代方案的一半。

值得追踪的优化、检索和科学建模工作

  • 分布式 Shampoo 与 Muon 的对比仍然是一个活跃的优化话题:一个技术上有趣的子线程显示,经过调整的 Meta DistributedShampoo 在超参数调整和启用伪逆稳定化后,在类似速通的任务上匹配了强大的 Muon 基线。@arohan (https://x.com/arohan/status/2064631528806908134) 报告了使用原始包加调整的验证损失约为 3.2766,而 @kellerjordan0 (https://x.com/kellerjordan0/status/2064761560732713360) 反驳了称其为“原始包”的说法,因为关键的稳定化标志未提供文档。这里的有用信号不是“宣布赢家”,而是优化器比较仍然对隐藏的实现细节和数值高度敏感。
  • 后期交互检索获得了更好的内核:@tonywu_71 (https://x.com/tonywu_71/status/2064701365318767100) 发布了 late-interaction-kernels,用于 ColBERT/ColPali/LateOn 中 MaxSim 的融合 Triton 内核,声称在 PyTorch 上实现了数学等价性,同时内存占用仅为前者的一小部分。这对于多向量检索模型的训练和服务都很重要。
  • 科学和多模态建模:@giffmana (https://x.com/giffmana/status/2064718736783823145) 重点介绍了一项新工作,表明扩散视频模型在某些探针上线性编码物理信息的能力优于 V-JEPA/VideoMAE,挑战了“视频生成模型是愚蠢的物理模拟器”这一常见说法。在生物技术领域,@edunov (https://x.com/edunov/status/2064774943766925696) 介绍了 DeCAF-Pearl,一个流映射共折叠模型,据称在保持质量的同时速度比 Pearl 快约 5 倍。在架构研究方面,@ZyphraAI (https://x.com/ZyphraAI/status/2064842130447851947) 在 Apache 2.0 许可下发布了 Zamba2-VL,将混合 SSM-Transformer 思想扩展到 VLM。

热门推文(按互动量)

  • 政策/治理:@DarioAmodei 关于“AI 指数政策” (https://x.com/DarioAmodei/status/2064781775247950326) 的推文是互动量最高的技术/政策帖子,将前沿 AI 描述为进步速度快于机构的反应能力。
  • 安全/失效模式:@jsrailton (

相似文章

@swyx: 完整文章和链接在此

X AI KOLs Timeline

Latent Space 播客的一集讨论了这样一个论点:视频模型从大语言模型(LLM)中获取智能,下一个前沿是视频智能体。嘉宾 Ethan He(曾在 xAI 构建 Grok Imagine)分享了构建前沿图像和视频系统的见解。