@swyx: https://x.com/swyx/status/2059478552085692512

X AI KOLs Following 2026/05/27 03:35 新闻

ai-infra decacorns fundraising inference agents coding-benchmarks harness-engineering

摘要

AI新闻综述：涵盖Fireworks的150亿美元和Baseten的110亿美元融资轮次、OpenRouter的1.13亿美元融资，以及编码代理中智能体框架工程相比基础模型日益增长的重要性。

https://t.co/uO2fHIPTjM

查看原文

查看缓存全文

缓存时间: 2026/05/27 05:02

[AINews] 新一批AI基础设施十角兽：Fireworks、Baseten（OpenRouter紧随其后）

来源：https://www.latent.space/p/ainews-new-ai-infra-decacorns-fireworks 参与2026 AI工程调查 (https://notion.qualtrics.com/jfe/form/SV_bP07tSVMXH7ePCS)，获得超过2000美元积分和AIE WF门票 (https://ai.engineer/wf)！

读者喜欢我们报道没有新闻的状态，但我们第二喜欢的是能够简单地强化一个你应当关注的趋势。四月我们强调了推理拐点 (https://www.latent.space/p/ainews-the-inference-inflection)，而如果今天标题让你想起上周的标题 (https://www.latent.space/p/ainews-new-ai-infra-unicorns-exa)，那这正是我们要表达的观点。

鉴于目前AI融资的速度，我们的一般政策是只报道那些达到十角兽（>100亿美元）地位的初创公司——但必须得到确认。今天关于Fireworks 150亿美元融资轮 (https://x.com/Techmeme/status/2059437126727733459)（“谈判中”，7个月内增长3.75倍，我们的播客在此 (https://www.latent.space/p/fireworks)）和Baseten 110亿美元融资轮 (https://x.com/swyx/status/2059463182297747527)（“正在融资”，3个月内增长2.2倍）的消息有点为时过早，但推理领域和从独角兽到十角兽的势头太诱人，不得不作为今天的头条故事，再加上OpenRouter的1.13亿美元C轮融资 (https://www.nytimes.com/2026/05/26/business/dealbook/openrouter-ai-models-fundraising.html?smid=url-share)（6个月内交易量增长5倍）作为点睛之笔：如果你要做多模型推理，你就需要一个路由器。

X 头像 for @OpenRouter OpenRouter@OpenRouter 今天，我们宣布由 @CapitalGVC 领投的1.13亿美元B轮融资。在过去6个月里，OpenRouter的周交易量从5T tokens增长到25T tokens，因为AI正迅速从实验转向生产。我们对未来感到兴奋。 2:16 PM · 2026年5月26日·224K 浏览量 121 条回复·114 次转发·2.14K 点赞 (https://x.com/OpenRouter/status/2059277623629664758)> 2026年5月23日至26日的AI新闻。我们检查了12个subreddits、544个推特 (https://twitter.com/i/lists/1585430245762441216)，没有Discord频道。AINews的网站 (https://news.smol.ai/) 允许你搜索所有过往期次。提醒一下，AINews现在是Latent Space的一个板块 (https://www.latent.space/p/2026)。你可以选择接收/不接收 (https://support.substack.com/hc/en-us/articles/8914938285204-How-do-I-subscribe-to-or-unsubscribe-from-a-section-on-Substack) 邮件频率！

代理框架、编码基准测试，以及超越“仅仅模型”的转变

框架工程正在成为编码代理的主要差异化因素：几篇帖子汇聚到同一个论点：胜出的技术栈现在是模型 + 框架 + 评估循环，而不仅仅是更强的基础模型。一篇长篇知乎摘要认为，DeepSeek正在明确建立一个框架团队 (https://x.com/ZhihuFrontier/status/2059180748637376843)，以闭环模型输出、运行时反馈、验证和纠正，并声称其缓存输入成本优势可以支持更紧密的交互/验证循环。与此同时，Google的Gemini托管代理指南 (https://x.com/_philschmid/status/2059263980913229989) 将代理基础设施框架化为一个单一API调用，用于托管框架，带有沙箱、持久化和挂载；而LangChain更新的 (https://x.com/sydneyrunkle/status/2059280878694531280) create_agent 文档 (https://x.com/sydneyrunkle/status/2059280878694531280) 和dair.ai的“框架”论文摘要 (https://x.com/dair_ai/status/2059294269698199929) 正式化了相同的技术栈：上下文治理、值得信赖的记忆、动态技能路由。
基准测试越来越接近真实开发者体验：DeepSWE (https://x.com/serenaa_ge/status/2059308218564890875) 作为一个新的代理编码基准测试被引入，得到了从业者的强烈认可；@theo 称之为 (https://x.com/theo/status/2059352130289651925)“第一个与使用这些模型编码的实际感觉相符的代码基准测试”。它还比公开SWE排行榜通常展示的顶部差异更大。相关的基准测试信号：Qwen3.7 Max 在 Code Arena: Frontend 上首次亮相即排名第4 (https://x.com/arena/status/2059297720079393107)，大致与Claude Opus 4.6 在代理式Web开发任务上相当，阿里巴巴放大了这一结果 (https://x.com/AlibabaGroup/status/2059317802935423028)。在工具链方面，Anthropic 为 Claude Code 推出了一个安全指南插件 (https://x.com/ClaudeDevs/status/2059385239781384341)，并报告在内部使用中安全相关的PR评论减少了30–40%，而 OpenAI 在 Databricks 上强调了 Codex 中的 GPT-5.5 (https://x.com/OpenAIDevs/status/2059353117934899289) 用于更可靠的文档解析。

研究代理、长视界推理，以及用于上下文压缩的“睡眠”

数学/科学代理显示出更多能力过剩的证据——前提是使用合适的框架：最强的推特集群是关于模型攻克旧开放问题的。一位数学家报告说，Claude Mythos 解决了 Erdős 问题 #90 (https://x.com/alpoge/status/2059298565093196012)，后续细节表明，该模型通常收敛到一条与 OpenAI 早期路线不同、更简洁的证明路径。这得到了 @_sholtodouglas (https://x.com/_sholtodouglas/status/2059303540150137244)、@kimmonismus (https://x.com/kimmonismus/status/2059311386820289013) 的回应，然后由 Sébastien Bubeck (https://x.com/SebastienBubeck/status/2059343132991623186) 进一步明确：使用合适的框架，Mythos 和 GPT-5.5 都可以重现内部模型一次性完成的工作，这意味着大量的潜在能力无法通过普通的聊天用户体验暴露出来。
长视界记忆正在重新成为核心瓶颈：论文“语言模型需要睡眠” (https://x.com/iScienceLuvr/status/2059221770075562113) 引起了显著关注。其机制是一种类似睡眠的巩固阶段，其中最近的上下文在清除KV缓存之前被转换为持久的快速权重，将计算移至离线通道，同时保持醒时延迟。dair.ai 的摘要 (https://x.com/dair_ai/status/2059333792775745619) 强调了系统角度：对于具有长轨迹的代理来说，这是不断增长的KV缓存的替代方案。这个主题与关于代理中记忆系统的持续讨论紧密相连，包括 Omar 对 Anthropic 的记忆讲座和 Dream 功能 (https://x.com/omarsar0/status/2059285935376765214) 的指向。
开放深度研究代理和科学预测也取得了进展：QUEST (https://x.com/iScienceLuvr/status/2059223911011930606) 是一个2B–35B 参数系列的开放模型，用于长视界事实查找、引用基础和报告综合，作为通用深度研究代理发布。在科学评估方面，Sakana/Stanford/Oxford/AI2 的 CUSP 基准测试 (https://x.com/SakanaAILabs/status/2059166749761872342) 发现，当前模型通常能够识别有前景的研究方向，但在判断突破是否会以及何时发生方面则困难得多。

模型、优化器和架构更新

优化器工作仍然活跃，尤其是围绕Muon变体和免调度训练：AMUSE (https://x.com/jueunkim_0525/status/2059127584601055426) 提出了随时Muon与稳定梯度评估，将Muon与免调度风格的梯度评估相结合，以实现无需LR衰减的稳定随时训练，报告在124M / 720M / 1B 规模以及ViT/ImageNet微调上取得了收益。相关的实现讨论来自ClashLuke的SFMuon片段 (https://x.com/Clashluke/status/2059187617997197553) 和kellerjordan的Modded-NanoGPT在Newton-Muon上的结果 (https://x.com/kellerjordan0/status/2059353883881976044)。
稀疏注意力设计空间继续多样化：MiniMax 预告 M3 将开源 (https://x.com/MiniMax_AI/status/2059286515155599595)，后续的技术评论暗示了一种新的块稀疏两阶段注意力路径。@kimmonismus 总结了报告的速度提升 (https://x.com/kimmonismus/status/2059302121489486335)：在100万tokens 时，与 M2 相比，预填充速度提升9.7倍，解码速度提升15.6倍。@eliebakouch 补充道 (https://x.com/eliebakouch/status/2059321928205156568)，M3 似乎回归到基于GQA的稀疏注意力，使用真实KV进行块选择，这与DeepSeek的压缩注意力变体不同。
视觉/开放模型发布与排名更新：PrismML 发布了 Bonsai Image 4B (https://x.com/PrismML/status/2059339157600969199)，包括1-bit和三元变体，旨在本地运行于笔记本电脑和手机上；后续提到可以在浏览器本地执行，占用约3GB空间。在封闭方面，Microsoft 的 MAI-Image-2.5 (https://x.com/MicrosoftAI/status/2059344061358563838) 在 Image Arena 上首次亮相即排名第3，打破了此前由 OpenAI 和 Google 主导的前五俱乐部，Arena 报告其得分为 1,254 (https://x.com/arena/status/2059346024632820146)。与此同时，Artificial Analysis 测量 Gemini 3.5 Flash (https://x.com/ArtificialAnlys/status/2059316050391634302) 的速度达到约280个输出tok/s，并具有显著更强的代理性能，但成本是 Gemini 3 Flash 的约5倍。

基础设施、系统与半导体堆栈

华为的“τ缩放”论文主要被解读为工程路线图，而非新定律：一个非常详细的讨论串认为，华为的“多层电子系统的时间缩放理论” (https://x.com/ZhihuFrontier/status/2059118295580852374) 应被解读为一份战略宣言/白皮书。核心建议是将时间常数 τ（而非工艺节点）作为跨设备、芯片和数据中心规模的统一度量。最具体的声明涉及未来 Kirin 设计的LogicFolding，包括**+55%的密度**、+41%的能效和**+13%的频率**（固定节点下），以及封装/网络方面，如统一总线和Hi-ONE光学I/O。同一讨论串也谨慎指出缺少验证工件——裸片照片、SEM、工作负载细节、良率曲线——并将最引人注目的数字解释为有前景但未经验证。后续反应还强调，华为的路径可能更多地依赖封装和架构，而非光刻追赶，例如 @josiah_leee 引用 Jensen 的观点 (https://x.com/josiah_leee/status/2059297861745963099)，即 Hopper→Blackwell 的大部分提升来自非节点优化。
数据中心电力和推理供应限制正成为首要关注点：SemiAnalysis 发表关于800VDC转型的文章 (https://x.com/SemiAnalysis_/status/2059253624249696658)，John Carmack 推荐了它 (https://x.com/ID_AA_Carmack/status/2059382254191652896)，强调了电动汽车电力电子技术向数据中心设计的交叉应用，包括高压SiC部件。另外，Epoch AI 估计可能出现推理计算紧缩 (https://x.com/EpochAIResearch/status/2059372951338909717)：需求似乎增长速度快于服务容量，尤其是对于长上下文工作负载。他们的粗略模型表明，虽然在有利假设下当前的全球Blackwell供应可以满足今天的需求，但吞吐量在更长上下文下会急剧下降，而且需求增长可能已经超过供应。

生产工具与开发者基础设施

服务/推理栈获得了有意义的性能和可观测性更新：vLLM 合并了 Rust 前端 (https://x.com/vllm_project/status/2059344804295942513)，作为 Python API 服务器的直接替代品，初步数据显示，在单进程的预处理密集型工作负载下，约837 req/s 对比约162 req/s。W&B 推出了 MCP 服务器 (https://x.com/wandb/status/2059384552725025226)，让编码代理检查实验和训练运行，采用以模式为首的重设计，旨在避免上下文窗口爆炸。Unsloth 增加了在其本地 UI 中运行 GPT、Claude 和其他 API 的支持 (https://x.com/UnslothAI/status/2059277719633101291)，包括提示缓存和代码执行。
Cloudflare、OpenRouter 和向量/检索供应商推动了“生产化”层：OpenRouter 宣布获得 1.13 亿美元 B 轮融资 (https://x.com/OpenRouter/status/2059277623629664758)，并表示周交易量在六个月内从5T tokens增长到25T tokens。Cloudflare 重新启动了其初创公司计划 (https://x.com/kristianfreeman/status/2059188629780545973)，提供高达35万美元的积分，而围绕思考和代理人体工程学的单独帖子则强调持久轮次、重新连接、过期状态处理和恢复是关键的实际差异化因素。在检索基础设施方面，Booking.com 讨论了扩展到超过1亿个嵌入 (https://x.com/weaviate_io/status/2059227285639581729)，包括过滤向量搜索、写入时的读取、并发性以及合作伙伴消息代理的人机交互评估。

热门推文（按参与度）

Codex / 代理编码实践：信号最强的产品使用推文是 @bunkaich 展示 Codex 帮助对一个廉价MP3播放器进行逆向工程和打补丁 (https://x.com/bunkaich/status/2059178996126900703)，工作流程涵盖芯片检查、操作系统提取、二进制分析和刷写修改后的镜像。
DeepSWE 基准测试发布：@serenaa_ge 的 DeepSWE 公告 (https://x.com/serenaa_ge/status/2059308218564890875) 成为“这与真实编码体验相符吗？”讨论的主要参考点。
Claude Code 安全插件：@ClaudeDevs 的发布 (https://x.com/ClaudeDevs/status/2059385239781384341) 突出之处在于它将具体的产品发布与内部指标结合起来：安全相关的PR评论减少了30–40%。
OpenRouter 融资 + 生产token增长：@OpenRouter 的 1.13 亿美元 B 轮融资 (https://x.com/OpenRouter/status/2059277623629664758) 是最明确的市场信号之一，表明路由和多模型基础设施现在被视为持久的平台层。
vLLM Rust 前端：@vllm_project 的合并公告 (https://x.com/vllm_project/status/2059344804295942513) 对于任何在高吞吐量服务中遇到CPU/API服务器瓶颈的人来说都很重要。
等待 Qwen 3.7 开放权重…新的王者已经到来… (https://www.reddit.com/r/LocalLLaMA/comments/1tjvz6l/waiting_for_qwen_37_open_weight_the_new_king_has/)（活动：1217）：图片 (https://i.redd.it/j8qkty82qj2h1.png) 是来自 Qwen3.7 博客 (https://qwen.ai/blog?id=qwen3.7) 的基准测试/营销对比，将 Qwen3.7-Max 定位为领先的前沿模型，涵盖代理编码、软件工程、MCP/工具使用、推理和知识评估，与 Qwen3.6-Plus、DS-V4-Pro Max、GLM-5.1、Kimi K2.6 和 Claude Opus-4.6 Max 对比。技术意义在于，该幻灯片将 Qwen3.7-Max 描述为在许多基准测试上与 Claude 级模型高度竞争或领先，尽管 Claude Opus-4.6 Max 在某些任务上仍领先，例如 ClawEval 和 CoWorkBench。评论者指出这是 Max 模型，不一定代表更小/开放权重的发布，并推测可能存在一个具有 512k 上下文的 3.7-122B-A17B MXFP4 模型，用于 Strix Halo 等本地硬件。**主要争论在于对开放权重的怀疑：评论者指出，Qwen 历史上没有开放过 Max 系列的权重，因此标题中“等待开放权重”的表述可能不现实。其他人警告不要期待一个假设的 27B 模型能够匹配所示的 Max 级基准测试结果。 - 几位评论者将 Qwen Max 与可能的开放权重模型区分开来。

@swyx: https://x.com/swyx/status/2059478552085692512

[AINews] 新一批AI基础设施十角兽：Fireworks、Baseten（OpenRouter紧随其后）

相似文章

@swyx: https://x.com/swyx/status/2047217611880984935

AI行业周报 — Anthropic近万亿美元IPO申请，微软Autopilot智能体，谷歌大幅下调Gemini定价（2026年6月）

@techwith_ram: https://x.com/techwith_ram/status/2054175657165545546

@bindureddy: 智能体集群可构建复杂软件系统 - Opus 4.7 - GPT 5.5 Thinking 及 - Gemini 3.2（即将）联合组成……

@GoSailGlobal: https://x.com/GoSailGlobal/status/2058455845243847068

提交意见反馈