@swyx: https://x.com/swyx/status/2059478552085692512
摘要
AI新闻综述:涵盖Fireworks的150亿美元和Baseten的110亿美元融资轮次、OpenRouter的1.13亿美元融资,以及编码代理中智能体框架工程相比基础模型日益增长的重要性。
查看缓存全文
缓存时间: 2026/05/27 05:02
[AINews] 新一批AI基础设施十角兽:Fireworks、Baseten(OpenRouter紧随其后)
来源:https://www.latent.space/p/ainews-new-ai-infra-decacorns-fireworks 参与2026 AI工程调查 (https://notion.qualtrics.com/jfe/form/SV_bP07tSVMXH7ePCS),获得超过2000美元积分和AIE WF门票 (https://ai.engineer/wf)!
读者喜欢我们报道没有新闻的状态,但我们第二喜欢的是能够简单地强化一个你应当关注的趋势。四月我们强调了推理拐点 (https://www.latent.space/p/ainews-the-inference-inflection),而如果今天标题让你想起上周的标题 (https://www.latent.space/p/ainews-new-ai-infra-unicorns-exa),那这正是我们要表达的观点。
鉴于目前AI融资的速度,我们的一般政策是只报道那些达到十角兽(>100亿美元)地位的初创公司——但必须得到确认。今天关于Fireworks 150亿美元融资轮 (https://x.com/Techmeme/status/2059437126727733459)(“谈判中”,7个月内增长3.75倍,我们的播客在此 (https://www.latent.space/p/fireworks))和Baseten 110亿美元融资轮 (https://x.com/swyx/status/2059463182297747527)(“正在融资”,3个月内增长2.2倍)的消息有点为时过早,但推理领域和从独角兽到十角兽的势头太诱人,不得不作为今天的头条故事,再加上OpenRouter的1.13亿美元C轮融资 (https://www.nytimes.com/2026/05/26/business/dealbook/openrouter-ai-models-fundraising.html?smid=url-share)(6个月内交易量增长5倍)作为点睛之笔:如果你要做多模型推理,你就需要一个路由器。
X 头像 for @OpenRouter OpenRouter@OpenRouter 今天,我们宣布由 @CapitalGVC 领投的1.13亿美元B轮融资。在过去6个月里,OpenRouter的周交易量从5T tokens增长到25T tokens,因为AI正迅速从实验转向生产。我们对未来感到兴奋。 2:16 PM · 2026年5月26日·224K 浏览量 121 条回复·114 次转发·2.14K 点赞 (https://x.com/OpenRouter/status/2059277623629664758)> 2026年5月23日至26日的AI新闻。我们检查了12个subreddits、544个推特 (https://twitter.com/i/lists/1585430245762441216),没有Discord频道。AINews的网站 (https://news.smol.ai/) 允许你搜索所有过往期次。提醒一下,AINews现在是Latent Space的一个板块 (https://www.latent.space/p/2026)。你可以选择接收/不接收 (https://support.substack.com/hc/en-us/articles/8914938285204-How-do-I-subscribe-to-or-unsubscribe-from-a-section-on-Substack) 邮件频率!
代理框架、编码基准测试,以及超越“仅仅模型”的转变
- 框架工程正在成为编码代理的主要差异化因素:几篇帖子汇聚到同一个论点:胜出的技术栈现在是模型 + 框架 + 评估循环,而不仅仅是更强的基础模型。一篇长篇知乎摘要认为,DeepSeek正在明确建立一个框架团队 (https://x.com/ZhihuFrontier/status/2059180748637376843),以闭环模型输出、运行时反馈、验证和纠正,并声称其缓存输入成本优势可以支持更紧密的交互/验证循环。与此同时,Google的Gemini托管代理指南 (https://x.com/_philschmid/status/2059263980913229989) 将代理基础设施框架化为一个单一API调用,用于托管框架,带有沙箱、持久化和挂载;而LangChain更新的 (https://x.com/sydneyrunkle/status/2059280878694531280)
create_agent文档 (https://x.com/sydneyrunkle/status/2059280878694531280) 和dair.ai的“框架”论文摘要 (https://x.com/dair_ai/status/2059294269698199929) 正式化了相同的技术栈:上下文治理、值得信赖的记忆、动态技能路由。 - 基准测试越来越接近真实开发者体验:DeepSWE (https://x.com/serenaa_ge/status/2059308218564890875) 作为一个新的代理编码基准测试被引入,得到了从业者的强烈认可;@theo 称之为 (https://x.com/theo/status/2059352130289651925)“第一个与使用这些模型编码的实际感觉相符的代码基准测试”。它还比公开SWE排行榜通常展示的顶部差异更大。相关的基准测试信号:Qwen3.7 Max 在 Code Arena: Frontend 上首次亮相即排名第4 (https://x.com/arena/status/2059297720079393107),大致与Claude Opus 4.6 在代理式Web开发任务上相当,阿里巴巴放大了这一结果 (https://x.com/AlibabaGroup/status/2059317802935423028)。在工具链方面,Anthropic 为 Claude Code 推出了一个安全指南插件 (https://x.com/ClaudeDevs/status/2059385239781384341),并报告在内部使用中安全相关的PR评论减少了30–40%,而 OpenAI 在 Databricks 上强调了 Codex 中的 GPT-5.5 (https://x.com/OpenAIDevs/status/2059353117934899289) 用于更可靠的文档解析。
研究代理、长视界推理,以及用于上下文压缩的“睡眠”
- 数学/科学代理显示出更多能力过剩的证据——前提是使用合适的框架:最强的推特集群是关于模型攻克旧开放问题的。一位数学家报告说,Claude Mythos 解决了 Erdős 问题 #90 (https://x.com/alpoge/status/2059298565093196012),后续细节表明,该模型通常收敛到一条与 OpenAI 早期路线不同、更简洁的证明路径。这得到了 @_sholtodouglas (https://x.com/_sholtodouglas/status/2059303540150137244)、@kimmonismus (https://x.com/kimmonismus/status/2059311386820289013) 的回应,然后由 Sébastien Bubeck (https://x.com/SebastienBubeck/status/2059343132991623186) 进一步明确:使用合适的框架,Mythos 和 GPT-5.5 都可以重现内部模型一次性完成的工作,这意味着大量的潜在能力无法通过普通的聊天用户体验暴露出来。
- 长视界记忆正在重新成为核心瓶颈:论文“语言模型需要睡眠” (https://x.com/iScienceLuvr/status/2059221770075562113) 引起了显著关注。其机制是一种类似睡眠的巩固阶段,其中最近的上下文在清除KV缓存之前被转换为持久的快速权重,将计算移至离线通道,同时保持醒时延迟。dair.ai 的摘要 (https://x.com/dair_ai/status/2059333792775745619) 强调了系统角度:对于具有长轨迹的代理来说,这是不断增长的KV缓存的替代方案。这个主题与关于代理中记忆系统的持续讨论紧密相连,包括 Omar 对 Anthropic 的记忆讲座和 Dream 功能 (https://x.com/omarsar0/status/2059285935376765214) 的指向。
- 开放深度研究代理和科学预测也取得了进展:QUEST (https://x.com/iScienceLuvr/status/2059223911011930606) 是一个2B–35B 参数系列的开放模型,用于长视界事实查找、引用基础和报告综合,作为通用深度研究代理发布。在科学评估方面,Sakana/Stanford/Oxford/AI2 的 CUSP 基准测试 (https://x.com/SakanaAILabs/status/2059166749761872342) 发现,当前模型通常能够识别有前景的研究方向,但在判断突破是否会以及何时发生方面则困难得多。
模型、优化器和架构更新
- 优化器工作仍然活跃,尤其是围绕Muon变体和免调度训练:AMUSE (https://x.com/jueunkim_0525/status/2059127584601055426) 提出了随时Muon与稳定梯度评估,将Muon与免调度风格的梯度评估相结合,以实现无需LR衰减的稳定随时训练,报告在124M / 720M / 1B 规模以及ViT/ImageNet微调上取得了收益。相关的实现讨论来自ClashLuke的SFMuon片段 (https://x.com/Clashluke/status/2059187617997197553) 和kellerjordan的Modded-NanoGPT在Newton-Muon上的结果 (https://x.com/kellerjordan0/status/2059353883881976044)。
- 稀疏注意力设计空间继续多样化:MiniMax 预告 M3 将开源 (https://x.com/MiniMax_AI/status/2059286515155599595),后续的技术评论暗示了一种新的块稀疏两阶段注意力路径。@kimmonismus 总结了报告的速度提升 (https://x.com/kimmonismus/status/2059302121489486335):在100万tokens 时,与 M2 相比,预填充速度提升9.7倍,解码速度提升15.6倍。@eliebakouch 补充道 (https://x.com/eliebakouch/status/2059321928205156568),M3 似乎回归到基于GQA的稀疏注意力,使用真实KV进行块选择,这与DeepSeek的压缩注意力变体不同。
- 视觉/开放模型发布与排名更新:PrismML 发布了 Bonsai Image 4B (https://x.com/PrismML/status/2059339157600969199),包括1-bit和三元变体,旨在本地运行于笔记本电脑和手机上;后续提到可以在浏览器本地执行,占用约3GB空间。在封闭方面,Microsoft 的 MAI-Image-2.5 (https://x.com/MicrosoftAI/status/2059344061358563838) 在 Image Arena 上首次亮相即排名第3,打破了此前由 OpenAI 和 Google 主导的前五俱乐部,Arena 报告其得分为 1,254 (https://x.com/arena/status/2059346024632820146)。与此同时,Artificial Analysis 测量 Gemini 3.5 Flash (https://x.com/ArtificialAnlys/status/2059316050391634302) 的速度达到约280个输出tok/s,并具有显著更强的代理性能,但成本是 Gemini 3 Flash 的约5倍。
基础设施、系统与半导体堆栈
- 华为的“τ缩放”论文主要被解读为工程路线图,而非新定律:一个非常详细的讨论串认为,华为的“多层电子系统的时间缩放理论” (https://x.com/ZhihuFrontier/status/2059118295580852374) 应被解读为一份战略宣言/白皮书。核心建议是将时间常数 τ(而非工艺节点)作为跨设备、芯片和数据中心规模的统一度量。最具体的声明涉及未来 Kirin 设计的LogicFolding,包括**+55%的密度**、+41%的能效和**+13%的频率**(固定节点下),以及封装/网络方面,如统一总线和Hi-ONE光学I/O。同一讨论串也谨慎指出缺少验证工件——裸片照片、SEM、工作负载细节、良率曲线——并将最引人注目的数字解释为有前景但未经验证。后续反应还强调,华为的路径可能更多地依赖封装和架构,而非光刻追赶,例如 @josiah_leee 引用 Jensen 的观点 (https://x.com/josiah_leee/status/2059297861745963099),即 Hopper→Blackwell 的大部分提升来自非节点优化。
- 数据中心电力和推理供应限制正成为首要关注点:SemiAnalysis 发表关于800VDC转型的文章 (https://x.com/SemiAnalysis_/status/2059253624249696658),John Carmack 推荐了它 (https://x.com/ID_AA_Carmack/status/2059382254191652896),强调了电动汽车电力电子技术向数据中心设计的交叉应用,包括高压SiC部件。另外,Epoch AI 估计可能出现推理计算紧缩 (https://x.com/EpochAIResearch/status/2059372951338909717):需求似乎增长速度快于服务容量,尤其是对于长上下文工作负载。他们的粗略模型表明,虽然在有利假设下当前的全球Blackwell供应可以满足今天的需求,但吞吐量在更长上下文下会急剧下降,而且需求增长可能已经超过供应。
生产工具与开发者基础设施
- 服务/推理栈获得了有意义的性能和可观测性更新:vLLM 合并了 Rust 前端 (https://x.com/vllm_project/status/2059344804295942513),作为 Python API 服务器的直接替代品,初步数据显示,在单进程的预处理密集型工作负载下,约837 req/s 对比约162 req/s。W&B 推出了 MCP 服务器 (https://x.com/wandb/status/2059384552725025226),让编码代理检查实验和训练运行,采用以模式为首的重设计,旨在避免上下文窗口爆炸。Unsloth 增加了在其本地 UI 中运行 GPT、Claude 和其他 API 的支持 (https://x.com/UnslothAI/status/2059277719633101291),包括提示缓存和代码执行。
- Cloudflare、OpenRouter 和向量/检索供应商推动了“生产化”层:OpenRouter 宣布获得 1.13 亿美元 B 轮融资 (https://x.com/OpenRouter/status/2059277623629664758),并表示周交易量在六个月内从5T tokens增长到25T tokens。Cloudflare 重新启动了其初创公司计划 (https://x.com/kristianfreeman/status/2059188629780545973),提供高达35万美元的积分,而围绕思考和代理人体工程学的单独帖子则强调持久轮次、重新连接、过期状态处理和恢复是关键的实际差异化因素。在检索基础设施方面,Booking.com 讨论了扩展到超过1亿个嵌入 (https://x.com/weaviate_io/status/2059227285639581729),包括过滤向量搜索、写入时的读取、并发性以及合作伙伴消息代理的人机交互评估。
热门推文(按参与度)
-
Codex / 代理编码实践:信号最强的产品使用推文是 @bunkaich 展示 Codex 帮助对一个廉价MP3播放器进行逆向工程和打补丁 (https://x.com/bunkaich/status/2059178996126900703),工作流程涵盖芯片检查、操作系统提取、二进制分析和刷写修改后的镜像。
-
DeepSWE 基准测试发布:@serenaa_ge 的 DeepSWE 公告 (https://x.com/serenaa_ge/status/2059308218564890875) 成为“这与真实编码体验相符吗?”讨论的主要参考点。
-
Claude Code 安全插件:@ClaudeDevs 的发布 (https://x.com/ClaudeDevs/status/2059385239781384341) 突出之处在于它将具体的产品发布与内部指标结合起来:安全相关的PR评论减少了30–40%。
-
OpenRouter 融资 + 生产token增长:@OpenRouter 的 1.13 亿美元 B 轮融资 (https://x.com/OpenRouter/status/2059277623629664758) 是最明确的市场信号之一,表明路由和多模型基础设施现在被视为持久的平台层。
-
vLLM Rust 前端:@vllm_project 的合并公告 (https://x.com/vllm_project/status/2059344804295942513) 对于任何在高吞吐量服务中遇到CPU/API服务器瓶颈的人来说都很重要。
-
等待 Qwen 3.7 开放权重…新的王者已经到来… (https://www.reddit.com/r/LocalLLaMA/comments/1tjvz6l/waiting_for_qwen_37_open_weight_the_new_king_has/)(活动:1217):图片 (https://i.redd.it/j8qkty82qj2h1.png) 是来自 Qwen3.7 博客 (https://qwen.ai/blog?id=qwen3.7) 的基准测试/营销对比,将 Qwen3.7-Max 定位为领先的前沿模型,涵盖代理编码、软件工程、MCP/工具使用、推理和知识评估,与 Qwen3.6-Plus、DS-V4-Pro Max、GLM-5.1、Kimi K2.6 和 Claude Opus-4.6 Max 对比。技术意义在于,该幻灯片将 Qwen3.7-Max 描述为在许多基准测试上与 Claude 级模型高度竞争或领先,尽管 Claude Opus-4.6 Max 在某些任务上仍领先,例如
ClawEval和CoWorkBench。评论者指出这是 Max 模型,不一定代表更小/开放权重的发布,并推测可能存在一个具有512k上下文的3.7-122B-A17BMXFP4模型,用于 Strix Halo 等本地硬件。**主要争论在于对开放权重的怀疑:评论者指出,Qwen 历史上没有开放过 Max 系列的权重,因此标题中“等待开放权重”的表述可能不现实。其他人警告不要期待一个假设的27B模型能够匹配所示的 Max 级基准测试结果。 - 几位评论者将 Qwen Max 与可能的开放权重模型区分开来。
相似文章
@swyx: https://x.com/swyx/status/2047217611880984935
swyx 分享了一条推文;内容不可见,但通常涉及 Web 开发或 AI 趋势。
AI行业周报 — Anthropic近万亿美元IPO申请,微软Autopilot智能体,谷歌大幅下调Gemini定价(2026年6月)
AI行业每周回顾,涵盖重大动态:Anthropic近万亿美元IPO申请,收入470亿美元;微软推出持续运行Autopilot智能体和新MAI模型;谷歌发布Gemini 3.5 Flash并降价;Mistral更名为Vibe;SpaceX收购xAI;阿里巴巴发布Qwen3.7-Plus;Hugging Face上市;AI投资额创纪录。
@techwith_ram: https://x.com/techwith_ram/status/2054175657165545546
Harness 完成由高盛领投的 2.4 亿美元 E 轮融资,估值达到 55 亿美元,致力于通过自动化代码生成后的软件交付栈来应对“AI 速度悖论”。
@bindureddy: 智能体集群可构建复杂软件系统 - Opus 4.7 - GPT 5.5 Thinking 及 - Gemini 3.2(即将)联合组成……
该推文宣布,结合多个先进AI模型(Opus 4.7、GPT 5.5 Thinking、Gemini 3.2)的智能体集群能够构建复杂、定制的全栈软件系统,取代传统的CRM和SaaS产品。
@GoSailGlobal: https://x.com/GoSailGlobal/status/2058455845243847068
本周AI行业新闻密集发布,核心趋势是所有模型实验室转向Agent产品:AI21关闭模型团队,DeepSeek组建Harness团队并永久降价V4-Pro;Coding Agent进入周更节奏;MCP协议大改走向无状态;Google推出Agent全家桶;安全领域AI漏洞发现速度远超人工修复。