@GoSailGlobal: https://x.com/GoSailGlobal/status/2058455845243847068
摘要
本周AI行业新闻密集发布,核心趋势是所有模型实验室转向Agent产品:AI21关闭模型团队,DeepSeek组建Harness团队并永久降价V4-Pro;Coding Agent进入周更节奏;MCP协议大改走向无状态;Google推出Agent全家桶;安全领域AI漏洞发现速度远超人工修复。
查看缓存全文
缓存时间: 2026/05/24 10:27
所有模型实验室都在变成 Agent 实验室,一周 AI 大事全盘点
所有模型实验室都在变成 Agent 实验室,一周 AI 大事全盘点
OpenAI 联合创始人 Greg Brockman 说了一句话,基本给当前行业定了调:模型本身已经不再是产品了。赢的产品需要的是模型加工程框架加工作流加 UI 加记忆加经济模型,缺一不可。这句话放在这周的新闻里看,每一条都在印证
AI21 砍模型团队,DeepSeek 组建 Harness 团队
AI21 Labs 直接关掉了模型团队,全面转向 Agent 产品。DeepSeek 则是第一次组建了“Harness 团队“,专门做模型之上的工程框架层
两个方向相反的公司,做了同一个判断:光有模型不够,得有 Agent
DeepSeek V4-Pro 永久降价,比 GPT-5.5 便宜 12 倍
DeepSeek 把 V4-Pro 的 75% 折扣变成了永久价格。新价格:输入 $0.435/百万 token,输出 $0.87/百万 token,缓存输入低至 $0.0036/百万 token
横向对比一下:比 Gemini 3.1 Pro Preview 便宜 3 倍,比 GPT-5.5 便宜 12 倍,比 Claude Opus 4.7 便宜 19 倍。混合成本大约 $0.18/百万 token
有人用了一个短语来形容这个价格水平:intelligence too cheap to meter,智能便宜到不需要计量
Coding Agent 继续狂飙
OpenAI Codex 第六个“周四更新“:加了 appshots 预览、/goal 改进、锁屏状态下也能远程使用电脑、标注模式、插件分享和数据分析。有用户说已经一个多月没打开过 IDE 了
Claude DevTools 把自动模式扩展到了 Pro 用户,支持 Sonnet 4.6
Cursor 发布 Composer 2.5,在 Coding Agent 基准测试上比 Opus 4.7 便宜 3 到 18 倍,比 GPT-5.5 便宜 5 到 32 倍。同时开放了 Cursor SDK 让开发者构建自定义 Agent
编程 Agent 的竞争已经进入“周更“节奏
MCP 协议大改:走向无状态
MCP 2026-07-28 候选版本发布了一个重大变化:协议从有状态变成无状态。没有握手,没有 session ID,任何请求可以打到任何服务器实例
这意味着更容易扩展、更简单的负载均衡、不需要粘性会话。同时新增了 MCP Apps 和 Tasks 作为一等扩展,认证也做了加强
对于正在基于 MCP 构建产品的团队来说,这是一个需要认真评估的架构变化
Google 的 Agent 全家桶
Google 这周集中发了一波:
Gemini Spark 是一个 24/7 运行的个人 AI Agent,可以设置周期性任务、技能和工作流
Gemini Managed Agents + Interactions API 提供托管的 Linux 沙箱环境,带记忆和代码执行能力
Project Genie + Street View 把真实的美国街景转化成可交互的 3D 世界,对 Google AI Ultra 订阅者开放
Gemini 3.5 Flash 在 Design Arena 排名跳升 16 位,追上了之前 3.1 Pro 的水平
Google 在用平台优势做一件事:让 Agent 的基础设施和消费级产品同时铺开
安全领域:AI 找漏洞比人快得多
Anthropic 的 Project Glasswing 在一个月内发现了超过一万个高危和严重漏洞,全都在关键基础软件中。Anthropic 警告说,行业必须做好准备应对这种规模的漏洞发现速度
Perplexity 开源了 Bumblebee,一个只读的安全扫描器,可以检查 macOS/Linux 上的高风险包、扩展和 AI 工具配置
AI 攻防两端都在加速。找漏洞的 Agent 跑得比修漏洞的团队快,这个缺口会是接下来安全行业的核心挑战
其他值得关注的更新
Cartesia Sonic-3.5 在 Speech Arena 排名第一,Elo 评分 1218,支持 42 种语言,端到端首音延迟 82ms
Runway Aleph 2.0 支持多镜头序列,最长 30 秒 1080p,可以对特定区域做针对性编辑
GPT-5.5 中等推理模式 在多位数乘法测试中达到 99.46% 正确率。现代大模型已经可以不借助工具完成 100 位数乘法
Qwen3.7-Max 发布,指令跟随和上下文可靠性有提升,但输出偏长、token 消耗较高
CoreWeave Sandboxes 公开预览,为强化学习、Agent 工具使用和模型评估提供沙箱环境
Cloudflare Cloudsail 发布,提供按任务隔离的沙箱,带 shell、Codex 和 GitHub 访问权限,不暴露 token
NVIDIA 开源了 AI-Q Agent Skills,用于构建可移植的深度研究 Pipeline
研究前沿
向量策略优化 VPO 解决强化学习中标量奖励崩溃的问题,改为优化向量值奖励,效果更好
Agent 工作流蒸馏 可以把完整的多步 Agent 工作流(工具调用、暂存、多轮推理)蒸馏到模型权重里,推理成本降低约 100 倍,质量接近前沿水平
LT2 线性时间循环 Transformer 结合稀疏注意力和线性注意力,已有 1.4B 蒸馏版本
这些研究的共同方向:让 Agent 更便宜、更快、更可靠
一周的新闻量顶过去一个月。模型公司在变成 Agent 公司,Agent 基础设施在标准化,编程 Agent 在周更,安全 Agent 在月产万级漏洞。Greg Brockman 那句话确实是当下最准确的判断:模型本身已经不再是产品
来源:Latent Space AINews,2026年5月23日
相似文章
@GoSailGlobal: https://x.com/GoSailGlobal/status/2059101718957166684
一个名为AI Engineering的GitHub项目(拥有18.7k星)旨在帮助用户提升AI工具的实际应用能力,填补使用率与自信度之间的差距。
@seclink: https://x.com/seclink/status/2057291288655847533
谷歌在开发者大会上宣布搜索迎来25年来最大升级,正式进入AI智能体时代,同时推出多模态模型Gemini Omni、桌面智能体应用anti-gravity 2.0、个人AI智能体Gemini Spark以及首款AI音频眼镜等近三十项更新,AI能力从聊天问答转向后台自动执行任务,并布局科研与新药研发。
本文系统梳理了AI Agent架构与工程实践,涵盖控制流、上下文工程、工具设计、记忆、多Agent组织、评测、追踪和安全,基于OpenClaw实现展开,强调Harness(测试验证基础设施)对系统稳定性的关键作用。
本文系统梳理了AI Agent架构与工程实践,涵盖控制流、上下文工程、工具设计、记忆、多Agent组织、评测、追踪和安全,基于OpenClaw实现展开,强调Harness(测试验证基础设施)对系统稳定性的关键作用。
@Saccc_c: AI时代不要只盯着裁员消息焦虑,真正的alpha趋势藏在这些疯狂招人的公司身上 从这份招聘增速榜单里,我发现了下面三个真实趋势和机会: 1、Physical AI/机器人:AI 的下一站是物理世界 Skild AI 做机器人基础模型,Me…
分析了当前AI招聘增速最快的公司所揭示的三个真实趋势:Physical AI/机器人、AI安全和AI基础设施,指出这些领域正从研究转向工程化落地,成为新的增长机会。
@GitTrend0x: 今天 GitHub Agent & AI 工具继续霸榜 5 个星标暴增最狠的项目,专业拆解+实用场景,一文看懂! 1. anthropics/financial-services Anthropic 官方推出的金融服务智能体框架!支持复杂…
文章盘点 GitHub 上近期星标增长最快的五个 AI Agent 项目,重点介绍了 Anthropic 的金融服务智能体框架、字节跳动的 UI-TARS 桌面端以及各类编码 Agent 工具。