@GoSailGlobal: https://x.com/GoSailGlobal/status/2058455845243847068

X AI KOLs Timeline 新闻

摘要

本周AI行业新闻密集发布,核心趋势是所有模型实验室转向Agent产品:AI21关闭模型团队,DeepSeek组建Harness团队并永久降价V4-Pro;Coding Agent进入周更节奏;MCP协议大改走向无状态;Google推出Agent全家桶;安全领域AI漏洞发现速度远超人工修复。

https://t.co/gwPYwxcdU1
查看原文
查看缓存全文

缓存时间: 2026/05/24 10:27

所有模型实验室都在变成 Agent 实验室,一周 AI 大事全盘点

所有模型实验室都在变成 Agent 实验室,一周 AI 大事全盘点

OpenAI 联合创始人 Greg Brockman 说了一句话,基本给当前行业定了调:模型本身已经不再是产品了。赢的产品需要的是模型加工程框架加工作流加 UI 加记忆加经济模型,缺一不可。这句话放在这周的新闻里看,每一条都在印证

AI21 砍模型团队,DeepSeek 组建 Harness 团队

AI21 Labs 直接关掉了模型团队,全面转向 Agent 产品。DeepSeek 则是第一次组建了“Harness 团队“,专门做模型之上的工程框架层

两个方向相反的公司,做了同一个判断:光有模型不够,得有 Agent

DeepSeek V4-Pro 永久降价,比 GPT-5.5 便宜 12 倍

DeepSeek 把 V4-Pro 的 75% 折扣变成了永久价格。新价格:输入 $0.435/百万 token,输出 $0.87/百万 token,缓存输入低至 $0.0036/百万 token

横向对比一下:比 Gemini 3.1 Pro Preview 便宜 3 倍,比 GPT-5.5 便宜 12 倍,比 Claude Opus 4.7 便宜 19 倍。混合成本大约 $0.18/百万 token

有人用了一个短语来形容这个价格水平:intelligence too cheap to meter,智能便宜到不需要计量

Coding Agent 继续狂飙

OpenAI Codex 第六个“周四更新“:加了 appshots 预览、/goal 改进、锁屏状态下也能远程使用电脑、标注模式、插件分享和数据分析。有用户说已经一个多月没打开过 IDE 了

Claude DevTools 把自动模式扩展到了 Pro 用户,支持 Sonnet 4.6

Cursor 发布 Composer 2.5,在 Coding Agent 基准测试上比 Opus 4.7 便宜 3 到 18 倍,比 GPT-5.5 便宜 5 到 32 倍。同时开放了 Cursor SDK 让开发者构建自定义 Agent

编程 Agent 的竞争已经进入“周更“节奏

MCP 协议大改:走向无状态

MCP 2026-07-28 候选版本发布了一个重大变化:协议从有状态变成无状态。没有握手,没有 session ID,任何请求可以打到任何服务器实例

这意味着更容易扩展、更简单的负载均衡、不需要粘性会话。同时新增了 MCP Apps 和 Tasks 作为一等扩展,认证也做了加强

对于正在基于 MCP 构建产品的团队来说,这是一个需要认真评估的架构变化

Google 的 Agent 全家桶

Google 这周集中发了一波:

Gemini Spark 是一个 24/7 运行的个人 AI Agent,可以设置周期性任务、技能和工作流

Gemini Managed Agents + Interactions API 提供托管的 Linux 沙箱环境,带记忆和代码执行能力

Project Genie + Street View 把真实的美国街景转化成可交互的 3D 世界,对 Google AI Ultra 订阅者开放

Gemini 3.5 Flash 在 Design Arena 排名跳升 16 位,追上了之前 3.1 Pro 的水平

Google 在用平台优势做一件事:让 Agent 的基础设施和消费级产品同时铺开

安全领域:AI 找漏洞比人快得多

Anthropic 的 Project Glasswing 在一个月内发现了超过一万个高危和严重漏洞,全都在关键基础软件中。Anthropic 警告说,行业必须做好准备应对这种规模的漏洞发现速度

Perplexity 开源了 Bumblebee,一个只读的安全扫描器,可以检查 macOS/Linux 上的高风险包、扩展和 AI 工具配置

AI 攻防两端都在加速。找漏洞的 Agent 跑得比修漏洞的团队快,这个缺口会是接下来安全行业的核心挑战

其他值得关注的更新

Cartesia Sonic-3.5 在 Speech Arena 排名第一,Elo 评分 1218,支持 42 种语言,端到端首音延迟 82ms

Runway Aleph 2.0 支持多镜头序列,最长 30 秒 1080p,可以对特定区域做针对性编辑

GPT-5.5 中等推理模式 在多位数乘法测试中达到 99.46% 正确率。现代大模型已经可以不借助工具完成 100 位数乘法

Qwen3.7-Max 发布,指令跟随和上下文可靠性有提升,但输出偏长、token 消耗较高

CoreWeave Sandboxes 公开预览,为强化学习、Agent 工具使用和模型评估提供沙箱环境

Cloudflare Cloudsail 发布,提供按任务隔离的沙箱,带 shell、Codex 和 GitHub 访问权限,不暴露 token

NVIDIA 开源了 AI-Q Agent Skills,用于构建可移植的深度研究 Pipeline

研究前沿

向量策略优化 VPO 解决强化学习中标量奖励崩溃的问题,改为优化向量值奖励,效果更好

Agent 工作流蒸馏 可以把完整的多步 Agent 工作流(工具调用、暂存、多轮推理)蒸馏到模型权重里,推理成本降低约 100 倍,质量接近前沿水平

LT2 线性时间循环 Transformer 结合稀疏注意力和线性注意力,已有 1.4B 蒸馏版本

这些研究的共同方向:让 Agent 更便宜、更快、更可靠

一周的新闻量顶过去一个月。模型公司在变成 Agent 公司,Agent 基础设施在标准化,编程 Agent 在周更,安全 Agent 在月产万级漏洞。Greg Brockman 那句话确实是当下最准确的判断:模型本身已经不再是产品

来源:Latent Space AINews,2026年5月23日

相似文章

@seclink: https://x.com/seclink/status/2057291288655847533

X AI KOLs Following

谷歌在开发者大会上宣布搜索迎来25年来最大升级,正式进入AI智能体时代,同时推出多模态模型Gemini Omni、桌面智能体应用anti-gravity 2.0、个人AI智能体Gemini Spark以及首款AI音频眼镜等近三十项更新,AI能力从聊天问答转向后台自动执行任务,并布局科研与新药研发。

本文系统梳理了AI Agent架构与工程实践,涵盖控制流、上下文工程、工具设计、记忆、多Agent组织、评测、追踪和安全,基于OpenClaw实现展开,强调Harness(测试验证基础设施)对系统稳定性的关键作用。

X AI KOLs

本文系统梳理了AI Agent架构与工程实践,涵盖控制流、上下文工程、工具设计、记忆、多Agent组织、评测、追踪和安全,基于OpenClaw实现展开,强调Harness(测试验证基础设施)对系统稳定性的关键作用。

@Saccc_c: AI时代不要只盯着裁员消息焦虑,真正的alpha趋势藏在这些疯狂招人的公司身上 从这份招聘增速榜单里,我发现了下面三个真实趋势和机会: 1、Physical AI/机器人:AI 的下一站是物理世界 Skild AI 做机器人基础模型,Me…

X AI KOLs Following

分析了当前AI招聘增速最快的公司所揭示的三个真实趋势:Physical AI/机器人、AI安全和AI基础设施,指出这些领域正从研究转向工程化落地,成为新的增长机会。