@CobusGreylingZA: https://x.com/CobusGreylingZA/status/2066593705906012188

X AI KOLs Timeline 新闻

摘要

一个详细的讨论串,主张真正的通用AI代理必须自己构建工具并动态探索环境,而不是依赖像MCP这样的预配置集成。它将终端/CLI定位为通用集成层,并引用了来自OSExpert和NVIDIA的支持研究。

https://t.co/eTnpsHVnsF
查看原文
查看缓存全文

缓存时间: 2026/06/16 15:39

通用智能体论纲

完全数字自主需要能够自行构建工具、发现自身边界并操作所遇任何系统的智能体。

简而言之

几个月来我一直在围绕一个核心观点写作……这篇帖子将所有线索串联起来。
一个需要为每个接触的系统预置连接器、经过整理的Schema或手工编写集成代码的智能体,并非通用智能体。
它只是一个被他人预先配置所束缚的专用智能体。

通用智能体 会空降到任意环境,探索可用信息,构建所需工具,绘制能力与边界地图,并在这些约束内执行。

给你的智能体配备真正的计算机
在AI智能体中运行代码执行远比看起来复杂。你的智能体需要一台真正的计算机(文件系统、Shell……www.langchain.com)

无需预配置。无人为策划的工具注册表。无框架脚手架。这就是行业发展的方向……

集成层正在崩塌

我在《用CLI取代MCP》一文中曾讨论过这一点。观察非常直接。

MCP要求为每个集成构建并维护一个服务器。
SDK、Schema、边界情况处理、版本管理。生态系统的价值完全依赖于采纳率。

而与此同时,每个工具都已有CLI。Git、Docker、curl、ffmpeg、npm。
几十年的工具积累,全部可通过Shell命令访问。

模型早已知道如何使用它们。它已在数十亿条Shell脚本、man手册、Stack Overflow帖子上训练过。

关键洞察并非CLI在特定任务上比MCP更好。

关键在于整个集成层正在崩塌。
智能体与服务之间的六层结构——REST客户端、认证中间件、API网关、集成平台——全部被一个能推理意图并生成命令的模型所取代。

Jensen Huang称之为从预录软件到实时处理的转变。
集成不再提前定义,而是在智能体需要的那一刻从其推理中涌现。

终端就是桥梁

我在《CLI是通往AI自主之路》中探讨了四阶段自主进化。

阶段1:聊天。 模型生成文本。你复制粘贴。
阶段2:工具调用。 模型调用预定义函数。MCP、函数调用、工具Schema。经过策划、有边界、安全。
阶段3:终端。 模型直接操作计算机。Shell命令、文件系统、脚本。无需策划的API。
阶段4:完全自主。 模型端到端推理、规划并执行。跨应用、会话和时间的多步骤任务。

我们正处在阶段2与阶段3之间。
Claude Code、Codex CLI、Grok Build CLI正在向阶段3推进。

CLI是模型停止调用策划API、开始操作机器的分界点。
NVIDIA的Nemotron-Terminal研究证明,终端能力是一种可训练的技能,可预测地扩展。
他们通过纯数据工程,让32B模型与显著更大的模型匹敌。

行业正汇聚到一个结论:

终端就是通用集成层。

智能体必须先探索再执行

OSExpert论文将技能边界概念具体化。
在执行前探索环境的智能体,成功率提高约20%,效率提升约80%。
机制很简单:

智能体系统地探测环境。
记录哪些有效,哪些失败。成功序列变成单元技能。失败序列成为边界标记。

在推理时,如果任务映射到已知失败,智能体立即停止。
它不会尝试该任务,不会浪费代币、API调用或时间去做已知不会成功的事。

当前智能体恰好相反。
它们以同等自信尝试每个任务。
失败后换种方式再试。再失败,再试。

代币正在消失

在这一切之下,计算的基本单元正从视野中消失。
我在《代币正在成为新的隐藏计算原语》中追溯了这一过程。

1990年代:时钟周期 → 被操作系统隐藏
2000年代:服务器容量 → 被云隐藏
2010年代:API调用 → 被SaaS平台隐藏
2020年代:代币 → 被AI智能体隐藏

对大多数用户而言,CLI界面不会显示代币数量。它只显示结果:修复这个bug,构建这个功能,重构这个模块。
SaaS按席位销售。AI现在大多按结果销售。代币是这两层之间的成本单位,但用户从未见过。

竞争优势从“谁拥有最便宜的代币”转向“谁最智能地管理代币”。
上下文压缩、推理预算分配、工具编排。

框架是产品,代币是商品。

通用智能体架构

将这些线索串联起来,架构便浮现了。

集成
智能体使用终端。每个工具已具有CLI。模型已知道如何使用。无需新协议、无需维护服务器、无需定义Schema。当智能体遇到陌生工具时,它会读取帮助文件。

探索
执行前,智能体探索环境。发现哪些系统可用、每个系统暴露了什么、哪些有效、哪些失败。构建技能地图和边界地图。

技能边界
智能体知道它不能做什么。若任务映射到已知失败,则停止。若映射到已知能力,则执行。若映射到未知领域,则先探索。

最小上下文
智能体基于第一性原理推理。它不需要详细Schema、冗长文档或预置模式。一个需求和一个端点就足够了。

框架
六个组件管理生命周期:工具集成、内存管理、上下文工程、规划、验证、可扩展性。框架是智能体的操作系统。

有界自主
智能体在发现的约束内自由运行:文件系统权限、沙箱边界、认证级别、速率限制。治理内置在环境中。沙箱就是护栏。

软件自行编写工具

这一轨迹的终点是智能体不仅使用工具,还创造工具。
当智能体探索环境发现一个没有CLI的API时,它编写一个封装器。
当它需要现有工具无法提供的数据转换时,它生成一个脚本。
当它遇到新的集成模式时,它构建连接器。

这不是推测。Claude Code已经做到了。
智能体读取代码库,理解架构,生成集成代码,运行测试,迭代直至成功。

在这种语境下,工具不是预定义函数。而是智能体为完成任务所需创建的任何软件。
使用工具构建工具之间的区别消失了。
智能体感知环境、推理所需、创建缺失之物、操作结果。感知、推理、行动、学习——通用智能体循环。

这就是我在此仓库中构建原型的原因:一个Claude驱动的智能体,配备完整框架,运行在Gradio界面中。
你可以配置系统提示、选择模型、启用或禁用框架组件,给它真实工具,观察其运行。
不是演示,而是一个可指向任意任务的工作框架。

未来方向

通用智能体不是单一产品。
它是这些要素汇聚时涌现的能力。

集成层已经崩塌。
框架层已经崩塌。
终端是桥梁。
探索阶段赋予智能体触达能力。
边界检查赋予其纪律。
框架管理生命周期。
代币消失于基础设施之中。

剩下的,是一个能空降到任何数字环境、发现存在之物、构建缺失之物、知晓自身不能之事、并在这些边界内执行的智能体。

完全数字自主不是一个目的地。
它是智能体探索、构建并知晓自身边缘的自然结果。

**首席布道师 @ Kore.ai ** | 我热衷于探索AI与语言的交汇。语言模型、AI智能体、智能体应用、开发框架和数据驱动工具塑造着未来。

相似文章

@akshay_pachaar: MCP 与 CLI 之争。在 2025 年的大部分时间里,AI 工程师们对此争论不休。怀疑论者摆出了真实数据:- Playwright MCP …

X AI KOLs Following

Anthropic 的“代码模式”(Code Mode)重新定义了 MCP 与 CLI 之争。它让 AI 代理编写代码,通过运行时调用工具,而不是将完整的模式加载到上下文中,从而大幅减少了 token 消耗。这种方法结合了 MCP 的强类型契约与懒加载机制,证明了该协议正在演进,而非走向消亡。

@ghumare64: https://x.com/ghumare64/status/2052825541057626258

X AI KOLs Timeline

一个X帖子认为生产级AI代理需要运维支撑框架(运维手册、权限、日志、回滚、验证),而不仅仅是更好的提示词。作者引用了DevOps演进历程,指出提示词提供建议而运维手册提供控制,代理系统需要平台工程解决方案来实现权限、状态管理、验证、可观测性和回滚能力。

@daniel_mac8: https://x.com/daniel_mac8/status/2054994899422826592

X AI KOLs Following

该讨论串指出,有最新证据表明AI代理已基本实现自主运作,其中Claude Mythos成功解决了此前未破解的网络攻击模拟实例,并超出当前基准测试测量极限,显示出超指数级进步。同时强调了安全影响及机构应对措施。