@akshay_pachaar: https://x.com/akshay_pachaar/status/2070860837448040832
摘要
Google的Agents CLI提供了一个统一的工具,用于搭建、评估和部署AI代理,解决了代理工程中工作流程碎片化的问题。文章演示了如何使用该CLI构建RAG代理,展示了其与编码代理和ADK模式的集成。
查看缓存全文
缓存时间: 2026/06/27 13:55
Karpathy 的智能体工程终于有了合适的工具
由 Google 构建,以逐步指南的方式讲解。
Karpathy 在 2026 年 Sequoia Ascent 大会上将智能体工程定义为区分生产级智能体工作与“氛围编码”的学科。
他列出的核心技能包括:规范设计、评估循环和安全监督。
然而,这方面的工具一直缺失,因为目前实践真正的智能体工程仍需在编辑器、用于脚手架搭建的终端、用于测试的浏览器、用于部署的云控制台以及独立的评估框架之间来回切换。
现在,Google 的 Agents CLI 实际上已经实现了生产级智能体工程所需的解决方案。它在一个地方覆盖了从搭建、评估到部署 ADK 智能体的完整工作流。
它向你的编码智能体注入了 7 项技能,使其掌握 ADK 模式、评估结构和部署目标。
之后,编码智能体将自动根据自然语言驱动整个生命周期,你无需离开编辑器即可完成生命周期的任一阶段。
让我们通过从头构建一个 RAG 智能体并将其部署为内部知识助手,来完整走一遍流程。
步骤 1:安装 Agents CLI
bashuvx google-agents-cli setup
这会向你的编码智能体上下文注入 7 项打包好的技能,涵盖 ADK 代码模式、项目搭建、LLM 作为评判的评分评估设置、面向 Agent Runtime 和 Cloud Run 的部署配置,以及 Cloud Trace 可观测性。
因此,每项技能都教会编码智能体生命周期的某个特定阶段如何工作,使其能直接根据自然语言提示执行该阶段。
一个安装命令即可同时为所有编码智能体注入这些技能。因此 Antigravity、Claude Code、Cursor、Codex 等都能通过一次安装获得相同的 ADK 专业知识:
步骤 2:构建 RAG 智能体
打开你选择的编码智能体,并描述智能体:
markdown1. 构建一个 RAG 智能体,能够摄入文档、检索相关 2. 上下文,并回答带来源引用的问题。使用 3. ADK agentic_rag 模板和 Gemini 3.5 Flash。
编码智能体会激活其 ADK 技能并搭建完整项目,如下图所示:
-
Claude Code 从 ADK agentic_rag 模板搭建了项目,使用 Vector Search 作为数据存储。
-
然后它发现模板缺少引用支持,因此重写了智能体指令,要求提供带内联引用的有依据答案,并修改了检索器,使每个文档都能返回源 ID。
-
它配置了数据存储,摄入了一个合成问答语料库(12 条关于 Python 基础的条目),并运行了冒烟测试。智能体返回了带引用的答案,并在检索不可用时正确地拒绝生成幻觉。
注入的技能了解检索增强型智能体的 ADK 模式,因此搭建的项目自然包含了引用支持和 Vector Search 配置。
步骤 3:本地测试
接下来,我们让编码智能体在 localhost 上启动 ADK Web UI:
plaintext启动一个本地开发服务器,以便我进行测试。
这会启动一个交互式聊天界面,你可以在其中用真实查询测试智能体。需要验证两件事:
-
首先,它是否能正确检索并引用?我们问“如何合并两个字典?”智能体从语料库中提取了正确的上下文,详细介绍了合并运算符和 update() 方法,并内联附加了 [source: 1003]。引用有效。
-
其次,它能否正确处理缺失上下文的情况?我们问“谁赢得了 2022 年 FIFA 世界杯?”这是一个语料库中没有答案的问题。智能体回答它无法根据现有文档回答。
步骤 4:部署前进行评估
这是最重要的一步,也是大多数智能体教程完全跳过的一步。
plaintext1. 为此 RAG 智能体生成 20 个测试场景,涵盖正确 2. 检索、智能体应回答不知道的上下文不足情况、 3. 多跳问题以及引用准确性。运行 4. 完整评估套件并显示结果。
编码智能体生成了 20 个测试场景,分为四类:
-
6 个正确检索(语料库能回答的问题)
-
5 个上下文不足(智能体应拒绝回答的问题)
-
5 个多跳推理(需要多个文档的问题)
-
4 个引用准确性
Karpathy 特别指出了这一差距,并表示 89% 运行智能体的团队已设置可观测性,但只有 52% 拥有评估。Agents CLI 让你能够通过一个提示生成并运行完整的评估套件。
结果:
-
引用准确性在所有 20 个案例中完美达到 1.00。智能体从未捏造来源。
-
但幻觉评分标记出了一个边缘情况:对于语料库之外的问题,智能体有时会附加一般知识,而不是回答没有足够上下文。评估将问题追溯至指令中的一行文字(“如果你已经知道一个简单问题的答案,你可以直接回答,无需使用工具”),删除这行指令即可解决。
步骤 5:部署到 Agent Runtime
plaintext将此智能体部署到 us-central1 的 Agent Runtime。
编码智能体首先为 Agent Runtime 增强了项目,添加了部署入口点和基础设施配置。
然后它将智能体部署到 Google Cloud,整个过程大约需要 2-3 分钟。
Cloud Trace 默认启用,因此从第一个部署的请求开始,可观测性就已内置。
步骤 6:注册到 Gemini Enterprise
此时,智能体已部署并可运行,但只有构建它的开发者能够访问。
其他任何想使用它的人都需要端点 URL、正确的 API 凭证,并且首先要知道这个智能体的存在。
在大多数团队中,这就是有用智能体悄然消亡的地方。它们可以工作,但构建者核心圈子之外的人既不知道也无法访问它们。
让智能体执行以下操作,即可将应用注册到 Gemini Enterprise 平台,使其在整个组织内的 Gemini Enterprise 应用中可被发现:
plaintext将此智能体注册到 Gemini Enterprise。
任何拥有希望可搜索的内部文档的团队,都可以使用同一个知识助手,而无需自行搭建 RAG 管道。IAM 控制谁可以访问,企业仪表板提供完整的可观测性。
正如 Karpathy 所描述的,这就是拥有合适工具的智能体工程。
通过一个终端会话和六个自然语言提示,智能体从一个空文件夹变成了整个组织可用的生产级助手。
你可以在 GitHub 上找到 Agents CLI →
这里是 ADK 文档 →
这里是 Agent 平台 →
👉 交给你了:在当前 RAG 设置中,你最希望能自动化消除的痛点是什么?
感谢阅读,也感谢 Google Cloud 与我们合作推出今天这期内容!
相似文章
@Saboo_Shubham_: Agents CLI 是使用 Google Agent Development Kit 构建、部署和评估多智能体团队的最快方式。工作…
Agents CLI 是一种新的命令行工具,可使用 Google Agent Development Kit 快速构建、部署和评估多智能体团队,并与各种编码代理(如 Claude Code、Codex)配合使用。
@hwchase17: https://x.com/hwchase17/status/2053157547985834227
文章概述了一个系统的“智能体开发生命周期”(构建、测试、部署、监控),以有效创建和管理 AI 智能体,重点介绍了 LangChain、LangGraph 和 CrewAI 等关键框架。
@akshay_pachaar: https://x.com/akshay_pachaar/status/2053166970166772052
The article discusses a shift in AI agent tool usage from the 'MCP vs CLI' debate to 'Code Mode,' where agents write code to dynamically import tools, significantly reducing context window usage. It highlights Anthropic's approach and Cloudflare's implementation, demonstrating a 98.7% reduction in token consumption for specific tasks.
@Saboo_Shubham_: 使用 Google ADK 构建始终在线的 AI 代理。自定义代理,按计划运行,可通过 Gmail、Slack 或…使用
该推文推广使用 Google ADK 构建始终在线的 AI 代理。该代理可按计划运行,并与 Gmail、Slack 或 webhooks 集成,且完全开源。
构建智能体的新工具
OpenAI 推出了一系列用于构建智能体的新工具,包括 Responses API、内置工具(网络搜索、文件搜索、计算机使用)、Agents SDK 和可观测性功能,旨在简化智能体应用程序开发。