标签
一份构建 AI 代理框架的全面指南,涵盖工具执行、上下文管理、状态/记忆和护栏,基于构建 Claude Code 和其他企业级框架的经验。
一项将BEAM风格并发(Erlang VM模型)应用于代码智能体的实验得到了令人惊讶的结果,暗示了在智能体协调和容错方面的潜在改进。
作者认为,许多针对AI代理的人工审批门效果不佳,如同虚设;并提出了一个框架,用于设计能够真正捕捉错误的有意义的审查机制。
人们想要轻松构建智能体,并使其随时间改进;自动化“爬山”循环虽然困难,但投资回报率很高。
Google Devs introduces Agent Factory series with ADK 2.0 and Gemini 3.5 Flash, demonstrating how to build production-grade stateful agents that can run for days, featuring insights on skills, MCP, and code review strategies from engineers like Rohde Davis.
这篇文章概述了一个使用Warp技能的规范驱动开发的五步工作流程:编写产品规范(PRODUCT.md),编写技术规范(TECH.md),使用任何AI代理进行实现,验证实现与规范一致,以及使用Oz进行计算机使用验证。这些技能是开源的,可以通过npx安装。
作者认为,生产环境中的AI智能体应定义为具有独立运行时的声明式清单,而不是分散在应用代码中,以便实现适当的版本控制、可观测性和回滚。他们将自己的解决方案作为开源工具提供。
本文介绍了“Harness Engineering”这一概念,这是一门专注于设计约束和引导AI代理的系统,使其在生产中可靠的学科,并认为Harness(约束系统)比模型本身更重要。
作者反思了为什么在演示中表现良好的AI智能体在实际工作流中经常失败,认为执行质量可能更多地与数据问题(任务示例、工具轨迹、评估集)相关,而不仅仅是推理或规划,并指出他们正在通过OpenDCAI/DataFlow项目探索这个问题。
Google宣布在Gemini API中正式推出Managed Agents,实现零基础设施开销的智能体开发。文章还重点介绍了AGENTS.md,这是一种为AI编码智能体提供上下文的开放格式,已被超过6万个开源项目采用。
本文介绍了元智能体挑战(MAC),这是一个用于评估AI模型通过迭代编程自主开发智能体系统能力的基准测试。结果表明,当前模型很少能达到人类基线水平,且表现出奖励破解等问题,凸显了自我改进能力上的不足。
作者创建了 pi-docs-playbook 仓库,将 pi 框架官方文档分类整理,以便 coding agent(如 Codex/Claude)高效、准确地读取,从而辅助构建业务 Agent,减少幻觉。
LangChain 推出了托管深度代理(Managed Deep Agents),保持了熟悉的项目布局:AGENTS.md、skills/、subagents/ 和 tools.json,并提供了 Context Hub 用于跨会话的持久上下文管理。
本文探讨了模型上下文协议(MCP)是否通过标准化智能体与工具的通信,有效减少了 AI 智能体的集成工作量,并将 Evose 中的原生 MCP 集成与 LangGraph、CrewAI 等其他技术栈中的手动连接进行了比较。
一位没有机器学习背景的产品经理将 wikiLLM 改造为“智能体即开发者”,使其能够在遇到意外情况时自动生成上下文,并将重复出现的模式升级为经过验证的规则,从而将强制上下文减少约 80%,并避免重复处理已解决的问题。
LangChain 的新闻通讯宣布了 Interrupt 2026 的重大产品发布:用于自动诊断和修复 Agent 故障的 LangSmith Engine,以及用于安全代码执行的 Sandboxes 正式版,同时还启动了新的 LangChain Labs 研究计划,并预告了即将举行的活动。
Hermes Agent及其生态工具集在开发者社区中引发关注,包括强化fork版、阿里云记忆插件、Felo技能包、社区圣经和轻量Web UI,展示了AI Agent的深度定制和云端协作能力。
微软开源了 VS Code 插件 AI Toolkit,将模型选择、Playground、Agent 搭建、批量测试和评估集成在一个界面中,简化 AI Agent 开发流程。
LangChain 推出 LangSmith Engine 公测版,这是一个自主智能体,能够监控生产追踪、聚类故障、诊断根本原因,并提出修复和评估覆盖建议,以简化智能体开发。
本文提供了优化 Claude 的 SKILL.md 描述以确保正确触发激活的实用建议,强调具体关键词、负向约束和迭代测试的重要性,而非通用文档。