标签
这篇文章指出80%的AI Agent生产崩溃并非模型智商问题,而是由上下文溢出、工具调错、子代理失控引起。作者强调2026年的分水岭在于Harness(办公室制度、安保系统)和Loop(自动循环机制),而非模型本身。
一个简短的预测:2025年工程师会将LLM API集成到他们的测试工具中,而2026年他们会设计测试工具以便在Agent中运行。
本文解释了AI代理中的循环工程概念,强调核心循环很简单,但关键工作在于模型周围的“束具”,包括知道何时停止以及防止上下文腐败。
本文是系列文章第六篇,详细解释了subagent的概念、工作原理及其在coding agent中的作用,包括tool call和runtime机制,以及不同subagent类型(fresh child、forked child、partial fork)的适用场景。
本文深入解释AI领域评测框架(Harness)的重要性,分析DeepSeek自建Harness团队的战略意义,并对比了开源lm-evaluation-harness与自建系统的区别。
MetaHarness converts any GitHub repository into a custom AI agent harness with CLI, MCP service, memory, and signing, allowing deployment on multiple agent platforms.
Matt Pocock 认为 AI 社区过度关注模型本身,而真正的关键在于围绕模型的工具(框架)。
本文是“Context Is A Projection Harness”系列的第6篇,深入探讨了coding agent中context management的核心问题,提出了将完整历史投影为模型所需的小视野的Harness方法,包括Large-Result Preview、Idle-Gap Microcompact、Old-Span Collapse和Auto-Compact Near The Limit等关键技术。
DeepSeek Harness 组急需人才,招聘政策改为 Harness 与非 Harness 分开进行。
一份逐步指南,介绍如何构建一个完全本地运行的最小化AI编码代理,使用llama.cpp、GGUF模型和自定义工具框架,演示如何设置工具并调用模型执行实际任务,例如创建着陆页。
Yoyo是一个在GitHub Action上每8小时自我演进的AI agent,其成功关键在于一个无状态agent加持久化状态(git仓库)的harness设计。文章深入分析了记忆、上下文、反馈、验证等问题的朴素解法,强调持久化状态比模型本身更关键。
作者认为,AI代理最好理解为一个包含业务知识和指令的markdown文件文件夹,与模型和工具框架分离,从而能够在快速改进的框架之间实现可移植性。
伦敦大学学院的研究人员对Claude Code进行了逆向工程,发现只有1.6%的代码库是AI决策逻辑,而98.4%是操作基础设施,这揭示了一种设计理念,即优先考虑丰富的确定性框架而非模型驱动路由。
一项针对AI编码智能体的本地治理框架实验表明,当智能体自身的治理记录在其上下文中呈现时,智能体会开始自我纠偏,遵循策略并请求意图声明,而无需强制执行。
文章提出在Coding Agent中,工具调用应视为契约而非简单函数,强调Harness在验证、权限、生命周期管理等环节的裁决作用,并详细讨论了工具契约的组成和生命周期。
介绍了HarnessBridge,一种可学习的双向控制器,它将智能体-环境接口参数化,用于LLM智能体。在Terminal-Bench和SWE-bench上,它以更少的计算开销达到了与专用框架相当的性能。
本视频解释了AI智能体框架的概念:LLM核心、记忆、工具,以及实现迭代决策以达到目标的循环。