@AdamRLucek: 智能体是听从你…还是听从自己?在评估深度智能体系统中的子智能体行为时,我们注意到一个有趣的现象…

X AI KOLs Following 论文

摘要

一位研究人员分享了在深度智能体系统中评估子智能体行为时的观察,注意到智能体在遵循手写系统提示与编排器指令之间出现了一个有趣的偏差。

智能体是听从你…还是听从自己?在评估深度智能体系统中的子智能体行为时,我们注意到一个有趣的现象:我们的智能体在遵循手写系统提示与编排器给出的指令之间出现了偏差 1/4 🧵
查看原文
查看缓存全文

缓存时间: 2026/05/21 19:37

代理(Agent)是听你的,还是我行我素?在评估深度代理系统中的子代理行为时,我们注意到一个有趣的现象:代理对于手动编写的系统提示与编排器给予的指令在遵循程度上存在差异。1/4

在一个“大海捞针”式的分类评估任务中,主代理依赖多个子代理解析大量大型(百万级token)数据点并将它们聚类成相关组。我们发现,根据编排器发送给子代理的额外指令的长度和具体程度,子代理的性能和行为会发生不同变化。2/4

虽然我们的子代理系统提示通常是方向性且开放式的,但有些模型提供了详细的评分标准和指南,导致子代理行为过度严格,限制了其创造性执行,从而损害了最终性能。代理的这些更长的指令往往在方向上覆盖了我们希望通过提示鼓励的宽松行为。3/4

启示?重要的是不仅要考虑如何提示子代理,还要考虑主代理如何提示它。代理与其子代理委派之间的关系可以成就或破坏整个系统的成功。4/4

说得对!方向性优于精确性

也许我们已经实现AGI了…

有什么建议吗?

相似文章

引用 Andreas Påhlsson-Notini 的话

Simon Willison's Blog

Andreas Påhlsson-Notini 批评当前 AI agent 表现出令人沮丧的“人性”——注意力涣散、来回讨价还价。

智能体给出的正确答案不代表它做对了事

Reddit r/AI_Agents

本文探讨了仅根据最终答案来评估AI智能体的陷阱,强调了检查中间步骤、工具调用和推理过程以发现看似自信但实际错误的输出的重要性。文章建议使用自动评分和轨迹回放来测量并改进智能体的行为。