AI代理中的Memento问题

Reddit r/AI_Agents 新闻

摘要

本文将AI代理比作电影《记忆碎片》的主角,认为代理的失败往往源于工作区数据分散、过时,而非模型本身的不足。文章强调,工作区需要提供可靠、统一的上下文,使代理能够有效行动而无须猜测。

TL;DR: 我认为很多代理的失败并非真正的模型失败。代理被要求根据分散、过时且不完整的工作区数据行动,因此最终只能猜测、停止或将工作交回给人类。# 我最喜欢的电影是Memento。电影围绕伦纳德展开,他患有顺行性失忆症,无法形成新的记忆。整部影片中,他依靠照片、笔记、纹身和指令来理解之前发生了什么、现在什么重要以及下一步该做什么。每次伦纳德行动时,他都在根据过去的自己留下的东西重建情境。他创建的笔记充当了他自己无法携带的记忆。它们是他将当下时刻与过去连接的方式。这越来越像我对AI代理的理解。代理可以写作、推理、总结、搜索、使用工具、起草邮件、分析数据并在工作流程中执行步骤。但其每一个行动都取决于围绕该行动的上下文。现在什么是真实的?什么发生了变化?它应该信任哪个来源?它被允许做什么?如果上下文可靠,代理就能发挥作用。如果上下文缺失、分散、过时或困在代理无法访问的地方,代理就不得不根据碎片行动。而根据碎片行动正是问题所在。# 上下文是分散的。假设一个普通的工作场景:即将有一个客户来电,需要有人在会议前准备账户背景信息。代理需要基本信息:客户关心什么、上次发生了什么、承诺了什么、内部有什么变化、下一步应该做什么。大多数团队已经将这些信息存储在某个地方。问题在于,“某个地方”这个说法范围很广。它可能存在于CRM、Slack线程、文档、会议记录、项目看板、邮件链、之前的AI对话或某人的记忆中。人类通常能应付这种情况。我们知道该问谁。我们记得细微差别。我们能察觉任务标题是否过时。我们能理解言外之意。代理没有这种社交地图。如果工作区没有承载上下文,代理要么猜测,要么停止,要么将工作推回给人类。# 代理必须验证哪些内容仍然真实因此,每当代理需要完成工作时,它首先必须回答一个更基本的问题:哪些事实它仍然可以信任?上次的客户投诉是已解决还是仅被确认?产品团队是否实际部署了修复,还是只讨论了?任务看板是最新的,还是计划在电话中改变了?最新定价是放在CRM、邮件线程还是昨天某人发送的演示文稿中?人类通常能毫不费力地解决这些问题。我们利用记忆、直觉和非正式上下文来决定信任什么。对于代理而言,这种判断必须来自系统。在它起草议程、建议讨论要点或撰写后续邮件之前,它必须知道自己依据的是哪个版本的现实。如果它必须要求你粘贴最新的上下文,那它实际上并非在工作区中工作。# 当前的工作区仍将工作交回给人类。这就是为什么在旧的工作区上添加代理是不够的。为人类构建的工作区可以容忍不完整,因为人类自己携带缺失的上下文。但为代理构建的工作区则不能。这种不完整是代理失败的瞬间,导致任务半途而废。如果代理给你一份草稿,但无法更新任务、CRM、文档或后续步骤,那么工作仍然会落回你的桌面。工作区不能再仅仅是人类查看工作的地方。它必须成为代理可以读取、写入并在其中被检查的地方(例如,统一的数据模型、明确的状态跟踪和自动化的来源优先级排序)。本质上,新的工作区必须成为代理可靠的“照片、笔记和纹身”集合,确保它不再根据碎片行动。人类仍然设定方向、评判质量、批准重要行动并承担问责。但代理需要工作区承载足够的事实,以便它们能够有效地行动。因此,我的尖锐观点是:也许AI代理的瓶颈并非智力。也许是它们被迫工作的那个工作区。我很想听听你的看法。
查看原文

相似文章

AI代理没有智能问题,它们有状态管理问题

Reddit r/AI_Agents

文章认为,AI代理在生产中的大多数故障是由于不稳定的运行状态和内存退化造成的,而非模型能力不足,并强调需要更好的基础设施来支持状态管理、可观测性和自适应可靠性。