我的AI代理在遇到未曾预料的问题之前工作得很好。是继续添加规则,还是重新思考整体方法?
摘要
一位开发者描述了构建多代理AI助手的挑战:这些助手无法优雅地处理意外情况,依赖显式规则导致打地鼠式问题,而非实现关于模糊性的自主推理。
我正在构建一个AI助手(多代理设置),用于处理用户日常的实际任务——安排日程、回答问题、发送消息等。只要请求匹配我们已经考虑过的情况,它就能很好地工作。问题是:一旦出现稍微出乎意料的事情,它就……无法优雅地处理。举个简单的例子。用户有两个工作时间相同的地点。当需要将某件事分配给其中一个地点时,人类明显的做法是会问“嘿,这两个地点有重叠,你指的是哪个?”我的系统拥有注意到这一点的所有信息。但它不会询问。它只是默默地选择其中一个(或者一个都不选)然后继续,因为没有人在明确告诉它“在这种确切情况下,停下来询问”。所以我当前的解决方法总是一样的:我再添加一条规则。另一个条件。另一个“如果发生这种情况,就这样做”。然后它又能工作了,直到下一个未预料的情况出现,我们又添加另一条规则。感觉我们永远在玩打地鼠游戏,而不是让系统真正变得智能。令人沮丧的是,它拥有所有工具、所有数据和详细指令。但它只做明确告诉它的事情,从不会自己推理空白或模糊之处。
相似文章
有没有人也觉得AI代理在事情变得复杂之前都表现得很惊艳?
对AI代理令人印象深刻的演示和可靠的实际执行之间差距的反思,认为当前代理擅长结构化任务但在不可预测条件下会失败,并指出近期AI角色将主要集中于带人类监督的窄范围自动化。
AI代理不仅需要更好的推理能力,还需要更好的停止规则。
AI代理需要更好的停止规则,而不仅仅是推理能力,才能在实际工作流程中值得信赖——这些场景中,不完整的数据、不可逆的操作以及高风险都需要知道何时不应采取行动。
AI代理最诡异的一点:人类失败模式开始显现
作者观察到AI代理展现出类似人类的失败模式,比如在上下文压力下过度自信和跳过步骤,这表明系统可靠性更多地依赖于稳健的验证和受控环境,而不仅仅是模型智能。
AI智能体在实际工作流中真正失败的地方(非演示环境)
讨论AI智能体在实际工作流中失败的地方,重点指出协调问题、混乱输入下的可靠性问题,以及在生产中减少人工干预的挑战。
AI代理即将制造一个无人愿意承担的责任问题
随着AI代理从提供答案转向在实际工作流程中采取行动——例如处理付款、客户数据和审批——其错误缺乏明确问责制成为了一个关键问题。