标签
关于AI智能体应如何处理用户上下文的讨论:是主动告知还是逐步学习,现有的方法如项目记忆和聊天摘要均存在不足。
介绍了Claw-Anything,这是一个基准测试,用于评估始终在线的个人AI助手在涵盖长时间跨度、多种服务和多样化设备交互的综合用户活动上下文中的表现。实验表明,即使是GPT-5.5也仅达到34.5%的pass@1,突显了当前智能体能力与始终在线辅助需求之间的显著差距。
这篇文章质疑AI产品是否过度依赖聊天历史进行个性化,指出聊天历史数据嘈杂,且摘要、标签和偏好字段都有缺陷。它寻求在不显得侵入的情况下,找到替代的真实信息来源来获取上下文。