个人代理中长期记忆与可靠性的挑战
摘要
作者分享了构建持续性使用的个人健康代理所面临的挑战,重点讨论了长期记忆管理和可靠性问题,包括在综合多个来源的数据时出现的幻觉现象。
我一直在为Kim构建一个用于持续使用的个人健康代理。目标并非一次性查询,而是让它能够回答用户长期健康数据(可穿戴设备、化验、症状、习惯等)中的问题并发现洞察。有两个挑战尤为棘手:1. 长期记忆管理:跨数周或数月维持有用上下文很困难。简单的向量检索在处理数月的个人数据时开始退化。我一直在尝试哪些信息需要持久化、如何总结或遗忘旧信息,以及如何处理跨数据源的冲突信号。即使使用更好的嵌入,对于纵向个人数据,检索质量和相关性仍然不稳定。2. 可靠性与幻觉:即使基于用户的真实数据,代理仍然会产生幻觉或过度概括,尤其是在综合多个来源或时间周期的信息时。我尝试了不同的接地技术和结构化输出,但在处理混乱、不完整或主观的个人数据时,实现一致的可靠性仍然困难。评估也很棘手,因为通常缺乏明确的真实依据。很好奇其他构建个人或长期运行代理的人是如何处理记忆架构以及减少带有噪声的真实数据中的幻觉的。
相似文章
我一直在尝试自定义智能体,有趣的部分并非任务完成,而是它们拥有记忆后发生的变化
作者反思了实验自定义 AI 智能体的经历,指出长期记忆和连续性将智能体从简单的任务执行者转变为具有“稳定倾向”的持久协作伙伴。这引发了关于智能体“个性”的价值与工作流程中控制、可靠性和可审计性需求之间的矛盾的问题。
对于那些在本地创建个人助手的人——短期/长期记忆对你的体验有何影响?
一位开发者分享了他们使用 Qwen 3.6 27B 构建具有长期和短期记忆的本地自主代理的经验,指出记忆显著提升了代理的有用性和真实感。他们邀请其他构建类似代理的人讨论记忆技术以及潜在的智能体聚会。
我们是否低估了AI代理记忆可能带来的危险?
讨论了赋予AI代理记忆的风险,包括信任问题、数据投毒和运营风险,并向构建者提出了关键问题。
长期历史感知的医疗对话合成与评估
本文介绍了一种利用大语言模型(LLMs)合成长期医疗对话数据集的框架,并创建了 MediLongChat,包含三个基准任务,用于评估医疗智能体的记忆与推理能力。实验表明,即使是最先进的 LLMs 也难以完成这些任务。
AI智能体拥有强大的记忆能力,但毫无记忆卫生可言。六个月后会是什么样?没人谈论这一点。
探讨了AI智能体中被忽视的记忆卫生问题——长期存储导致上下文过时且不可靠,并质疑行业是否在忽视一个即将到来的全球性问题。