个人代理中长期记忆与可靠性的挑战

Reddit r/ArtificialInteligence 新闻

摘要

作者分享了构建持续性使用的个人健康代理所面临的挑战,重点讨论了长期记忆管理和可靠性问题,包括在综合多个来源的数据时出现的幻觉现象。

我一直在为Kim构建一个用于持续使用的个人健康代理。目标并非一次性查询,而是让它能够回答用户长期健康数据(可穿戴设备、化验、症状、习惯等)中的问题并发现洞察。有两个挑战尤为棘手:1. 长期记忆管理:跨数周或数月维持有用上下文很困难。简单的向量检索在处理数月的个人数据时开始退化。我一直在尝试哪些信息需要持久化、如何总结或遗忘旧信息,以及如何处理跨数据源的冲突信号。即使使用更好的嵌入,对于纵向个人数据,检索质量和相关性仍然不稳定。2. 可靠性与幻觉:即使基于用户的真实数据,代理仍然会产生幻觉或过度概括,尤其是在综合多个来源或时间周期的信息时。我尝试了不同的接地技术和结构化输出,但在处理混乱、不完整或主观的个人数据时,实现一致的可靠性仍然困难。评估也很棘手,因为通常缺乏明确的真实依据。很好奇其他构建个人或长期运行代理的人是如何处理记忆架构以及减少带有噪声的真实数据中的幻觉的。
查看原文

相似文章

长期历史感知的医疗对话合成与评估

arXiv cs.CL

本文介绍了一种利用大语言模型(LLMs)合成长期医疗对话数据集的框架,并创建了 MediLongChat,包含三个基准任务,用于评估医疗智能体的记忆与推理能力。实验表明,即使是最先进的 LLMs 也难以完成这些任务。