测试了小模型在对话中能记住一个事实多长时间。记忆失败模式对智能体来说是一个真正的问题，而且这并非我所预料的。

Reddit r/AI_Agents 2026/06/08 14:34 新闻

small-models edge-models memory agents failure-mode conversation on-device

摘要

一位开发者测试了小型边缘模型（LFM2.5、Gemma 变体）在多个对话轮次中保持一个事实的能力，发现模型常常自信地否认知道仍在上下文中的信息，这给智能体架构带来了信任问题，并暗示了记忆与格式规范之间的权衡。

如果你正在基于小型或设备端模型构建智能体，那么这篇文章与你相关：我测量了三个边缘模型在对话过程中保持一个事实的能力，它们的失败方式对智能体而言比单纯遗忘更糟糕。设置是有意简化的：注入一个事实，堆积 N 轮无关填充内容，然后询问该事实。每个深度测试三次，每次填充内容顺序随机。失败模式：当智能体丢失事实时，它不会猜错。它会断言自己从未可能知道过：“我没有访问你个人信息的权限。”但事实仍然在上下文中。对于一个本应在会话中携带用户状态的智能体来说，这意味着它不仅会丢掉约束，还会自信地告诉用户该约束从未被给出过。这破坏了信任，且难以追踪，因为实际上并没有出现错误。简而言之的数据： * LFM2.5（1.5B 活跃 MoE）：记忆最长，逐渐退化。 * Gemma 4 E2B（约 2B）：稳定，然后在大约 8-10 轮时突然下降。 * Gemma 4 E4B（约 4B）：三者中记忆最短，在 5 轮时崩溃，但在指令遵循和保持工具调用格式完整性方面最强。这最后的分化正是智能体构建者面临的有趣张力。最擅长不破坏工具模式的模型在记住用户所说内容方面最差。如果记忆和格式规范确实存在权衡，那么你可能需要一个模型驱动结构化工具调用，并采用独立的机制（检索、刷新系统状态）来持有事实，而不是期望一个小模型同时完成这两件事。完整的图表、每深度明细以及可复现的测试工具已整理成文。链接在下方评论区。好奇是否有运行智能体框架的人在实际中遇到过“你从未告诉过我”的拒绝情况，以及你们是如何解决的。

查看原文

测试了小模型在对话中能记住一个事实多长时间。记忆失败模式对智能体来说是一个真正的问题，而且这并非我所预料的。

相似文章

STALE：LLM智能体能否识别记忆何时失效？

从回想到遗忘：为个性化智能体评估长期记忆

当被 LLM 持续更新时，有用的记忆会变得有缺陷（30 分钟阅读）

当存储证据不再可用时：Agent 记忆的条件规模评估

AI智能体拥有强大的记忆能力，但毫无记忆卫生可言。六个月后会是什么样？没人谈论这一点。

提交意见反馈