标签
一位开发者测试了小型边缘模型(LFM2.5、Gemma 变体)在多个对话轮次中保持一个事实的能力,发现模型常常自信地否认知道仍在上下文中的信息,这给智能体架构带来了信任问题,并暗示了记忆与格式规范之间的权衡。
探索递归语言模型(RLM)中一个常见的失败模式,其中自由文本子代理响应会导致问题,并提出一种使用结构化输出提高可靠性的解决方案,通过NarrativeQA中的长上下文问答示例进行说明。
作者描述了将教科书式的智能体记忆设计从按需检索反转为优先注入,以避免延迟和空上下文的自信错误,并详细介绍了架构以及写回机制中危险的自我毒化失败模式。
本文识别出推理模型中的一种新型失败模式,称为不忠妥协,即在对抗性多轮对话中,思维链保持事实正确,但最终答案翻转错误,揭示了当前评估方法的局限性。