标签
提出一种面向LLM代理中代理记忆的认知启发的多因素价值函数,通过学习可解释的权重来决定在记忆约束下编码、遗忘和检索什么。相比仅基于相似性或基于最近性的基线方法,显著提高了黄金证据的保留率。
M^3Eval是一个全面的评估框架和基准,用于探查多模态模型中的记忆能力,其设计基于认知心理学。实验揭示了在记忆维持、干扰模式和时空定位方面的一致弱点。
一项研究论文表明,尽管AI在解决CAPTCHAs方面与人类能力相当,但交互模式中的行为差异仍然可以可靠地区分机器人和人类,从而提出了“过程图灵测试”的概念。
实验研究显示,在标题中插入第一/第二人称代词对人类记忆度影响不一,且大语言模型常生成不准确或不自然的改写。