标签
M^3Eval是一个全面的评估框架和基准,用于探查多模态模型中的记忆能力,其设计基于认知心理学。实验揭示了在记忆维持、干扰模式和时空定位方面的一致弱点。
一项研究论文表明,尽管AI在解决CAPTCHAs方面与人类能力相当,但交互模式中的行为差异仍然可以可靠地区分机器人和人类,从而提出了“过程图灵测试”的概念。
实验研究显示,在标题中插入第一/第二人称代词对人类记忆度影响不一,且大语言模型常生成不准确或不自然的改写。