标签
LongDS是一个用于评估AI智能体在源自Kaggle笔记本的长程、多轮数据分析任务上的基准测试;实验表明,最佳模型仅能达到48%的准确率,且随着轮数增加准确率显著下降。
本文重新思考长期AI智能体记忆的数据基础,认为当前的数据库范式存在不足。它引入了受控演化记忆(GEM),一种包含状态级别操作符和正确性条件的形式化方法,并提出了一个名为MemState的原型,构建在属性图后端之上。