标签
本文提出 Ptah,一种多智能体框架,通过专门智能体和验证机制交错文本与视觉证据,生成可验证的多模态深度研究报告,并引入 PtahEval 进行评估。
MemEye 是一个视觉中心的评估框架,通过衡量 8 个生活场景任务中的视觉证据粒度和检索复杂度来评估多模态智能体记忆。该框架揭示了当前架构在保留细粒度视觉细节和推理随时间变化的状态方面仍然存在困难。