标签
这篇斯坦福研究论文介绍了AutoMem,这是一个将智能体记忆管理视为可训练技能的框架。通过分别优化记忆结构和熟练度,AutoMem在长周期任务上将基础智能体性能提升了2到4倍,使得一个32B开源权重模型能够与Claude Opus 4.5和Gemini 3.1 Pro Thinking等前沿系统竞争。
AutoMem 引入了一个框架,将记忆管理作为 LLM 的可训练技能进行自动化学习,通过优化记忆结构和熟练度,将长期任务的性能提升 2-4 倍。
OSWorld 2.0 是一个新的基准测试,用于评估计算机使用代理在 108 个长周期真实工作流程上的表现。当前像 Claude Opus 4.8 和 GPT-5.5 这样的代理完成率较低,凸显了它们在处理复杂多步骤任务时的显著局限性。
GPT-5.6 是一个能力强大的模型,适用于长周期任务以及跨编程、计算机使用和科学领域的知识工作。
解释了自反思ReAct循环在长时任务中失败的原因,并介绍了作为解决方案的AgentOS验证架构。
一位用户分享了使用 FactoryAI 将设计系统从 HTML/CSS 转换为带有 E2E 测试的 Flutter 组件的体验。该工具使用编排器、工作者和验证器,结合多种 AI 模型来规划和执行长达 79 小时的长期任务,总共生成了超过 229 个代理。
小米开源了MiMo Code,一款采用新颖记忆架构的AI编码助手,在长期任务上表现优于Claude Code,并免费提供MiMo-V2.5模型。
本文提出HORMA,一种分层组织与检索记忆智能体,它将智能体经历组织成类文件系统结构以实现高效检索,在减少token用量的同时提升长周期任务的性能。
AdaCoM是一个独立的大语言模型,用于管理冻结AI代理的上下文,在不重新训练的情况下提升长任务性能。在测试中,它使平均网络搜索性能提高了39%。
论文提出信号驱动观测(SDO)方法,使Web代理避免上下文退化,仅读取DOM中与任务相关的部分,并仅在特定信号触发时重新调用观测,而不是在每个动作步骤读取完整页面状态。
CoMIC 是一种面向大语言模型代理的云边框架,通过协作记忆和洞察循环提升长时任务性能,无需参数更新,在多个任务中实现进度率和动作依据的提升。
MemPro 是一个系统级进化框架,它将记忆构建-检索管道视为一个可进化的程序,使用进化智能体(Evolving Agent)迭代诊断失败并创建改进版本。在长期任务基准上的实验表明,与静态和提示级基线相比,它在性能-成本权衡方面取得了持续改进。
推文讨论了关于自我改进代理的建议,并分享了在长期任务中使用编码代理的实验观察,指出更强的模型并不总是能产生更好的代理。
本文介绍了GTA,一个可扩展的框架,用于自动生成具有可执行轨迹的长时域、多跳Web智能体任务,解决了Web智能体基准测试中缺乏过程级监督的问题。该框架集成了爬取、基于检索的种子生成和自动质量控制,以在多个网站上产生现实的任务。
对 pi-goal 工具进行源码解析和多模型实测,发现 DeepSeek V4 Pro 在长程任务上比 Gemini 3.5 Flash 便宜 31 倍且质量更高,且更高思考模式反而导致幻觉增加。
智谱AI创始人唐杰预测今年大模型最大突破是长周期任务,AI可在真实环境持续解决复杂问题,并提及三大技术支柱及Anthropic的自主训练进展。
本文介绍了 Agent-BRACE,该方法将大型语言模型(LLM)智能体解耦为信念状态模型和策略模型,以处理部分可观测环境中的长视距任务。通过语言化状态不确定性,该方法在保持上下文窗口大小恒定的同时,相比基线方法实现了显著的性能提升。
文章探讨了长程人工智能任务和自主代理系统(Autonomous Agents)即将取得的突破,指出企业模式正从“一人公司”向“无人公司”转变。文章强调,记忆、持续学习和自我评判等技术支柱是实现完全自我进化的人工智能系统的关键,这可能重新定义通用人工智能(AGI)和操作系统。
本文介绍了 ReFlect,这是一种无需训练的包装系统,通过为大语言模型包裹确定性的错误检测与恢复逻辑,来提升其在复杂、长周期推理任务上的性能。
本文介绍了 BEACON,这是一种旨在改善长视界语言智能体的信用分配和采样效率的里程碑引导策略学习框架。在 ALFWorld、WebShop 和 ScienceWorld 等基准测试上,该框架表现出显著优于 GRPO 和 GiGPO 的性能提升。