long-horizon-tasks

#long-horizon-tasks

@omarsar0: // AutoMem // 我非常喜欢这个元记忆的概念。(标记一下) 这项来自斯坦福的新研究将智能体的记忆…

X AI KOLs Timeline ↗ · 2天前缓存

这篇斯坦福研究论文介绍了AutoMem，这是一个将智能体记忆管理视为可训练技能的框架。通过分别优化记忆结构和熟练度，AutoMem在长周期任务上将基础智能体性能提升了2到4倍，使得一个32B开源权重模型能够与Claude Opus 4.5和Gemini 3.1 Pro Thinking等前沿系统竞争。

0 人收藏 0 人点赞

#long-horizon-tasks

AutoMem: 作为认知技能的记忆自动化学习

arXiv cs.AI ↗ · 2天前缓存

AutoMem 引入了一个框架，将记忆管理作为 LLM 的可训练技能进行自动化学习，通过优化记忆结构和熟练度，将长期任务的性能提升 2-4 倍。

0 人收藏 0 人点赞

#long-horizon-tasks

OSWorld2.0：长周期真实世界任务中计算机使用代理的基准评测

Hugging Face Daily Papers ↗ · 6天前缓存

OSWorld 2.0 是一个新的基准测试，用于评估计算机使用代理在 108 个长周期真实工作流程上的表现。当前像 Claude Opus 4.8 和 GPT-5.5 这样的代理完成率较低，凸显了它们在处理复杂多步骤任务时的显著局限性。

0 人收藏 0 人点赞

#long-horizon-tasks

@astonzhangAZ：GPT-5.6 是一个能力强大的模型，尤其适用于长周期任务以及跨编程、计算机使用和科学领域的知识工作。

X AI KOLs Timeline ↗ · 2026-06-26 缓存

GPT-5.6 是一个能力强大的模型，适用于长周期任务以及跨编程、计算机使用和科学领域的知识工作。

0 人收藏 0 人点赞

#long-horizon-tasks

为什么自反思ReAct循环在长时任务中失败，以及我们为此构建的AgentOS验证架构

Reddit r/artificial ↗ · 2026-06-21

解释了自反思ReAct循环在长时任务中失败的原因，并介绍了作为解决方案的AgentOS验证架构。

0 人收藏 0 人点赞

#long-horizon-tasks

@jholtdigital：最近有位朋友鼓励我，如果想了解某件事物对我的用例效果如何，就应该试用一个月……

X AI KOLs Following ↗ · 2026-06-20 缓存

一位用户分享了使用 FactoryAI 将设计系统从 HTML/CSS 转换为带有 E2E 测试的 Flutter 组件的体验。该工具使用编排器、工作者和验证器，结合多种 AI 模型来规划和执行长达 79 小时的长期任务，总共生成了超过 229 个代理。

0 人收藏 0 人点赞

#long-horizon-tasks

小米新开源、智能体式AI编码工具MiMo Code在超长200+步骤任务中击败Claude Code（14分钟阅读）

TLDR AI ↗ · 2026-06-12 缓存

小米开源了MiMo Code，一款采用新颖记忆架构的AI编码助手，在长期任务上表现优于Claude Code，并免费提供MiMo-V2.5模型。

0 人收藏 0 人点赞

#long-horizon-tasks

先组织后检索：高效智能体的分层记忆导航

arXiv cs.AI ↗ · 2026-06-11 缓存

本文提出HORMA，一种分层组织与检索记忆智能体，它将智能体经历组织成类文件系统结构以实现高效检索，在减少token用量的同时提升长周期任务的性能。

0 人收藏 0 人点赞

#long-horizon-tasks

@rohanpaul_ai: AI代理可以在不重新训练代理本身的情况下，通过使用一个独立的小模型来清理并...

X AI KOLs Following ↗ · 2026-06-08 缓存

AdaCoM是一个独立的大语言模型，用于管理冻结AI代理的上下文，在不重新训练的情况下提升长任务性能。在测试中，它使平均网络搜索性能提高了39%。

0 人收藏 0 人点赞

#long-horizon-tasks

长时域Web代理的信号驱动观测

arXiv cs.CL ↗ · 2026-06-08 缓存

论文提出信号驱动观测（SDO）方法，使Web代理避免上下文退化，仅读取DOM中与任务相关的部分，并仅在特定信号触发时重新调用观测，而不是在每个动作步骤读取完整页面状态。

0 人收藏 0 人点赞

#long-horizon-tasks

CoMIC：云边系统中面向长时任务的大语言模型代理的协作记忆与洞察循环

arXiv cs.AI ↗ · 2026-06-02 缓存

CoMIC 是一种面向大语言模型代理的云边框架，通过协作记忆和洞察循环提升长时任务性能，无需参数更新，在多个任务中实现进度率和动作依据的提升。

0 人收藏 0 人点赞

#long-horizon-tasks

MemPro：作为可进化程序的智能体记忆系统

arXiv cs.CL ↗ · 2026-06-02 缓存

MemPro 是一个系统级进化框架，它将记忆构建-检索管道视为一个可进化的程序，使用进化智能体（Evolving Agent）迭代诊断失败并创建改进版本。在长期任务基准上的实验表明，与静态和提示级基线相比，它在性能-成本权衡方面取得了持续改进。

0 人收藏 0 人点赞

#long-horizon-tasks

@omarsar0: 关于自我改进代理的非常好的建议。（收藏）这是我正在自己的实验中观察到的现象，关于编码...

X AI KOLs Following ↗ · 2026-06-01 缓存

推文讨论了关于自我改进代理的建议，并分享了在长期任务中使用编码代理的实验观察，指出更强的模型并不总是能产生更好的代理。

0 人收藏 0 人点赞

#long-horizon-tasks

GTA: 大规模生成Web智能体的长时域任务

arXiv cs.AI ↗ · 2026-05-29 缓存

本文介绍了GTA，一个可扩展的框架，用于自动生成具有可执行轨迹的长时域、多跳Web智能体任务，解决了Web智能体基准测试中缺乏过程级监督的问题。该框架集成了爬取、基于检索的种子生成和自动质量控制，以在多个网站上产生现实的任务。

0 人收藏 0 人点赞

#long-horizon-tasks

@wquguru: https://x.com/wquguru/status/2057852569054278045

X AI KOLs Timeline ↗ · 2026-05-22 缓存

对 pi-goal 工具进行源码解析和多模型实测，发现 DeepSeek V4 Pro 在长程任务上比 Gemini 3.5 Flash 便宜 31 倍且质量更高，且更高思考模式反而导致幻觉增加。

0 人收藏 0 人点赞

#long-horizon-tasks

@0xLogicrw: 智谱 AI 创始人兼首席科学家唐杰预测，今年大模型的最大突破将是长周期任务（Long-Horizon Tasks），AI 能在真实环境中持续运转并解决复杂问题。长周期任务一旦突破，现在的「一人公司」会迅速变成完全由智能体运转的「无员工公…

X AI KOLs Timeline ↗ · 2026-05-13

智谱AI创始人唐杰预测今年大模型最大突破是长周期任务，AI可在真实环境持续解决复杂问题，并提及三大技术支柱及Anthropic的自主训练进展。

0 人收藏 0 人点赞

#long-horizon-tasks

Agent-BRACE：通过语言化状态不确定性在长视距任务中分离信念与行动

arXiv cs.CL ↗ · 2026-05-13 缓存

本文介绍了 Agent-BRACE，该方法将大型语言模型（LLM）智能体解耦为信念状态模型和策略模型，以处理部分可观测环境中的长视距任务。通过语言化状态不确定性，该方法在保持上下文窗口大小恒定的同时，相比基线方法实现了显著的性能提升。

0 人收藏 0 人点赞

#long-horizon-tasks

@jietang：近期思考：向长程任务的转变。今年最有可能的突破将出现在长程任务领域。…

X AI KOLs Timeline ↗ · 2026-05-12

文章探讨了长程人工智能任务和自主代理系统（Autonomous Agents）即将取得的突破，指出企业模式正从“一人公司”向“无人公司”转变。文章强调，记忆、持续学习和自我评判等技术支柱是实现完全自我进化的人工智能系统的关键，这可能重新定义通用人工智能（AGI）和操作系统。

0 人收藏 0 人点赞

#long-horizon-tasks

ReFlect：用于复杂长周期大语言模型推理的有效包装系统

arXiv cs.AI ↗ · 2026-05-08 缓存

本文介绍了 ReFlect，这是一种无需训练的包装系统，通过为大语言模型包裹确定性的错误检测与恢复逻辑，来提升其在复杂、长周期推理任务上的性能。

0 人收藏 0 人点赞

#long-horizon-tasks

面向长视界语言智能体的里程碑引导策略学习

arXiv cs.CL ↗ · 2026-05-08 缓存

本文介绍了 BEACON，这是一种旨在改善长视界语言智能体的信用分配和采样效率的里程碑引导策略学习框架。在 ALFWorld、WebShop 和 ScienceWorld 等基准测试上，该框架表现出显著优于 GRPO 和 GiGPO 的性能提升。

0 人收藏 0 人点赞

long-horizon-tasks

提交意见反馈