long-horizon-tasks

标签

Cards List
#long-horizon-tasks

@0xLogicrw: 智谱 AI 创始人兼首席科学家唐杰预测,今年大模型的最大突破将是长周期任务(Long-Horizon Tasks),AI 能在真实环境中持续运转并解决复杂问题。 长周期任务一旦突破,现在的「一人公司」会迅速变成完全由智能体运转的「无员工公…

X AI KOLs Timeline · 2天前

智谱AI创始人唐杰预测今年大模型最大突破是长周期任务,AI可在真实环境持续解决复杂问题,并提及三大技术支柱及Anthropic的自主训练进展。

0 人收藏 0 人点赞
#long-horizon-tasks

Agent-BRACE:通过语言化状态不确定性在长视距任务中分离信念与行动

arXiv cs.CL · 2天前 缓存

本文介绍了 Agent-BRACE,该方法将大型语言模型(LLM)智能体解耦为信念状态模型和策略模型,以处理部分可观测环境中的长视距任务。通过语言化状态不确定性,该方法在保持上下文窗口大小恒定的同时,相比基线方法实现了显著的性能提升。

0 人收藏 0 人点赞
#long-horizon-tasks

@jietang:近期思考:向长程任务的转变。今年最有可能的突破将出现在长程任务领域。…

X AI KOLs Timeline · 2天前

文章探讨了长程人工智能任务和自主代理系统(Autonomous Agents)即将取得的突破,指出企业模式正从“一人公司”向“无人公司”转变。文章强调,记忆、持续学习和自我评判等技术支柱是实现完全自我进化的人工智能系统的关键,这可能重新定义通用人工智能(AGI)和操作系统。

0 人收藏 0 人点赞
#long-horizon-tasks

ReFlect:用于复杂长周期大语言模型推理的有效包装系统

arXiv cs.AI · 2026-05-08 缓存

本文介绍了 ReFlect,这是一种无需训练的包装系统,通过为大语言模型包裹确定性的错误检测与恢复逻辑,来提升其在复杂、长周期推理任务上的性能。

0 人收藏 0 人点赞
#long-horizon-tasks

面向长视界语言智能体的里程碑引导策略学习

arXiv cs.CL · 2026-05-08 缓存

本文介绍了 BEACON,这是一种旨在改善长视界语言智能体的信用分配和采样效率的里程碑引导策略学习框架。在 ALFWorld、WebShop 和 ScienceWorld 等基准测试上,该框架表现出显著优于 GRPO 和 GiGPO 的性能提升。

0 人收藏 0 人点赞
#long-horizon-tasks

FS-Researcher:基于文件系统的代理实现长视野研究任务的测试时扩展

arXiv cs.CL · 2026-04-20 缓存

FS-Researcher 引入了一个基于文件系统的双代理框架,通过利用持久化外部内存作为共享工作区,使 LLM 代理能够突破上下文窗口限制进行深度研究。该框架在研究基准测试上实现了最先进的结果,并通过向证据收集分配计算来展现有效的测试时扩展能力。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈