@dair_ai: https://x.com/dair_ai/status/2068724104815890889
摘要
重点介绍近期三篇AI论文:SpatialClaw(通过代码实现无需训练的空间推理),SkillWeaver(组合式技能路由,采用分解-检索-组合流水线),以及PreAct(将智能体运行编译为快速状态机,用于重复任务)。
查看缓存全文
缓存时间: 2026/06/22 05:32
本周顶级AI论文
本周(6月14日-6月21日)顶级AI论文
1. SpatialClaw
三维和四维场景的空间推理仍然是通用视觉-语言模型的薄弱点,因为它们直接输出文本答案而非进行实际测量。来自NVIDIA的SpatialClaw是一个无需训练的框架,它重新设计了动作接口,让基于VLM的智能体通过代码进行推理。该智能体每一步向一个预加载了感知原语和科学库的持久化Jupyter内核写入一个Python单元,然后检查中间结果并在各步之间修正策略。
-
代码作为动作接口: 像SAM3分割、Depth-Anything-3重建以及几何工具等感知工具都作为纯Python可调用函数暴露出来,因此智能体以编程方式组合它们,而非从像素中猜测空间关系。
-
持久化、有状态的内核: 掩码、深度图、相机几何和轨迹都是普通的Python变量,内核会在各轮之间保留它们,因此任何步骤产生的对象都能在后续步骤中用于组合、检查和修正。
-
无需适应即获强大结果: 在涵盖静态和动态任务的20个空间推理基准上,SpatialClaw达到59.9%的平均准确率,比之前的空间智能体高出11.2个百分点,并且在两个模型家族的六种VLM主干上均取得一致提升。
-
为何重要: 由于它无需训练且与模型无关,SpatialClaw将代码执行转化为空间推理的通用基板,任何有能力的VLM都可以接入,而无需专门的微调。
论文 | 推文
2. Compositional Skill Routing
实际任务很少对应单一技能。它们通常需要组合多种技能,然而大多数技能路由仍将问题视为从库中挑选一个工具。本工作将组合技能路由(Compositional Skill Routing)形式化,即智能体必须从大型库中选择并排序多个可复用技能以满足复杂查询,并引入了SkillWeaver——一个围绕该问题构建的分解-检索-组合流程。
-
三阶段流程: SkillWeaver首先用LLM将查询分解为子任务,然后使用带FAISS索引的双编码器将每个子任务匹配到一项技能,最后执行依赖感知规划以组装出可执行的计划。
-
真实基准: 作者发布了CompSkillBench,一个包含300个组合查询的基准,覆盖24个功能类别的2,209个真实MCP服务器技能,因此路由测试的是真实工具生态系统而非玩具库。
-
分解是瓶颈: 任务分解质量成为主要限制因素,而迭代式技能感知分解(将检索信息反馈到分解步骤中)将准确率从51.0%提升至67.7%。
-
为何重要: 随着智能体技能库扩展到数千条目,单工具路由已不再够用,将路由视为组合规划问题才能让智能体处理真正的多步骤请求。
论文 | 推文
3. PreAct
计算机使用智能体通过屏幕驱动真实软件,但它们每次从头解决任务。要求重复执行某一任务时,它会重新读取屏幕、重新推理每次点击,再次支付全部成本。PreAct通过将首次成功运行编译成一个小的状态机程序来解决这个问题,其中状态检查屏幕、转换执行动作,然后在后续运行中重放该程序而非调用智能体。
-
将运行编译为状态机: 完成的任务被捕获为显式程序而非自由形式的轨迹,将一次性解决方案转化为可确定性执行的可复用产物。
-
重放时无需每步模型调用: 编译后的程序重放运行速度比智能体快8.5到13倍,因为在重复任务上无需每步调用语言模型。
-
天生安全: 每一步PreAct都会检查屏幕是否与程序预期匹配,然后在执行动作前进行确认,一旦出现问题就控制权交还给智能体,并且只存储那些经独立评估器确认能从干净状态解决问题的程序。
-
为何重要: 这将计算机使用智能体从需要重新推理一切的交互工具转变为可重复的操作系统,这正是将其部署于重复性实际工作所需要的。
论文 | 推文
4. Can LLM Agents Infer World Models?
LLM智能体能否真正构建一个它看不到的环境模型?本工作通过智能体自动机学习使该问题可评分。智能体必须通过与一个预言机交互来发现隐藏的确定性有限自动机,交互通过两种接口:归属查询(询问某个字符串是否属于目标语言)和等价查询(询问提议的自动机是否正确),这为交互式发现提供了一个干净、可扩展的测试平台。
-
可评分的世界模型测试: 将世界模型推断视为DFA学习,提供了客观的成功标准和可衡量的交互效率,并以经典的自动机学习算法作为强大且理解充分的基线。
-
可控、可扩展的难度: 隐藏自动机的大小作为难度调节旋钮,因此基准可以平滑地扩展任务复杂度,而非依赖一组固定谜题。
-
智能体落后于经典算法: 当前智能体有时能执行非平凡的交互式发现,但随着DFA规模增大,性能急剧下降,轨迹分析揭示了查询规划、证据整合和假设构建方面的反复失败。
-
为何重要: 推理模型明显优于非推理模型,但与经典算法之间的巨大差距表明,系统性的交互式世界模型构建仍然是一项未解决的能力,而非规模化的副产品。
论文 | 推文
5. From Trainee to Trainer
谁应该为RL智能体设计训练环境?是实践者还是策略本身?LLM的RL流程通常依赖于阶段之间手动重新设计的环境,实践者猜测哪种配置最能改进当前策略。本文将这一工作交给模型,提出了“LLM作为环境工程师“框架,其中策略自行诊断其弱点并提出下一个训练环境。
-
策略设计自己的课程: 不再由人类在阶段之间重塑环境,当前策略分析失败轨迹并结合上下文信息,提出对下一阶段训练环境配置的修改。
-
失败驱动的环境编辑: 因为建议基于策略的实际失败模式,课程针对的是阻碍模型的具体差距,而非泛泛的难度提升。
-
学员成为教练: 一个关键发现是,当前的RL检查点作为环境工程师比原始基础模型更好,表明学会行动也提升了模型诊断自身能力不足的能力。
-
为何重要: 阶段之间手动环境设计是LLM RL中最难扩展的部分之一,让策略引导自己的课程关闭了一个缓慢的人机交互步骤,这一步骤一直制约着智能体RL。
论文 | 推文
6. OpenClaw-Skill
为LLM智能体配备有效技能是实际系统中的主要挑战,然而大多数技能归纳工作是一次蒸馏一条轨迹,产生的技能狭窄且脆弱。OpenClaw-Skill引入了集体技能树搜索(Collective Skill Tree Search),这是一个基于树搜索的技能构建框架,构建结构化、多样化且可泛化的技能树,然后训练智能体实际使用它构建的内容。
-
集体技能树搜索: CSTS不是将单条轨迹蒸馏成一个单独技能,而是在候选技能树上进行搜索,使用多个模型生成和评估技能,使库包含多样化的策略。
-
结构化、可复用的技能树: 层次化组织技能产生跨工具使用、多步骤推理和环境交互的通用能力,而非过度拟合单一任务。
-
训练智能体利用技能: 构建树只是工作的一半,因此框架将构建与学习步骤配对,教会智能体有效检索和应用所构建的技能层次。
-
为何重要: 可复用的技能库正成为有能力的智能体的支柱,从逐轨迹蒸馏转向集体树搜索是使库在任务增长时保持有用的具体方法。
论文 | 推文
7. Back on Track
扩散大语言模型以与自回归模型不完全契合的方式生成文本,而为自回归模型构建的强化学习方法在训练它们进行推理时暴露了两个特定问题。奖励稀疏导致单个终端奖励无法指导中间生成步骤,策略更新有时会漂移到不自然的轨迹而非真实的生成路径。本文提出过程对齐策略优化(Process Aligned Policy Optimization)来解决这两个问题。
-
明确两种失败模式: 该工作将稀疏奖励和轨迹漂移确定为扩散LLM进行稳定RL训练的核心障碍,而非将训练不稳定视为黑箱。
-
步感知过程奖励: PAPO将终端奖励转化为细粒度的步级指导,使中间去噪步骤获得学习信号,而非等待单一的序列结束分数。
-
熵引导的重演: 在关键的高不确定性时刻,该方法重放真实的生成路径,使更新与模型实际生成文本的方式保持一致,而非追逐人为轨迹。
-
为何重要: 扩散LLM是自回归模型的严肃替代方案,为它们提供稳定的推理RL方法(在GSM8K和MATH500等基准上获得4.5%至42.2%的提升)有助于缩小两种范式之间的推理差距。
论文
8. AtomMem
LLM智能体的长期记忆往往以两种方式失效:粗糙的摘要随时间漂移,无约束的更新破坏已存储的内容。AtomMem将记忆单元保持得很小,使用事实执行器(Fact Executor)从长对话中选择性提取高价值的原子事实,并将其组织成层次化的事件结构和时间用户画像,同时配备一个关联记忆图,在检索时重新连接碎片化的记忆。该方法在LoCoMo长期记忆基准上报告了最先进的结果。
论文 | 推文
9. Beyond Domains
LLM网页智能体通常以工具调用方式运行,每轮读取一个新页面并发出一个低级动作,因此任务长度和LLM完成数都会膨胀。本工作通过SkillMigrator使网页技能跨站点可复用,该工具将归纳出的技能存储为以页面布局结构(而非指令相似性或站点元数据)为键的可迁移交互模式,因此在一个站点学到的技能能在具有相同交互形状的新站点上触发。在WebArena和Mind2Web上,它以相近的成功率将平均LLM动作数减少了8%至10%。
论文 | 推文
10. The Stanford EDGAR Filings Dataset
干净的长上下文文档在预训练中仍然稀缺,尤其是在金融领域。本数据集将美国SEC公司和财务披露文件重建为布局保真、令牌高效的MultiMarkdown格式,发布了包含152B令牌的SEFD-v1(预估550B令牌档案的一部分,涵盖1850万份文件),与Common Crawl语料库的重叠率低于0.1%。它还附带两个衍生基准:用于数值预测的EDGAR-Forecast和用于金融表格转录的EDGAR-OCR,以支持金融推理、预测和文档理解。
论文
相似文章
@dair_ai: 本周最佳AI论文(6月14日至6月21日):- PreAct - SpatialClaw - Back on Track - OpenClaw-Skill - From Train…
由@dair_ai分享的6月14日至21日顶级AI论文精选列表,包括PreAct、SpatialClaw等。
@dair_ai: https://x.com/dair_ai/status/2061104052818108476
三篇值得关注的人工智能论文综述:SkillOpt 将技能文档视为可训练参数以优化冻结的智能体;一种新方法将智能体工作流编译成模型权重,实现100倍成本降低;而 AutoScientists 引入了一个去中心化智能体团队,无需中央规划者即可进行长期科学研究。
@dair_ai: https://x.com/dair_ai/status/2053495521243799717
DAIR AI 的每周精选汇总了多项重磅研究论文,包括通过内化并行推理提升模型性能的 HeavySkill,以及利用强化学习优化智能体编排的 Sakana AI Conductor。此外,还涵盖了 Meta FAIR 关于自我改进预训练的研究工作。
@dair_ai: https://x.com/dair_ai/status/2058537927823556668
本周(5月18-24日)顶级AI论文综述,涵盖关于代理的code-as-harness调查、OpenAI自主解决单位距离猜想,以及一种无需遗忘的持续学习记忆模型。
@dair_ai: https://x.com/dair_ai/status/2056018543850754283
一份关于5月11日至17日顶级人工智能论文的综述,涵盖了用于长上下文预训练的Lighthouse Attention、grep与嵌入检索在编码代理中的对比,以及揭示LLMs中几何计算器的机制可解释性工作。