标签
本文提出了Robust-TO,一个智能视频理解框架,它整合了每帧的可信度来解决盲信任问题,在真实扰动下实现了显著的精度提升。
Robust-TO通过将每帧可信度集成到智能框架中,解决了视频推理中的盲目信任问题,通过校准证据加权和可靠性感知推理,在现实扰动下提高了准确性。
Qwen-Image-Agent 提出了一种统一的代理框架,通过整合规划、推理、搜索和记忆机制,解决了文本到图像生成中的上下文差距问题。该框架引入了 IA-Bench 进行评估,并取得了最先进的性能。
OmniPath是一个多模态代理框架,结合了OpenStreetMap网络拓扑与航空LiDAR数据,通过高分辨率分析坡度、表面不连续等物理障碍来审计轮椅无障碍性,并经过实地调查验证。
Eve 是 Vercel 推出的一款新的Agent框架,因其基于文件的方法来处理工具、技能和评估,被比作“Next.js for agents”,能够使用 TypeScript 快速构建Agent。
介绍ToolGrad,一个智能体框架,通过文本‘梯度’生成、评估和优化工具使用轨迹,达到近乎100%的通过率,降低数据集生成成本。已被ACL 2026接收。
RL-Index 提出了一种基于强化学习的智能索引框架,通过用LLM生成的解释来扩充文档,将推理从查询阶段转移到索引阶段,从而提升检索效果并降低在线延迟。
AlloSpatial是一个代理框架,通过将自我中心观察转换为结构化的全局空间表征,利用认知映射和工具使用推理,增强基础模型的空间推理能力。在基准测试中性能提升5%-18%,并通过冷启动强化学习胜过更大的模型。
ProSPy 是一个面向企业文本到 SQL 的剖析驱动型 SQL-Python 智能体框架,将推理过程结构化分为四个阶段:自动剖析、模式剪枝、方言无关的 SQL 接口以及基于 Python 的分析。在使用 Claude-4.5-Opus 模型时,它在 Spider 2.0-Lite 和 Spider 2.0-Snow 数据集上分别达到了 60.15% 和 60.51% 的执行准确率,优于多个强基线模型。
QueryAgent-R1是一个智能体框架,利用强化学习和记忆抽象桥接电商中的查询生成与商品检索,在线测试中查询点击率提升2.9%,转化率提升3.1%。
谷歌新论文提出LEAP框架,一种智能体框架,使通用大语言模型能够通过规划证明并检查每一步来解决形式化数学问题,在Lean IMO基准测试上将性能从低于10%提升至70%,并解决了所有2025年的Putnam问题。
Evo是一个开源工具,提供半自主代理通过并行实验优化代码库,利用树搜索和多个子代理自主发现并改进指标。
LEAP是一种代理框架,使通用LLMs能够在Lean中实现形式定理证明的最新性能,解决了2025年普特南竞赛的全部12个问题,并在新基准(Lean-IMO-Bench)上将形式化证明率从低于10%提升至70%,超越了专门系统。
MapAgent 是一个工业级自主框架,融合视觉语言处理与约束感知推理,能够自动生成符合规范的车道级地图,已在百度地图中为超过360个城市实现了95%以上的自动化。
MOSAIC 提出了一种用于自动化数据科学的结构化代理框架,该框架基于记忆驱动的模型选择和工作流构建,并在金融时间序列任务上得到验证。其性能优于 AutoML 及其他基于代理的基准方法。
HypoAgent是一种面向知识图谱的交互式溯因假设生成的智能体框架,集成了三个智能体以处理不断变化的用户意图和细粒度诊断,实现了最先进的性能。
ACO System 是一个开源的多智能体框架,通过六个专门的AI智能体自主管理从GitHub Issue到合并PR的软件开发流水线,并配备确定性的架构师关卡以防止不良PR。
本文介绍了RACE-Sched,一种异步智能体框架,它将实时反应式调度与基于LLM的深思熟虑推理解耦,以处理动态作业车间调度问题,在DRL和其他基准方法上取得了更优的性能。
介绍了多智能体残差上下文学习(MARICL),这是一种智能体框架,利用LLM智能体分析基础模型在表格数据上的残差,假设缺失的结构,并通过文本梯度优化产生显式的修正项。在九个基准测试中,MARICL持续优于其基础模型,并在无细胞蛋白质预测中展示了机制泛化能力。
Research Math Agents (RMA) 是一个用于研究级数学问题自动推理的智能体框架,在 First Proof 基准测试中取得最先进结果,解决了10个问题中的8个,优于 GPT-5.2R 和 Aletheia 等强基线。